近日,上海AI實驗室和上海市數字醫學創新中心聯合推出的MedBench評測更新榜單,云知聲山海大模型醫療行業版(UNIGPT-MED) 以綜合得分54.7的優異成績登頂榜首,充分彰顯其硬核醫療實力。
醫療領域中文大模型不斷涌現,如何對它們進行專業、科學的評測成為行業眼下亟待解決的問題。在此背景下,上海AI實驗室和上海市數字醫學創新中心基于OpenCompass大模型開放評測體系,聯合推出中文醫療大語言模型開放評測平臺MedBench,吸引了螞蟻、商湯、百川、智譜等諸多大模型企業和研究機構參與其中,共同推進醫療大語言模型全面、專業、互認的評測體系建設。
基于醫學語言理解、醫學語言生成、醫學知識問答、復雜醫學推理、醫療安全和倫理5大維度,MedBench設置15項任務、20個數據集及30萬道題目,為中文醫療大模型提供了客觀科學的性能評測參考。
此次云知聲參與評測的醫學行業版大模型UNIGPT-MED在山海大模型升級的基礎上,通過多年深耕醫療行業所積累的海量行業數據進行增量訓練,并結合RLHF和RLAIF方法,生成大量符合偏好的醫學數據,顯著提升了模型在醫學領域的專業性能和準確性,使其在MedBench的多個評測維度中展現出出色的實力,并在醫學知識問答、醫學語言理解兩大關鍵維度中拔得頭籌。
醫學知識問答評測得分
醫學語言理解評測得分
這一成績的取得,是云知聲在大模型賽道持續深耕、不斷技術創新的成果體現。
作為中國AGI技術產業化的先行者,云知聲于2016年開始打造Atlas人工智能基礎設施,并以此為基礎,構建云知大腦(UniBrain)技術中臺——以山海(UniGPT)通用認知大模型為核心,結合多模態感知與生成、知識圖譜、物聯平臺等智能組件,為云知聲智慧物聯、智慧醫療、智慧座艙、智慧交通等業務提供高效的產品化支撐,持續推動“U(云知大腦)+X(應用場景)”戰略布局,致力推動千行百業的智慧化升級。
作為云知大腦的核心,山海大模型具備語言生成、語言理解、知識問答、邏輯推理、代碼能力、數學能力、安全合規能力七項通用能力及插件擴展、領域增強、企業定制三項行業落地能力,且目前已由大語言模型升級至多模態大模型,拓展出文生圖、文生視頻、圖片問答等多模態能力,能夠滿足更多場景的應用需求。
目前,最新版本的山海大模型通用大模型能力已超越GPT-3.5,并在上個月的OpenCompass大模型評測中排名國產大模型廠商第四、全球大模型廠商第六,其在中英文雙語客觀評測中的語言、知識、推理能力,在綜合性中文主觀評測中的創作能力更是超越了GPT-4,躋身通用大模型第一梯隊。
在醫療專業能力上,山海大模型于2023年6月的MedQA任務中超越Med-PaLM 2,取得87.1%的優異成績;在臨床執業醫師資格考試中提升至523(總分600分),超過99%的考生水平。其基于山海大模型孵化的醫療大模型,也在CCKS 2023 PromptCBLUE醫療大模型評測中奪得通用賽道一等獎。
此次登頂MedBench評測榜,再次證實了云知聲山海大模型在醫療領域的突出實力,也將鞭策云知聲持續迭代大模型技術底座,實現大模型技術在多領域場景下的滲透和應用,以技術創新為各行各業帶來更多智能化變革。
-
人工智能
+關注
關注
1791文章
47279瀏覽量
238499 -
GPT
+關注
關注
0文章
354瀏覽量
15373 -
云知聲
+關注
關注
0文章
185瀏覽量
8391 -
大模型
+關注
關注
2文章
2450瀏覽量
2707
原文標題:登頂上海AI實驗室權威大模型評測榜,云知聲醫療專業能力再獲認可
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論