欢乐颂小说在线阅读,完美世界有声小说,大主宰天蚕土豆小说

自2023年以來，AI大模型在全球范圍內掀起了有史以來規模最大的人工智能浪潮。國內學術和產業界在過去一年也有了實質性的突破。中文大模型測評基準SuperCLUE在過去一年對國內外大模型的發展趨勢和綜合效果進行了實時跟蹤。

基于此，SuperCLUE團隊發布了《中文大模型基準測評2023年度報告》，在AI大模型發展的巨大浪潮中，通過多維度綜合性測評，對國內外大模型發展現狀進行觀察與思考。

國內大模型關鍵進展012023年大模型關鍵進展與中文大模型全景圖

國內學術和產業界在過去一年也有了實質性的突破。大致可以分為三個階段，即準備期（ChatGPT發布后國內產學研迅速形成大模型共識）、成長期（國內大模型數量和質量開始逐漸增長）、爆發期（各行各業開源閉源大模型層出不窮，形成百模大戰的競爭態勢）。

截止目前為止，國內已發布開源、閉源通用大模型及行業大模型已有上百個，SuperCLUE梳理了2023年值得關注的大模型全景圖。

022023年國內外大模型發展趨勢

過去半年，國內領軍大模型企業實現了大模型代際追趕的奇跡，從7月份與GPT3.5的20分差距，每個月都有穩定且巨大的提升，到11月份測評時已經完成總分上對GPT3.5的超越。

數據來源于SuperCLUE基準得分(7月-12月)

我們可以看到GPT3.5和GPT4在中文上的表現情況基本一致，在11月份測評結果中顯示，在中文能力都有一定的下滑，而國內頭部模型則展現了繼續穩健提升的能力。在12月份的測評結果中可以看到，國內第一梯隊模型與GPT4的差距在縮小。但仍有較大的距離需要追趕。

數據來源于SuperCLUE基準得分(7月-12月) 說明：趨勢展示，選取了7月-12月SuperCLUE-OPEN測評分數。國內代表性模型，選取了文心一言、通義千問、ChatGLM。原因是綜合考慮了過去半年SuperCLUE測評結果、長期穩定迭代及對國內大模型生態的貢獻；GPT4成績，由GPT4-API(7-9月)與GPT4-Turbo(10-12月)組成，用以表現國外最好模型發展。 ?大模型綜合測評結果?01測評模型列表

本次測評數據選取了SuperCLUE-12月測評結果，模型選取了國內外有代表性的26個大模型在12月份的版本。

02SuperCLUE模型象限

SuperCLUE評測任務可劃分為基礎能力和應用能力兩個維度。

基礎能力，包含：專業與技能、語言與知識（不包括角色扮演）、傳統安全；

應用能力，包括：工具使用、角色扮演。

基于此，SuperCLUE構建了大模型四個象限，它們代表大模型所處的不同階段與定位，其中【潛力探索者】代表模型正在技術探索階段擁有較大潛力；【技術領跑者】代表模型聚焦基礎技術研究；【實用主義者】代表模型在場景應用上處于領先定位；【卓越領導者】代表模型在基礎和場景應用上處于領先位置，引領國內大模型發展。

03國內外大模型總體表現

來源：SuperCLUE, 2023年12月28日

國內外差距依然明顯。GPT4-Turbo總分90.63分遙遙領先，高于其他國內大模型及國外大模型。其中國內最好模型文心一言4.0(API)總分79.02分，距離GPT4-Turbo有11.61分，距離GPT4(網頁)有4.9分的差距。

必須看到的是，過去1年國內大模型已經有了長足的進步。綜合能力超過GPT3.5和Gemini-Pro的模型有11個，比如百度的文心一言4.0、阿里云的通義千問2.0和Qwen-72B-Chat、OPPO的AndesGPT、清華&智譜AI的智譜清言、字節跳動的云雀大模型等都有比較好的表現。

另外國內開源模型在中文上表現要好于國外開源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均優于Llama2-13B-Chat。

國外模型平均成績 VS 國內模型平均成績

在SuperCLUE測評中，國外模型的平均成績為69.42分，國內模型平均成績為65.95分，差距在4分左右。可以看出，國內外的平均水平差距在縮小，11月差距在10分左右。04國內大模型競爭格局

通過SuperCLUE測評結果發現，國內大模型的第一梯隊有了更多新的模型加入。頭部模型如文心一言4.0、通義千問2.0引領國內大模型的研發進度，部分高質量大模型緊追不舍，分別在閉源應用和開源生態中形成自己獨特的優勢。

來源：SuperCLUE, 2023年12月28日

從國內TOP19大模型的數量來看，創業公司有9個，大廠有10個，占比幾乎持平。

從大廠和創業公司的平均成績來看，大廠研發的大模型平均成績為69.42分，創業公司研發的大模型平均成績為62.09分，差值約6.33分，較11月份差距在略有增大。這說明大廠在大模型競爭中長期資源投入方面有一定優勢。

05國內大模型歷月前三甲

過去八個月國內模型在SuperCLUE基準上的前三名。

來源：SuperCLUE

曾經取得過SuperCLUE月榜首位的大模型有6個。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中，百度的文心一言登頂SuperCLUE月榜的次數最多，分別在7月、11月、12月取得了SuperCLUE最好成績。

我們可以看到，在國內大模型技術發展初期階段，各家大模型公司都投入了巨大的人力、算力和數據資源，以至于每個月測評結果的前三甲都不同程度的變化，經常會因為新發布的高質量模型引起榜單的變化。預計未來一年同樣會發生類似的情況。也非常期待有高質量模型能夠持續保持非常高的水準。

06大模型對戰勝率分布圖

從勝率來看，全球領跑者GPT4-Turbo勝率為41.77%，和率為52.46%，大幅領先于其他模型，而敗率僅為5.77%，足以說明GPT4-Turbo對GPT3.5在各項能力上的全面壓倒性優勢。而國內模型中，百度的文心一言4.0勝率國內最高，接近30%。勝率超過25%的模型有智譜清言、通義千問2.0和AndesGPT。