模型表現好,金牌少不了。
剛剛,中文大模型測評基準SuperCLUE發布《中文大模型基準測評2024年10月報告》:
商湯日日新·商量大模型(SenseChat5.5)憑借出色的能力表現,總得分位列國內大模型第一梯隊,獲得金牌。
本次SuperCLUE10月報告覆蓋23個國內模型,聚焦語言大模型的通用能力評估,分為三大維度:除了考察“文科”、“理科”基礎能力外,還有考察模型更高階能力的“Hard”附加任務,總共2900+道題:
【理科任務】分為計算、邏輯推理、代碼、工具使用測評集;
【文科任務】分為知識百科、語言理解、長文本、角色扮演、生成與創作、安全六大測評集;
【Hard任務】分為精確指令遵循測評集,復雜任務高階推理測評集。
商湯SenseChat5.5在多項評測任務中均位列第一梯隊,文科中語言理解、安全等維度表現突出,也是理科中邏輯推理、代碼學科的“尖子生”。
值得注意的是,在【Hard】的兩項任務——精準指令遵循和高階推理中,商湯SenseChat5.5是唯一兩項任務均位于國內第一梯隊的大模型,體現了模型優秀的復雜推理智能。
未來,商湯將繼續堅持基礎大模型的持續研發與投入,不斷提升真正高階推理及“慢思考”能力。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
原文標題:近3000道題,商湯大模型拿了金牌
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
相關推薦
國際權威咨詢機構IDC近日發布《中國智算服務市場(2024上半年)跟蹤》報告。報告顯示,2024年上半年,商湯科技作為國內領先的智算服務商,以13.3%的市場份額穩居GenAI IaaS市場Top3,位列GenAI IaaS領域
發表于 12-24 09:23
?254次閱讀
剛剛,商湯科技日日新SenseNova多模態大模型,在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。
發表于 12-20 10:39
?191次閱讀
SuperCLUE發布《中文大模型基準測評2024上半年報告》,報告選取國內外有代表性的33個大模型在6月份的版本,通過多維度綜合性測評,對國內外大
發表于 09-12 14:41
?605次閱讀
,與火山引擎、阿里巴巴共同躋身2023年下半年中國GenAI IaaS服務廠商TOP 3,以顯著的市場份額優勢位居GenAI IaaS領域的第一梯隊。
發表于 07-30 11:00
?781次閱讀
近日,中國電信上海公司公布《產數開發代碼助手》項目采購結果:憑借「日日新」大模型出色的代碼能力,商湯科技中標。由「商湯?小浣熊家族」系列產品團隊提供相關業務產品服務支持。
發表于 07-29 14:25
?542次閱讀
7月6日,WAIC 2024迎來第三天。 商湯科技全新升級的「日日新SenseNova 5.5」備受熱議,作為國內首個具備流式原生多模態交互能力的大模型,交互效果和多項核心指標實現
發表于 07-08 15:54
?629次閱讀
商湯科技近日震撼發布其最新的日日新5.5大模型體系,標志著人工智能領域又邁出了堅實的一步。該體系以6000億參數的超大規模基礎模型——
發表于 07-08 15:05
?571次閱讀
近日,人工智能領軍企業商湯科技正式對外發布了其最新研發成果——日日新大模型5.0粵語版。該模型針對粵語用戶進行了深度優化,旨在提供更精準、更高效的自然語言處理服務。
發表于 05-30 09:21
?633次閱讀
日前,中文大模型測評基準SuperCLUE發布最新榜單,對商湯科技全新升級「日日新SenseNova 5.0」大模型進行了全方位綜合性測評,結果顯示在SuperCLUE綜合基準上,
發表于 05-21 14:45
?752次閱讀
在盛大的“新質企業家聯合會”成立典禮上,商湯科技副總裁、智慧城市與商業事業群總裁張果琲宣布了一項重要消息。商湯科技即將推出日日新大模型5.0
發表于 05-13 10:58
?592次閱讀
商湯科技即將迎來一項重要更新,他們將發布日日新大模型5.0的粵語版本。這一版本是基于商湯科技現有
發表于 05-08 09:33
?499次閱讀
商湯科技近日隆重推出全新升級的“日日新SenseNova 5.0”大模型,其卓越性能贏得了業界的廣泛贊譽。憑借這一行業領先的技術實力,商湯絕
發表于 05-07 14:13
?563次閱讀
昨日,商湯科技在滬舉辦技術交流日活動,公布了其“云、端、邊”全棧大模型產品矩陣,并對“日日新SenseNova 5.0”大模型體系進行了全面升級。基于此,
發表于 04-24 17:17
?690次閱讀
商湯科技“日日新SenseNova 4.0”正式發布,標志著大模型體系的一次重大飛躍。該模型在知識覆蓋、推理能力、長文本理解、數字推理以及代
發表于 02-05 10:29
?921次閱讀
商湯科技近日發布了新版的日日新·商量大語言模型-通用版本(SenseChat V4)。這一版本的模型
發表于 02-04 10:30
?966次閱讀
評論