5月11日訊,多方企業與機構聯手的日本研究小組昨日公布了Fugaku-LLM大型模型。該模型最大特點在于在Arm架構超算“富岳”上完成了訓練。
自2023年5月起,Fugaku-LLM模型的開發工作開始展開,最初參與團隊包括富士通、東京工業大學、日本東北大學以及日本理化學研究所(簡稱理研)。
至同年8月,又有三家合作伙伴——名古屋大學、CyberAgent(同時也是游戲巨頭Cygames的母公司)及HPC-AI領域創新企業Kotoba Technologies加入項目。
研究團隊在昨日的新聞發布會上表示,他們成功利用富岳超算的強大性能,使矩陣乘法運算速度提升6倍,通信速度提高3倍,從而證明大型純CPU超算同樣適用于大模型訓練。
Fugaku-LLM模型參數規模達13B,成為日本國內最大的大型語言模型。
該模型采用13824個富岳超算節點,在3800億個Token上進行訓練,其中60%為日語數據,其余40%涵蓋英語、數學、代碼等內容。
研究團隊表示,Fugaku-LLM模型能夠在交流過程中自然運用日語敬語等特殊表達方式。
在測試結果方面,該模型在日語MT-Bench模型基準測試中的平均得分高達5.5,位列基于日本語料資源的開放模型之首;在人文社科類別的測試中更獲得了9.18的高分。
現如今,Fugaku-LLM模型已在GitHub和Hugging Face平臺公開發布,外部研究人員和工程師可在遵循許可協議的基礎上,將該模型應用于學術和商業領域。
-
cpu
+關注
關注
68文章
10863瀏覽量
211765 -
模型
+關注
關注
1文章
3243瀏覽量
48840 -
語言模型
+關注
關注
0文章
524瀏覽量
10277 -
大模型
+關注
關注
2文章
2450瀏覽量
2707
發布評論請先 登錄
相關推薦
評論