在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

悟道·天鷹 Aquila + 天秤 FlagEval,打造大模型能力與評測標準雙標桿

硬科技星球 ? 來源:硬科技星球 ? 作者:硬科技星球 ? 2023-06-27 16:37 ? 次閱讀

為推動大模型在產業落地和技術創新,智源研究院發布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果,打造“大模型進化流水線”,持續迭代、持續開源開放。

01

悟道·天鷹(Aquila)

開源商用許可語言大模型系列

悟道·天鷹(Aquila) 語言大模型是首個具備中英雙語知識、支持商用許可協議、國內數據合規需求的開源語言大模型。

悟道·天鷹(Aquila)語言大模型在中英文高質量語料基礎上從 0 開始訓練,通過數據質量的控制、多種訓練的優化方法,實現在更小的數據集、更短的訓練時間,獲得比其它開源模型更優的性能。系列模型包括 Aquila基礎模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode-7B “文本-代碼”生成模型,

后續將持續更新迭代并開源更新版本。

開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基礎模型(7B、33B)

在技術上繼承了 GPT-3、LLaMA 等的架構設計優點,替換了一批更高效的底層算子實現、重新設計實現了中英雙語的 tokenizer,升級了 BMTrain 并行訓練方法,實現了比 Magtron+DeepSpeed ZeRO-2

將近8倍的訓練效率

AquilaChat 對話模型(7B、33B)

支持流暢的文本對話及多種語言類生成任務,通過定義可擴展的特殊指令規范,實現 AquilaChat對其它模型和工具的調用,且易于擴展。例如,調用智源開源的 AltDiffusion 多語言文圖生成模型,實現了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,輕松實現對人臉圖像的多步可控編輯。

AquilaChat 訓練過程中,實現了模型能力與指令微調數據的循環迭代,包括數據集的高效篩選與優化,充分挖掘基礎模型的潛力。

AquilaChat 支持可擴展的特殊指令規范,令用戶可在AquilaChat中輕松實現多任務、工具的嵌入,如文圖生成,下圖示例為在對話中調用智源開源的多語言文圖生成模型 AltDiffusion。

AquilaChat 具備強大的指令分解能力,配合智源InstructFace多步可控文生圖模型,輕松實現對圖片的多步可控編輯。

AquilaCode-7B “文本-代碼”生成模型,

基于 Aquila-7B 強大的基礎模型能力,以小數據集、小參數量,實現高性能,是目前支持中英雙語的、性能最好的開源代碼模型,經過了高質量過濾、使用有合規開源許可的訓練代碼數據進行訓練。

此外,AquilaCode-7B 分別在英偉達和***上完成了代碼模型的訓練,并通過對多種架構的代碼+模型開源,推動芯片創新和百花齊放。

02

天秤(FlagEval)

大模型評測體系及開放平臺

天秤(FlagEval)大模型評測體系及開放平臺,旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用AI方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。

目前已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎模型、跨模態基礎模型實現評測。后續將全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象,包括自然語言處理(NLP)、計算機視覺(CV)、語音(Audio)及多模態(Multimodal)等四大評測場景和豐富的下游任務。

首期推出的 FlagEval 大語言模型評測體系,創新構建了“能力-任務-指標”三維評測框架,細粒度刻畫基礎模型的認知能力邊界,可視化呈現評測結果,總計 600+ 評測維度,任務維度包括 22 個主觀&客觀評測數據集。除了知名的公開數據集 HellaSwag、MMLU、C-Eval等,FlagEval 還集成了包括智源自建的主觀評測數據集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大學與閩江學院共建的語義關系判斷、多義詞理解、修辭手法判斷評測數據集。更多維度的評測數據集也在陸續集成中。

FlagEval 評測榜單目前涵蓋了前面談到的22 個主觀和客觀評測集,84433 道題目,細粒度刻畫大模型的認知能力。基于“悟道 · 天鷹”Aquila 基礎模型(7B)打造的 AquilaChat 對話模型,在 FlagEval 大語言模型評測榜單上,目前暫時在“主觀+客觀”的評測上領先其他同參數量級別的開源對話模型。

在我們當前的最新評測結果中,AquilaChat 以大約相當于其他模型 50% 的訓練數據量(SFT 數據+預訓練數據分別統計)達到了最優性能。

但由于當前的英文數據僅訓練了相當于Alpaca的40%,所以在英文的客觀評測上還暫時落后于基于 LLaMA 進行指令微調的Alpaca。隨著后續訓練的進行,我們相信很快可以超越。

悟道·天鷹(Aquila)模型還在迭代進步的過程中,天秤(FlagEval)評測能力也在不斷的擴充中,因而此評測結果只是暫時的,新的評測結果還會不斷更新。此外,FlagEval的評測體系方法及相關研究還需要繼續深入,當前對模型能力的覆蓋程度仍有很大的進步空間,智源也期待與多方合作,共同打造全面、科學的評測方法體系。

天秤(FlagEval)開放評測平臺現已開放申請(flageval.baai.ac.cn),打造自動化評測與自適應評測機制,可輔助模型研發團隊利用評測結果指導模型訓練,同時支持英偉達、昇騰(鵬城云腦)、寒武紀、昆侖芯等多種芯片架構及 PyTorch、MindSpore 等多種深度學習框架。

作為“科技創新2030”旗艦項目重要課題,天秤(FlagEval)正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術標準化研究院、中國科學院自動化研究所等合作單位共建(按首字母排序),定期發布權威評測榜單。

總的來說,智源此次發布的 2 大重磅成果僅僅是一個新的起點:

一方面,悟道 · 天鷹 Aquila 語言大模型將不斷完善訓練數據、優化訓練方法、提升模型性能,在更優秀的基礎模型基座上,培育枝繁葉茂的“模型樹”,持續開源開放。

另一方面,天秤 FlagEval 大模型評測體系及開放平臺將繼續拓展“大模型認知能力”框架,集成豐富的數據集與評測指標,并探索與心理學、教育學、倫理學等社會學科的交叉研究,以期更加科學、全面地評價語言大模型。

「模型 + 評測」雙輪驅動,

加速大模型技術創新與產業落地。歡迎學界、產業界同仁提供建議。

審核編輯黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大模型
    +關注

    關注

    2

    文章

    2490

    瀏覽量

    2865
收藏 人收藏

    評論

    相關推薦

    首批首家!DataCanvas Alaya NeW智算操作系統通過中國信通院“大模型計算資源調度平臺” 標準評測

    1月8日,“大模型工程化成果發布會”在北京圓滿召開。會上,中國信息通信研究院(簡稱“中國信通院”)正式發布6項AIInfra(人工智能基礎平臺)標準成果,憑借領先的應用效能和靈活的擴展能力,九章云極
    的頭像 發表于 01-10 11:24 ?110次閱讀
    首批首家!DataCanvas Alaya NeW智算操作系統通過中國信通院“大<b class='flag-5'>模型</b>計算資源調度平臺” <b class='flag-5'>標準</b><b class='flag-5'>評測</b>

    騰訊混元文生圖登頂智源FlagEval評測榜首

    近日,北京智源人工智能研究院(BAAI)發布了最新的FlagEval模型評測排行榜,其中多模態模型評測榜單的文生圖
    的頭像 發表于 12-25 10:06 ?208次閱讀

    商湯日日新多模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova多模態大模型,在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?257次閱讀

    國家管網集團與華為聯合打造“管網”大模型

    近日,國家管網集團 “管網”大模型正式上線應用。“管網”大模型基于華為算力底座和技術棧,打造“管網制度流程+數據+IT+大模型”體系,構建具有管網特色的大
    的頭像 發表于 12-04 11:07 ?351次閱讀

    通用大模型評測標準正式發布

    近日,在2024中國移動全球合作伙伴大會上,一項關于大模型評測體系建設的新成果——《通用大模型評測標準》正式發布。這一
    的頭像 發表于 10-14 15:52 ?517次閱讀

    云知聲山海大模型多項能力全球領跑

    國內人工智能權威機構清華大學基礎模型研究中心發布SuperBench九月綜合榜單。本次評測選取海內外24個具有代表性的大模型,結果顯示,山海大模型對齊、智能體、安全等多項
    的頭像 發表于 10-12 14:30 ?433次閱讀
    云知聲山海大<b class='flag-5'>模型</b>多項<b class='flag-5'>能力</b>全球領跑

    云知聲山海大模型醫療專業能力全球第一

    ,各項指標全面超越GPT-4,充分展現出山海大模型在擁有業內一流的通用能力之外,更具備打造世界領先的行業大模型能力
    的頭像 發表于 09-19 15:47 ?352次閱讀

    商湯科技加入中國移動人工智能大模型評測聯盟

    WAIC 2024期間,中國移動發起成立人工智能大模型評測聯盟(弈衡),商湯科技作為初創成員受邀加入聯盟。 人工智能實現突破發展,“AI+”評測正成為關鍵一環。人工智能大模型
    的頭像 發表于 07-12 14:20 ?677次閱讀

    智能制造能力成熟度模型是什么?

    ),賦予每個級別明確定義,相應標準和實現的必要條件。從最低級到最高級,智能制造能力是逐級提升的,每個級別都在前一個級別的基礎上提升完善,同時也構成了向下一個級別提升演進的基礎,從而體現了智能制造能力的層層遞進和不斷發展完善的過程
    的頭像 發表于 06-12 11:25 ?767次閱讀
    智能制造<b class='flag-5'>能力</b>成熟度<b class='flag-5'>模型</b>是什么?

    【大語言模型:原理與工程實踐】大語言模型評測

    任務、評測集構建標準評測方式三個部分。特別地,為了關注大語言模型在中文場景的優化和應用,該框架特別注重中文特有語境下的能力考察。其貢獻在于
    發表于 05-07 17:12

    名單公布!【書籍評測活動NO.31】大語言模型:原理與工程實踐

    放棄本次試用評測資格! 緣起:為什么要寫這本書 OpenAI的ChatGPT自推出以來,迅速成為人工智能領域的焦點。ChatGPT在語言理解、生成、規劃及記憶等多個維度展示了強大的能力。這不僅體現在
    發表于 03-18 15:49

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    評測資格! 2022年11月,ChatGPT的問世展示了大模型的強大潛能,對人工智能領域有重大意義,并對自然語言處理研究產生了深遠影響,引發了大模型研究的熱潮。 距ChatGPT問世不到一年,截至
    發表于 03-11 15:16

    華為云盤古大模型通過金融大模型標準符合性驗證

    近日,在中國信通院組織的可信AI大模型標準符合性驗證中,華為云的盤古大模型表現出色,成功通過了金融大模型標準的符合性驗證,并榮獲優秀級(4+
    的頭像 發表于 03-05 10:12 ?658次閱讀

    華為云盤古大模型通過金融大模型標桿驗證,獲最高評級

    該驗證標準主要關注金融大模型對語言,語音,視覺以及多模態任務等多元領域的適應能力,涵蓋數據合規性,模型安全性和服務穩定性等關鍵要素。
    的頭像 發表于 03-04 15:58 ?707次閱讀

    模型開源開放評測體系司南正式發布

    近日,大模型開源開放評測體系司南(OpenCompass2.0)正式發布,旨在為大語言模型、多模態模型等各類模型提供一站式
    的頭像 發表于 02-05 11:28 ?1084次閱讀
    主站蜘蛛池模板: 欧美影院| 国产香蕉视频在线播放| 国产天天操| 夜夜澡人人爽人人喊_欧美| 久久www免费人成高清| 天堂网a| 欧美8888| 黄色片不卡| 色综合色综合色综合色综合网| 国产精品四虎在线观看免费| 久青草国产手机在线观| 日韩毛片免费在线观看| 亚洲大成色www永久网址| 黄免费看| 热久久国产| 青青草99热久久| 在线观看www妖精免费福利视频| 日本一区二区三区视频在线观看| 欧美日韩性大片| 在线观看视频h| 国产精品无码永久免费888| 免费欧美黄色| 手机看片欧美日韩| 色天天干| 1024手机在线观看你懂的| 国产午夜精品福利久久| 欧美黑人xxxxxxxxxx| 欧美一区高清| 四虎永久在线精品视频免费观看 | 国产精品一区在线观看你懂的| 美女国产| 激情综合网五月激情| 经典三级影院| 伊人天天操| 天天干天天干天天干天天干天天干 | 免费一级特黄3大片视频| 涩综合| h网站在线观看| baoyu777永久免费视频| 精品三级三级三级三级三级| 国产一二精品|