Hugging Face科技公司推出SmolLM系列語言模型

7月22日最新資訊，Hugging Face科技公司在語言模型領域再創新高，正式推出了SmolLM系列——一款專為適應多樣計算資源而設計的緊湊型語言模型家族。該系列包含三個版本，分別搭載了1.35億、3.6億及17億參數，旨在以高效能應對不同應用場景。

據Hugging Face SmolLM項目的首席機器學習工程師Loubna Ben Allal介紹：“我們認識到，并非每項任務都需要龐大的模型來支撐，正如鉆孔無需重型破碎球一樣。專為特定任務定制的小型模型，同樣能夠勝任繁重的工作?！?/p>

尤為引人注目的是，即便是家族中最小的成員SmolLM-135M，在訓練數據相對有限的情況下，其性能仍超越了Meta的MobileLM-125M模型，展現出非凡的潛力。而SmolLM-360M則自豪地宣稱，在性能上已凌駕于所有參數少于5億的模型之上。至于旗艦產品SmolLM-1.7B，更是在一系列基準測試中力壓群雄，包括微軟的Phi-1.5和Meta的MobileLM-1.5B等強勁對手。

Hugging Face不僅在技術上追求卓越，更在開放共享上樹立了典范。公司決定將SmolLM的整個開發流程，從數據管理到訓練步驟，全部對外開源。這一舉措不僅彰顯了公司對開源文化的堅定支持，也體現了對可重復研究的高度重視，為行業內的科研人員提供了寶貴的資源。

SmolLM系列的卓越表現，離不開其背后精心策劃的高質量訓練數據。這些模型依托于Cosmo語料庫構建，該語料庫融合了Cosmopedia v2（包含合成教科書與故事）、Python Edu（教育導向的Python示例）以及FineWeb Edu（精選教育網絡內容）等多維度資源，確保了模型學習內容的豐富性與準確性。

Loubna Ben Allal強調：“SmolLM系列的成功，是對數據質量重要性的有力證明。我們創新性地結合了網絡數據與合成數據，通過精心策劃，打造出了這些性能卓越的小型模型?！边@一成就不僅為語言模型領域注入了新的活力，也為未來智能應用的發展開辟了更加廣闊的道路。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據管理

數據管理

+關注

關注
1

文章
295

瀏覽量
19623
語言模型

語言模型

+關注

關注
0

文章
524

瀏覽量
10277

大語言模型開發語言是什么

在人工智能領域，大語言模型（Large Language Models, LLMs）背后，離不開高效的開發語言和工具的支持。下面，AI部落小編為您介紹大語言

發表于 12-04 11:44 ?114次閱讀

谷歌推出效率與性能躍階的全新開放模型標準

AI 有可能解決人類面臨的一些最緊迫的問題，但前提是每個人都擁有構建 AI 的工具。這就是我們在今年早些時候推出 Gemma 的原因，Gemma 是一系列輕量級開放模型系列，采用了與創

發表于 09-09 15:43 ?379次閱讀

谷歌<b class='flag-5'>推出</b>效率與性能躍階的全新開放<b class='flag-5'>模型</b>標準

阿里通義千問Qwen2大模型發布

阿里巴巴最近發布了其通義千問系列的新成員——Qwen2大模型，并在Hugging Face和ModelScope兩大平臺上實現了同步開源。這一舉措無疑為人工智能領域的研究者和開發者們提

發表于 06-07 15:59 ?763次閱讀

亞馬遜云攜手AI新創企業Hugging Face，提升AI模型在定制芯片計算性能

Hugging Face作為一家估值為45億美元的公司現已成為了眾多AI研究員和開發者分享Chatbot和相關軟件的核心平臺，受到亞馬遜、谷歌、英偉達等巨頭的青睞。

發表于 05-23 14:24 ?408次閱讀

Hugging Face提供1000萬美元免費共享GPU

全球最大的開源AI社區Hugging Face近日宣布，將提供價值1000萬美元的免費共享GPU資源，以支持開發者創造新的AI技術。這一舉措旨在幫助小型開發者、研究人員和初創公司，對抗大型AI

發表于 05-20 09:40 ?659次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

Hugging Face推出開源機器人代碼庫LeRobot

AI領域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機器人工具包——LeRobot。這一創新工具包基于史上最大規模的眾包機器人數據集，為開發者提供了一個前所未有的平臺。

發表于 05-09 10:32 ?582次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

，它通過抽象思考和邏輯推理，協助我們應對復雜的決策。相應地，我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務，類似于人類的系統1，如情感分析和抽取式問答等。大語言

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

大語言模型的評測是確保模型性能和應用適應性的關鍵環節。從基座模型到微調模型，再到行業模型和整體能

發表于 05-07 17:12

Snowflake推出面向企業AI的大語言模型

Snowflake公司近日推出了企業級AI模型——Snowflake Arctic，這是一款大型語言模型（LLM），專為滿足企業復雜工作負載

發表于 05-07 10:03 ?473次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術

下游任務提供豐富的文本表示,如谷歌公司推出的BERT。（2) Decoder-Only 預訓練語言模型：這類模型一般使用單向的 Decode

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

關系，從而在各種任務中表現出色。Transformer架構的推出，標志著語言模型技術的重大突破。它摒棄了傳統的遞歸方式，利用自注意力機制捕捉序列中的依賴關系。這一創新極大地提高了模型的

發表于 05-04 23:55

Stability AI發布Stable Code Instruct 3B大語言模型，可編譯多種編程語言

據報道，Stability AI公司近期推出了適配程序員使用的Stable Code Instruct 3B大語言模型，此款模型的顯著特點是

發表于 03-27 10:04 ?497次閱讀

Anthropic發布Claude 3系列大語言模型，挑戰OpenAI領先地位

人工智能領域的創業公司Anthropic推出了其備受矚目的Claude 3系列大型語言模型。該系列

發表于 03-06 18:11 ?1277次閱讀

ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM，助力開發者運用生成式 AI 構建企業應用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日發布 StarCoder2，其為一系列用于代碼生成的開放獲取大

發表于 02-29 11:12 ?250次閱讀

要長高
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 量子芯片是什么東西量子芯片和普通芯片的區別
Hot 麒麟9000S到底誰代工的麒麟9000s geekbench測試結果

New 三星電子OLED面板需求激增,攜手天馬微電子填補供應缺口
New 比亞迪前三季度研發投入領跑A股,技術創新助力銷量創歷史新高

精選推薦
更多

文章

資料

帖子

2024過去了，留下十個科技記憶

腦極體
7小時前

207 閱讀

兩款VR頭顯大拆解，都用了哪些芯片？

拍明芯城
10小時前

211 閱讀

屏蔽柵MOSFET技術簡介

翠展微電子
12小時前

248 閱讀

基于LKS32MC07x系列MCU的超高速清潔電器解決方案

晶豐明源
12小時前

256 閱讀

基于瑞薩電子RA6T2 MCU的電機控制讓吸塵器更智能

瑞薩MCU小百科
12小時前

239 閱讀

cajviewer閱讀器下載(7.0.2 CAJ瀏覽器)

申換換
33792

10積分

5309下載

PADS Layout四層板如何設置（圖文說明）

basket911
未知

免費

0下載

GoBackup一站式備份工具

王璐
0.04 MB

免費

0下載

imv X11/Wayland圖像查看器

h1654155273.0656
0.10 MB

2積分

4下載

BJSubwayPen北京地鐵路線圖繪制工具

其實znvm
0.14 MB

2積分

1下載

2024 電機控制年度技術分享會來啦?。?！

ElecFans小喇叭
1天前

151 閱讀

[廣東龍芯2K1000/2K500開發板] OpenWRT 使用說明

jf_38522704
10月前

5177 閱讀

使用單片機驅動DAC088S085無反應

jf_68383328
1天前

228 閱讀

STM32配合可編程加密芯片SMEC88ST的防抄板加密方案設計

jf_38636298
1天前

207 閱讀

多路采集的空測試值，為什么不裝傳感器的時候每一個原點值不一樣？

jf_85595199
1天前

358 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

Hugging Face科技公司推出SmolLM系列語言模型

評論

大語言模型開發語言是什么

谷歌推出效率與性能躍階的全新開放模型標準

阿里通義千問Qwen2大模型發布

亞馬遜云攜手AI新創企業Hugging Face，提升AI模型在定制芯片計算性能

Hugging Face提供1000萬美元免費共享GPU

大語言模型：原理與工程時間+小白初識大語言模型

Hugging Face推出開源機器人代碼庫LeRobot

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

Snowflake推出面向企業AI的大語言模型

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

Stability AI發布Stable Code Instruct 3B大語言模型，可編譯多種編程語言

Anthropic發布Claude 3系列大語言模型，挑戰OpenAI領先地位

ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM，助力開發者運用生成式 AI 構建企業應用