玄幻小说排行榜,遮天辰东小说笔趣阁,风凌天下

為了開發(fā)高性能中文基礎(chǔ)模型，填補(bǔ)中文基礎(chǔ)模型百億到千億級預(yù)訓(xùn)練參數(shù)的空白，大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國家工程實(shí)驗(yàn)室團(tuán)隊(duì)在人工智能項(xiàng)目伶荔（Linly）框架下，推出了伶荔說系列中文語言大模型，目前包含中文基礎(chǔ)模型和對話模型。

其中，中文基礎(chǔ)模型以 LLaMA 為底座，利用中文和中英平行增量預(yù)訓(xùn)練，將它在英文上強(qiáng)大語言能力遷移到中文上。更進(jìn)一步，匯總了目前公開的多語言指令數(shù)據(jù)，對中文模型進(jìn)行了大規(guī)模指令跟隨訓(xùn)練，實(shí)現(xiàn)了 Linly-ChatFlow 對話模型。

根據(jù)介紹，相比已有的中文開源模型，伶荔模型具有以下優(yōu)勢：

在 32*A100 GPU 上訓(xùn)練了不同量級和功能的中文模型，對模型充分訓(xùn)練并提供強(qiáng)大的 baseline。據(jù)知，33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。

公開所有訓(xùn)練數(shù)據(jù)、代碼、參數(shù)細(xì)節(jié)以及實(shí)驗(yàn)結(jié)果，確保項(xiàng)目的可復(fù)現(xiàn)性，用戶可以選擇合適的資源直接用于自己的流程中。

項(xiàng)目具有高兼容性和易用性，提供可用于 CUDA 和 CPU 的量化推理框架，并支持 Huggingface 格式。

目前公開可用的模型有：

Linly-Chinese-LLaMA：中文基礎(chǔ)模型，基于 LLaMA 在高質(zhì)量中文語料上增量訓(xùn)練強(qiáng)化中文語言能力，現(xiàn)已開放 7B、13B 和 33B 量級，65B 正在訓(xùn)練中。

Linly-ChatFlow：中文對話模型，在 400 萬指令數(shù)據(jù)集合上對中文基礎(chǔ)模型指令精調(diào)，現(xiàn)已開放 7B、13B 對話模型。

Linly-ChatFlow-int4 ：ChatFlow 4-bit 量化版本，用于在 CPU 上部署模型推理。

進(jìn)行中的項(xiàng)目：

Linly-Chinese-BLOOM：基于 BLOOM 中文增量訓(xùn)練的中文基礎(chǔ)模型，包含 7B 和 175B 模型量級，可用于商業(yè)場景。

項(xiàng)目特點(diǎn)

Linly 項(xiàng)目具有以下特點(diǎn)：

1. 大規(guī)模中文增量訓(xùn)練，利用翻譯數(shù)據(jù)提速中文模型收斂

在訓(xùn)練數(shù)據(jù)方面，項(xiàng)目盡可能全面的收集了各類中文語料和指令數(shù)據(jù)。無監(jiān)督訓(xùn)練使用了上億條高質(zhì)量的公開中文數(shù)據(jù)，包括新聞、百科、文學(xué)、科學(xué)文獻(xiàn)等類型。和通常的無監(jiān)督預(yù)訓(xùn)練不同，項(xiàng)目在訓(xùn)練初期加入了大量中英文平行語料，幫助模型將英文能力快速遷移到中文上。

在指令精調(diào)階段，項(xiàng)目匯總了開源社區(qū)的指令數(shù)據(jù)資源，包括多輪對話、多語言指令、GPT4/ChatGPT 問答、思維鏈數(shù)據(jù)等等，經(jīng)過篩選后使用 500 萬條數(shù)據(jù)進(jìn)行指令精調(diào)得到 Linly-ChatFlow 模型。訓(xùn)練使用的數(shù)據(jù)集也在項(xiàng)目里提供。

訓(xùn)練流程如圖所示：

2. 全參數(shù)訓(xùn)練，覆蓋多個(gè)模型量級

目前基于 LLaMA 的中文模型通常使用 LoRA 方法進(jìn)行訓(xùn)練，LoRA 凍結(jié)預(yù)訓(xùn)練的模型參數(shù)，通過往模型中加入額外的網(wǎng)絡(luò)層，并只訓(xùn)練這些新增的網(wǎng)絡(luò)層參數(shù)，來實(shí)現(xiàn)快速適配。雖然 LoRA 能夠提升訓(xùn)練速度且降低設(shè)備要求，但性能上限低于全參數(shù)訓(xùn)練。為了使模型獲得盡可能強(qiáng)的中文語言能力，該項(xiàng)目對所有參數(shù)量級都采用全參數(shù)訓(xùn)練，開銷大約是 LoRA 的 3-5 倍。

伶荔語言模型利用 TencentPretrain 多模態(tài)預(yù)訓(xùn)練框架，集成 DeepSpeed ZeRO3 以 FP16 流水線并行訓(xùn)練。目前已開放 7B、13B、33B 模型權(quán)重，65B 模型正在訓(xùn)練中。模型仍在持續(xù)迭代，將定期更新，損失收斂情況如圖所示：

3. 可支持本地 CPU int4 推理、消費(fèi)級 GPU 推理

大模型通常具有數(shù)百億參數(shù)量，提高了使用門檻。為了讓更多用戶使用 Linly-ChatFlow 模型，開發(fā)團(tuán)隊(duì)在項(xiàng)目中集成了高可用模型量化推理方案，支持 int4 量化 CPU 推理可以在手機(jī)或者筆記本電腦上使用，int8 量化使用 CUDA 加速可以在消費(fèi)級 GPU 推理 13B 模型。此外，項(xiàng)目中還集成了微服務(wù)部署，用戶能夠一鍵將模型部署成服務(wù)，方便二次開發(fā)。

未來工作

據(jù)透露，伶荔說系列模型目前仍處于欠擬合，正在持續(xù)訓(xùn)練中，未來 33B 和 65B 的版本或?qū)砀@艷的性能。在另一方面，項(xiàng)目團(tuán)隊(duì)不僅公開了對話模型，還公開了中文基礎(chǔ)模型和相應(yīng)的訓(xùn)練代碼與數(shù)據(jù)集，向社區(qū)提供了一套可復(fù)現(xiàn)的對話模型方案，目前也有團(tuán)隊(duì)基于其工作實(shí)現(xiàn)了金融、醫(yī)學(xué)等領(lǐng)域的垂直領(lǐng)域?qū)υ捘Ｐ汀?/p>

在之后的工作，項(xiàng)目團(tuán)隊(duì)將繼續(xù)對伶荔說系列模型進(jìn)行改進(jìn)，包括嘗試人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）、適用于中文的字詞結(jié)合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔項(xiàng)目還將針對虛擬人、醫(yī)療以及智能體場景陸續(xù)推出伶荔系列大模型。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
10901

瀏覽量
212631
人工智能

人工智能

+關(guān)注

關(guān)注
1793

文章
47618

瀏覽量
239557
開源

開源

+關(guān)注

關(guān)注
3

文章
3396

瀏覽量
42635
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
536

瀏覽量
10311

原文標(biāo)題：“伶荔”(Linly) 開源大規(guī)模中文語言模型

文章出處：【微信號：OSC開源社區(qū)，微信公眾號：OSC開源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

騰訊發(fā)布開源MoE大語言模型Hunyuan-Large

近日，騰訊公司宣布成功推出業(yè)界領(lǐng)先的開源MoE(Mixture of Experts，專家混合)大語言模型——Hunyuan-Large。這款模型不僅在參數(shù)量上刷新了業(yè)界紀(jì)錄，更在效果

發(fā)表于 11-06 10:57 ?351次閱讀

搭建開源大語言模型服務(wù)的方法

本文我們將總結(jié)5種搭建開源大語言模型服務(wù)的方法，每種都附帶詳細(xì)的操作步驟，以及各自的優(yōu)缺點(diǎn)。

發(fā)表于 10-29 09:17 ?234次閱讀

NVIDIA NIM助力企業(yè)高效部署生成式AI模型

Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺(tái)集成了 NVIDIA NIM，將允許用戶通過 API 調(diào)用來大規(guī)模地部署大語言模型。

發(fā)表于 10-10 09:49 ?427次閱讀

開放原子開源大賽助力輕量級大語言模型應(yīng)用落地

“Intel借助開源大賽在全國的影響力，吸引更多開發(fā)者加入大語言模型及其在人工智能領(lǐng)域的創(chuàng)新應(yīng)用。”負(fù)責(zé)BigDL-LLM賽題運(yùn)營的Intel工作人員表示。

發(fā)表于 09-24 10:38 ?612次閱讀

英偉達(dá)開源Nemotron-4 340B系列模型，助力大型語言模型訓(xùn)練

近日，英偉達(dá)宣布開源了一款名為Nemotron-4 340B的大型模型，這一壯舉為開發(fā)者們打開了通往高性能大型語言模型（LLM）訓(xùn)練的新天地。該系列

發(fā)表于 06-17 14:53 ?609次閱讀

【大規(guī)模語言模型：從理論到實(shí)踐】- 閱讀體驗(yàn)

和抗噪聲能力；以及通過可視化工具來增強(qiáng)模型的解釋性等。同時(shí)，隨著技術(shù)的不斷進(jìn)步和發(fā)展，在未來能夠發(fā)展出更加高效、健壯和可解釋的大語言模型。

發(fā)表于 06-07 14:44

【大規(guī)模語言模型：從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

非常推薦大家去讀【大規(guī)模語言模型：從理論到實(shí)踐】這本書，系統(tǒng)的講解了大模型的前世今生，對各個(gè)環(huán)節(jié)知識進(jìn)行了普及。今天跟我一起學(xué)習(xí)歸一化的部分。大

發(fā)表于 05-31 19:54

大語言模型：原理與工程時(shí)間+小白初識大語言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色，耳真正厲害的是Transformer，此框架被推出后直接

發(fā)表于 05-12 23:57

【大語言模型：原理與工程實(shí)踐】大語言模型的應(yīng)用

。關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力，存在廣泛的爭議。然而，隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實(shí)施，大語言

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實(shí)踐】大語言模型的評測

任務(wù)、評測集構(gòu)建標(biāo)準(zhǔn)和評測方式三個(gè)部分。特別地，為了關(guān)注大語言模型在中文場景的優(yōu)化和應(yīng)用，該框架特別注重中文特有語境下的能力考察。其貢獻(xiàn)在于不僅能更準(zhǔn)確地反映

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

具有以下三個(gè)非常顯著的特點(diǎn)，一個(gè)就是模型參數(shù)規(guī)模更大，訓(xùn)練數(shù)據(jù)更多。當(dāng)然，對計(jì)算資源的要求也會(huì)更高。構(gòu)建強(qiáng)大的語言模型時(shí)，模型的選型至關(guān)

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

處理各種自然語言任務(wù)時(shí)都表現(xiàn)出了驚人的能力。這促使一個(gè)新的研究方向誕生——基于Transformer 的預(yù)訓(xùn)練語言模型。這類模型的核心思想是先利用大

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

用于文本生成，根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本，為故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面，其計(jì)算資源需求巨大，訓(xùn)練和推理耗時(shí)；另一方面，模型高度依賴數(shù)據(jù)，需要大規(guī)模

發(fā)表于 05-04 23:55

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個(gè)開源庫，用于優(yōu)化從 PC 到云端的 NVIDIA GPU 上運(yùn)行的大

發(fā)表于 04-28 10:36 ?611次閱讀

名單公布！【書籍評測活動(dòng)NO.30】大規(guī)模語言模型：從理論到實(shí)踐

，在大模型實(shí)踐和理論研究的過程中，歷時(shí)8個(gè)月完成《大規(guī)模語言模型：從理論到實(shí)踐》一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和

發(fā)表于 03-11 15:16

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

“伶荔”(Linly) 開源大規(guī)模中文語言模型

評論

騰訊發(fā)布開源MoE大語言模型Hunyuan-Large

搭建開源大語言模型服務(wù)的方法

NVIDIA NIM助力企業(yè)高效部署生成式AI模型

開放原子開源大賽助力輕量級大語言模型應(yīng)用落地

英偉達(dá)開源Nemotron-4 340B系列模型，助力大型語言模型訓(xùn)練

【大規(guī)模語言模型：從理論到實(shí)踐】- 閱讀體驗(yàn)

【大規(guī)模語言模型：從理論到實(shí)踐】- 每日進(jìn)步一點(diǎn)點(diǎn)

大語言模型：原理與工程時(shí)間+小白初識大語言模型

【大語言模型：原理與工程實(shí)踐】大語言模型的應(yīng)用

【大語言模型：原理與工程實(shí)踐】大語言模型的評測

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

名單公布！【書籍評測活動(dòng)NO.30】大規(guī)模語言模型：從理論到實(shí)踐