大主宰天蚕土豆,盗墓笔记txt全集下载,完美世界官网

開源并行訓練系統(tǒng) ColossalAI 表示，已低成本復現了一個 ChatGPT 訓練的基本流程，包括 stage 1 預訓練、stage 2 的獎勵模型的訓練，以及最為復雜的 stage 3 強化學習訓練。具體亮點包括：

一個開源完整的基于 PyTorch 的 ChatGPT 等效實現流程，涵蓋所有 3 個階段，可以幫助你構建基于預訓練模型的 ChatGPT 式服務。
提供了一個迷你演示訓練過程供用戶試玩，它只需要 1.62GB 的 GPU 顯存，并且可能在單個消費級 GPU 上實現，單GPU模型容量最多提升10.3 倍。
與原始 PyTorch 相比，單機訓練過程最高可提升7.73 倍，單 GPU 推理速度提升 1.42 倍，僅需一行代碼即可調用。
在微調任務上，同樣僅需一行代碼，就可以在保持足夠高的運行速度的情況下，最多提升單GPU的微調模型容量3.7 倍。
提供多個版本的單 GPU 規(guī)模、單節(jié)點多 GPU 規(guī)模和原始 1750 億參數規(guī)模。還支持從 Hugging Face 導入 OPT、GPT-3、BLOOM 和許多其他預訓練的大型模型到你的訓練過程中。

ColossalAI 是一個具有高效并行化技術的綜合大規(guī)模模型訓練系統(tǒng)；旨在無縫整合不同的并行化技術范式，包括數據并行、管道并行、多張量并行和序列并行。其聲稱已通過 ZeRO、Gemini、Chunk-based 內存管理等技術，極大地降低 ChatGPT 訓練的顯存開銷；僅需一半硬件資源即可啟動 1750 億參數模型訓練（從 64 卡到 32 卡），顯著降低應用成本。若使用上述相同硬件資源，Colossal-AI 則能以更短時間進行訓練，節(jié)省訓練成本，加速產品迭代。為了讓更多開發(fā)者體驗復現 ChatGPT 模型，除 1750 億參數版本外，Colossal-AI 還提供高效的單 GPU、單機 4/8 GPU 的類 ChatGPT 版本，以降低硬件限制。

博客內容還指出，在單機多 GPU 服務器上，即便使用最高端的 A100 80GB 顯卡，由于 ChatGPT 的復雜性和內存碎片，PyTorch 最大僅能啟動基于 GPT-L（774M）這樣的小模型的 ChatGPT。用 PyTorch 原生的 DistributedDataParallel (DDP) 進行多卡并行擴展至 4 卡或 8 卡，性能提升有限。Colossal-AI 不僅在單GPU速度上訓練和推理優(yōu)勢明顯，隨著并行規(guī)模擴大還可進一步提升，最高可提升單機訓練速度 7.73 倍，單 GPU 推理速度 1.42 倍；并且能夠繼續(xù)擴展至大規(guī)模并行，顯著降低 ChatGPT 復現成本。

為了最大限度地降低培訓成本和易用性，Colossal-AI 提供了可以在單個 GPU 上試用的 ChatGPT 培訓流程。與在 14999 美元的 A100 80GB 上最多只能啟動 7.8 億個參數模型的 PyTorch 相比，Colossal-AI 將單個 GPU 的容量提升了 10.3 倍，達到 80 億個參數。對于基于 1.2 億參數的小模型的 ChatGPT 訓練，至少需要 1.62GB 的 GPU 內存，任意單個消費級 GPU 都可以滿足。

此外，Colossal-AI 還在致力于降低基于預訓練大型模型的微調任務的成本。以 ChatGPT 可選的開源基礎模型 OPT 為例，Colossal-AI 能夠在單 GPU 上將微調模型的容量提高到 PyTorch 的 3.7 倍，同時保持高速運行。Colossal-AI 為 Hugging Face 社區(qū)的 GPT、OPT 和 BLOOM 等主流預訓練模型，提供了開箱即用的 ChatGPT 復現代碼。以 GPT 為例，僅需一行代碼，指定使用 Colossal-AI 作為系統(tǒng)策略即可快速使用。

from chatgpt.nn import GPTActor, GPTCritic, RewardModel
from chatgpt.trainer import PPOTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy

strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')

with strategy.model_init_context():
    actor = GPTActor().cuda()
    critic = GPTCritic().cuda()
    initial_model = deepcopy(actor).cuda()
    reward_model = RewardModel(deepcopy(critic.model)).cuda()

trainer = PPOTrainer(strategy, actor, critic, reward_model, initial_model,...)
trainer.fit(prompts)

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4760

瀏覽量
129134
服務器

服務器

+關注

關注
12

文章
9255

瀏覽量
85752
ChatGPT

ChatGPT

+關注

關注
29

文章
1564

瀏覽量
7863

原文標題：開源方案低成本復現ChatGPT流程，僅需1.6GB顯存即可體驗

文章出處：【微信號：OSC開源社區(qū)，微信公眾號：OSC開源社區(qū)】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

開源方案低成本復現ChatGPT流程，僅需1.6GB顯存即可體驗

評論

香蕉派開源社區(qū)與矽昌通信共推BPI-Wifi5 低成本路由器開源方案

低成本藍牙串口模塊解決方案

追求性能提升使用8GB HBM2顯存

科技大廠競逐AIGC，中國的ChatGPT在哪？

低成本遙控器線路ICHQ1628產品規(guī)格書

堅果Pro 3開啟了促銷活動最高直降500元8GB+128GB版僅需2399元

榮耀V30 PRO在5G網絡環(huán)境下下載一部1.6GB大小的1080P電影僅需2分鐘

華為Mate 20降價促銷 6+128GB版僅需2199元

低成本的醫(yī)療檢測與監(jiān)測方案

ESP32低成本板開源項目

低成本無線火箭發(fā)射器開源分享

低成本機器人消毒系統(tǒng)開源分享

開源防火墻的低成本使用

開源低成本電力監(jiān)控系統(tǒng)

源2.0-M32大模型發(fā)布量化版運行顯存僅需23GB 性能可媲美LLaMA3