小说网,欢乐颂,完美世界小说txt下载

隨著大型語言模型（ LLM ）的規模和復雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達 30% 的訓練速度。

這些更新包括兩種開拓性技術和一個超參數工具，用于優化和擴展任何數量 GPU 上的 LLM 訓練，提供了使用 NVIDIA AI 平臺訓練和部署模型的新功能。

BLOOM ，世界上最大的開放科學、開放獲取多語言模型，具有 1760 億個參數，最近在 NVIDIA AI 平臺上接受培訓，支持 46 種語言和 13 種編程語言的文本生成。 NVIDIA AI 平臺還支持最強大的 transformer 語言模型之一，具有 5300 億個參數， Megatron-Turing NLG 模型（MT-NLG）。

法學碩士研究進展

LLM 是當今最重要的先進技術之一，涉及數萬億個從文本中學習的參數。然而，開發它們是一個昂貴、耗時的過程，需要深入的技術專業知識、分布式基礎設施和全堆棧方法。

然而，在推進實時內容生成、文本摘要、客戶服務聊天機器人和對話 AI 界面的問答方面，它們的好處是巨大的。

為了推進 LLM ，人工智能社區正在繼續創新工具，例如 Microsoft DeepSpeed ，巨大的人工智能，擁抱大科學和公平比例 –由 NVIDIA AI 平臺提供支持，涉及 Megatron LM ，頂，以及其他 GPU 加速庫。

這些對 NVIDIA AI 平臺的新優化有助于解決整個堆棧中存在的許多難點。 NVIDIA 期待著與人工智能社區合作，繼續讓所有人都能使用 LLM 。

更快地構建 LLM

NeMo Megatron 的最新更新為訓練 GPT-3 模型提供了 30% 的加速，模型大小從 220 億到一萬億參數不等。現在，使用 1024 個 NVIDIA A100 GPU 只需 24 天，就可以在 1750 億個參數模型上完成訓練——在這些新版本發布之前，將得出結果的時間減少了 10 天，或約 250000 個小時的 GPU 計算。

NeMo Megatron 是一種快速、高效且易于使用的端到端集裝箱化框架，用于收集數據、訓練大規模模型、根據行業標準基準評估模型，以及用于推斷最先進的延遲和吞吐量性能。

它使 LLM 訓練和推理在廣泛的 GPU 簇配置上易于重復。目前，這些功能可供早期訪問客戶使用 DGX 疊加視圖和 NVIDIA DGX 鑄造廠以及 Microsoft Azure 云。對其他云平臺的支持將很快提供。

你可以試試這些功能 NVIDIA LaunchPad ，這是一個免費項目，提供對 NVIDIA 加速基礎設施上的動手實驗室目錄的短期訪問。

NeMo Megatron 是 NeMo 的一部分， NeMo 是一個開源框架，用于為會話人工智能、語音人工智能和生物學構建高性能和靈活的應用程序。

加速 LLM 訓練的兩種新技術

優化和擴展 LLM 訓練的更新中包括兩種新技術，即序列并行（ SP ）和選擇性激活重新計算（ SAR ）。

序列并行性擴展了張量級模型并行性，注意到之前未并行的 transformer 層的區域沿序列維度是獨立的。

沿著序列維度拆分這些層可以實現計算的分布，最重要的是，這些區域的激活內存可以跨張量并行設備分布。由于激活是分布式的，因此可以為向后傳遞保存更多激活，而不是重新計算它們。

圖 1.ZFK8 層內的并行模式。

選擇性激活重新計算通過注意到不同的激活需要不同數量的操作來重新計算，從而改善了內存約束強制重新計算部分（但不是全部）激活的情況。

與檢查點和重新計算整個 transformer 層不同，可以只檢查和重新計算每個 transformer 層中占用大量內存但重新計算計算成本不高的部分。

有關更多信息，請參閱減少大型 transformer 模型中的激活重新計算。

圖 2.自注意力塊。紅色虛線顯示了應用選擇性激活重新計算的區域。

圖 3.由于 SP 和 SAR ，反向傳遞所需的激活內存量。隨著模型尺寸的增加， SP 和 SAR 的內存節省量相似，所需內存減少了約 5 倍。

圖 4.完全激活重新計算和 SP 加 SAR 的計算開銷量。條形圖表示向前、向后和重新計算時間的每層分解。基線是指沒有重新計算和序列并行性的情況。這些技術可以有效地減少重新計算而不是保存所有激活時產生的開銷。對于最大型號，開銷從 36% 降至 2% 。

訪問 LLM 的功能還需要高度優化的推理策略。用戶可以輕松地使用經過訓練的模型進行推理，并使用 p- 調優和即時調優功能針對不同的用例進行優化。

這些功能是微調的參數有效替代方案，并允許 LLM 適應新的用例，而無需對完全預訓練模型進行嚴格的微調。在這種技術中，原始模型的參數不會改變。因此，避免了與微調模型相關的災難性“遺忘”問題。

用于訓練和推理的新超參數工具

跨分布式基礎設施查找 LLM 的模型配置是一個耗時的過程。 NeMo Megatron 引入了一種超參數工具，可以自動找到最佳的訓練和推理配置，無需更改代碼。這使得 LLM 能夠從第一天開始訓練收斂以進行推理，從而消除了搜索有效模型配置所浪費的時間。

它跨不同參數使用啟發式和經驗網格搜索，以找到具有最佳吞吐量的配置：數據并行性、張量并行性、管道并行性、序列并行性、微批量大小和激活檢查點層的數量（包括選擇性激活重新計算）。

使用超參數工具和 NVIDIA 對 NGC 上的容器進行測試，我們在 24 小時內獲得了 175B GPT-3 模型的最佳訓練配置（見圖 5 ）。與使用完全激活重新計算的常見配置相比，我們實現了 20%-30% 的吞吐量加速。使用最新技術，對于參數超過 20B 的模型，我們實現了額外 10%-20% 的吞吐量加速。

圖 5.HP 工具在多個容器上的結果，表明序列并行和選擇性激活重新計算的速度加快，其中每個節點是一個 NVIDIA DGX A100 。

hyperparameter 工具還允許查找在推理過程中實現最高吞吐量或最低延遲的模型配置。可以提供延遲和吞吐量約束來為模型服務，該工具將推薦合適的配置。

圖 6.HP 工具推斷結果，顯示了每 GPU 的吞吐量和不同配置的延遲。最佳配置包括高吞吐量和低延遲。

關于作者

Markel Ausin 是 NVIDIA 的深度學習算法工程師。在目前的角色中，他致力于構建和部署大型語言模型，作為 NeMo- Megatron 框架的一部分。

Vinh Nguyen 是一位深度學習的工程師和數據科學家，發表了 50 多篇科學文章，引文超過 2500 篇。

Annamalai Chockalingam 是 NVIDIA 的 NeMo Megatron 和 NeMo NLP 產品的產品營銷經理。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4986

瀏覽量
103067
AI

AI

+關注

關注
87

文章
30896

瀏覽量
269110
深度學習

深度學習

+關注

關注
73

文章
5503

瀏覽量
121170

大語言模型開發框架是什么

大語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面，AI部落小編為您介紹

發表于 12-06 10:28 ?125次閱讀

使用NVIDIA AI平臺確保醫療數據安全

三井物產株式會社子公司借助 NVIDIA AI 平臺實現數據集的安全共享并使用在這些數據集上建立的強大模型加速藥物研發。

發表于 11-20 09:37 ?181次閱讀

賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠

與 NVIDIA 技術團隊保持合作。賴耶科技通過NVIDIA AI Enterprise平臺打造的超級 AI 工廠，致力于加速大

發表于 11-19 14:55 ?384次閱讀

NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規模。該集群使用了 NVIDIA Spectrum-X? 以太網網絡平臺，該

發表于 10-30 09:33 ?153次閱讀

<b class='flag-5'>NVIDIA</b> 以太網加速 xAI 構建的全球最大 <b class='flag-5'>AI</b> 超級計算機

如何利用大型語言模型驅動的搜索為公司創造價值

，IlanaGolbinBlumenfeld和JacobT.Wilson等三位PwC合伙人，在《如何利用大型語言模型驅動的搜索為公司創造價值》書中，探討

發表于 10-13 08:07 ?175次閱讀

如何利用<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>驅動的搜索<b class='flag-5'>為</b>公司創造價值

NVIDIA NIM助力企業高效部署生成式AI模型

Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM，將允許用戶通過 API 調用來大規模地部署大語言模型。

發表于 10-10 09:49 ?397次閱讀

NVIDIA NIM微服務帶來巨大優勢

新服務通過熱門 AI 模型為數百萬開發者帶來高達 5 倍的 token 效率提升，使他們能夠立即訪問在 NVIDIA DGX Cloud 上

發表于 08-23 15:20 ?494次閱讀

Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

Mistral AI 和 NVIDIA 于近日共同發布了一款全新的領先語言模型Mistral NeMo 12B。開發者可以輕松定制和部署該模型

發表于 07-27 11:04 ?664次閱讀

NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

借助 NVIDIA AI Foundry，企業和各國現在能夠使用自有數據與 Llama 3.1 405B 和 NVIDIA Nemotron 模型配對，來構建“超級

發表于 07-24 09:39 ?713次閱讀

基于CPU的大型語言模型推理實驗

隨著計算和數據處理變得越來越分散和復雜，AI 的重點正在從初始訓練轉向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言

發表于 07-18 14:28 ?548次閱讀

AI大模型與傳統AI的區別

AI大模型（如LLM，即大型語言模型）與傳統AI在多個方面存在顯著的區別。以下將從技術層面、應用

發表于 07-15 11:37 ?2725次閱讀

LLM之外的性價比之選，小語言模型

? 電子發燒友網報道（文/周凱揚）大語言模型的風靡給AI應用創造了不少機會，無論是效率還是創意上，大語言模型都

發表于 06-03 05:15 ?2237次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術

，這也是如今生成式 AI 中大語言模型最流行訓練架構。(3) Encoder-Decoder預訓練語言模型:這類

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

用于文本生成，根據提示或上下文生成連貫、富有創造性的文本，為故事創作等提供無限可能。大語言模型也面臨挑戰。一方面，其計算資源需求巨大，訓練和推理耗時；另一方面，

發表于 05-04 23:55

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的

發表于 04-28 10:36 ?567次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

NVIDIA AI平臺為大型語言模型帶來巨大收益

評論

大語言模型開發框架是什么

使用NVIDIA AI平臺確保醫療數據安全

賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠

NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

如何利用大型語言模型驅動的搜索為公司創造價值

NVIDIA NIM助力企業高效部署生成式AI模型

NVIDIA NIM微服務帶來巨大優勢

Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

基于CPU的大型語言模型推理實驗

AI大模型與傳統AI的區別

LLM之外的性價比之選，小語言模型

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型