盗墓笔记第二季,我欲封天,完结小说排行榜

譯者按: 最近一段時間，ChatGPT 作為一個現(xiàn)象級應用迅速躥紅，也帶動了對其背后的大語言模型 (LLM) 的討論，這些討論甚至出了 AI 技術圈，頗有些到了街談巷議的程度。在 AI 技術圈，關于 LLM 和小模型的討論在此之前已經持續(xù)了不短的時間，處于不同生態(tài)位置和產業(yè)環(huán)節(jié)的人都有表達自己的觀點，其中不少是有沖突的。

大模型的研究者和大公司出于不同的動機站位 LLM，研究者出于對 LLM 的突現(xiàn)能力 (emergent ability) 的好奇和對 LLM 對 NLP 領域能力邊界的拓展、而大公司可能更多出自于商業(yè)利益考量；而社區(qū)和中小公司猶猶豫豫在小模型的站位上徘徊，一方面是由于對 LLM 最終訓練、推理和數(shù)據(jù)成本的望而卻步，一方面也是對大模型可能加強大公司數(shù)據(jù)霸權的隱隱擔憂。但討論，尤其是公開透明的討論，總是好事，讓大家能夠聽到不同的聲音，才有可能最終收斂至更合理的方案。

我們選譯的這篇文章來自于 2021 年 10 月的 Hugging Face 博客，作者在那個時間點站位的是小模型，一年多以后的 2023 年作者的觀點有沒有改變我們不得而知，但開卷有益，了解作者當時考慮的那些點，把那些合理的點納入自己的思考體系，并結合新的進展最終作出自己的判斷可能才是最終目的。

不久前，微軟和 Nvidia 推出了 Megatron-Turing NLG 530B，一種基于 Transformer 的模型，被譽為是 “世界上最大且最強的生成語言模型”。

毫無疑問，此項成果對于機器學習工程來講是一場令人印象深刻的能力展示，表明我們的工程能力已經能夠訓練如此巨大的模型。然而，我們應該為這種超級模型的趨勢感到興奮嗎？我個人傾向于否定的回答。我將在通過本文闡述我的理由。

這是你的深度學習大腦

研究人員估計，人腦平均包含 860 億個神經元和 100 萬億個突觸?？梢钥隙ǖ氖牵@里面并非所有的神經元和突觸都用于語言。有趣的是，GPT-4 預計有大約 100 萬億個參數(shù)...... 雖然這個類比很粗略，但難道我們不應該懷疑一下構建與人腦大小相當?shù)恼Z言模型長期來講是否是最佳方案？

當然，我們的大腦是一個了不起的器官，它經過數(shù)百萬年的進化而產生，而深度學習模型僅有幾十年的歷史。不過，我們的直覺告訴我們: 有些東西無法計算 (這是個雙關語，:)) 。

深度學習，深度銷金窟？

如你所料，在龐大的文本數(shù)據(jù)集上訓練一個 5300 億參數(shù)的模型需要相當多的基礎設施。事實上，Microsoft 和 Nvidia 使用了數(shù)百臺 DGX A100 GPU 服務器，每臺 19 萬 9 千美元。如果再把網(wǎng)絡設備、托管成本等因素考慮進去的話，任何想要重現(xiàn)該實驗的組織或個人都必須花費近 1 億美元。來根薯條壓壓驚？

說真的，有哪些組織有那種值得花費 1 億美元來構建深度學習基礎設施的業(yè)務？再少點，又有哪些組織有那種可以值得花費 1000 萬美元基礎設施的業(yè)務？很少。既然很少，那么請問，這些模型為誰而生呢？

GPU 集群的熱

盡管訓練大模型需要杰出的工程能力，但在 GPU 上訓練深度學習模型本身卻是一種蠻力技術。根據(jù)規(guī)格表，每臺 DGX 服務器可消耗高達 6.5 千瓦的功率。同時，數(shù)據(jù)中心 (或服務器機柜) 至少需要同樣多的冷卻能力。除非你是史塔克家族的人 (Starks) ，需要在冬天讓臨冬城 (Winte rfell) 保持溫暖，否則你必須處理散熱問題。

此外，隨著公眾對氣候和社會責任問題意識的增強，還需要考慮碳足跡問題。根據(jù)馬薩諸塞大學 2019 年的一項研究，“在 GPU 上訓練一次 BERT 產生的碳足跡大致與一次跨美飛行相當”。

BERT-Large 有 3.4 億個參數(shù)。我們可以通過此推斷 Megatron-Turing 的碳足跡大致如何……認識我的人都知道，我并不是一個熱血環(huán)保主義者。盡管如此，這些數(shù)字也不容忽視。

所以呢？

我對 Megatron-Turing NLG 530B 和接下來可能會出現(xiàn)的模型巨獸感到興奮嗎？不。我認為值得增加成本、復雜性以及碳足跡去換取 (相對較小的) 測試基準上的改進嗎？不。我認為構建和推廣這些龐大的模型能幫助組織理解和應用機器學習嗎？不。

我想知道這一切有什么意義。為了科學而科學？好的老營銷策略？技術至上？可能每個都有一點。如果是這些意義的話，我就不奉陪了。

相反，我更專注于實用且可操作的技術，大家都可以使用這些技術來構建高質量的機器學習解決方案。

使用預訓練模型

在絕大多數(shù)情況下，你不需要自定義模型架構。也許你會想要自己定制一個模型架構 (這是另一回事)，但請注意此處猛獸出沒，僅限資深玩家！

一個好的起點是尋找已經針對你要解決的任務預訓練過的模型 (例如，英文文本摘要) 。

然后，你應該快速嘗試一些模型，用它們來預測你自己的數(shù)據(jù)。如果指標效果不錯，那么打完收工！如果還需要更高一點的準確率，你應該考慮對模型進行微調 (稍后會詳細介紹) 。

使用較小的模型

在評估模型時，你應該從那些精度滿足要求的模型中選擇尺寸最小的那個。它預測得更快，并且需要更少的硬件資源來進行訓練和推理。節(jié)儉需要從一開始就做起。

這其實也不算什么新招。計算機視覺從業(yè)者會記得 SqueezeNet 2017 年問世時，與 AlexNet 相比，模型尺寸減少了 50 倍，而準確率卻與 AlexNet 相當甚至更高。多聰明！

自然語言處理社區(qū)也在致力于使用遷移學習技術縮減模型尺寸，如使用知識蒸餾技術。DistilBERT 也許是其中最廣為人知的工作。與原始 BERT 模型相比，它保留了 97% 的語言理解能力，同時尺寸縮小了 40%，速度提高了 60%。你可以 Hugging Face 嘗試一下 DistilBERT。同樣的方法也已經應用于其他模型，例如 Facebook 的 BART，你可以在 Hugging Face 嘗試 DistilBART。

Big Science 項目的最新模型也令人印象深刻。下面這張來自于論文的圖表明，他們的 T0 模型在許多任務上都優(yōu)于 GPT-3，同時尺寸小 16 倍。你可以 Hugging Face 嘗試 T0。

微調模型

如果你需要特化一個模型，你不應該從頭開始訓練它。相反，你應該對其進行微調，也就是說，僅針對你自己的數(shù)據(jù)訓練幾個回合。如果你缺少數(shù)據(jù)，也許這些數(shù)據(jù)集中的某個可以幫助你入門。

猜對了，這是進行遷移學習的另一種方式，它會幫助你節(jié)省一切！

收集、存儲、清理和標注的數(shù)據(jù)更少，

更快的實驗和迭代，

生產過程所需的資源更少。

換句話說: 節(jié)省時間，節(jié)省金錢，節(jié)省硬件資源，拯救世界！

如果你需要教程，Hugging Face 課程可以幫助你立即入門。

使用云基礎設施

不管你是否喜歡它們，事實是云公司懂得如何構建高效的基礎設施。可持續(xù)性研究表明，基于云的基礎設施比其他替代方案更節(jié)能減排: 請參閱 AWS、Azure 和 Google。Earth.org 宣稱雖然云基礎設施并不完美，“[它] 比替代方案更節(jié)能，并促進了環(huán)境友好的服務及經濟增長。"

在易用性、靈活性和隨用隨付方面，云肯定有很多優(yōu)勢。它也比你想象的更環(huán)保。如果你的 GPU 不夠用，為什么不嘗試在 AWS 的機器學習托管服務 Amazon SageMaker 上微調你的 Hugging Face 模型？我們?yōu)槟銣蕚淞舜罅渴纠?/p>

優(yōu)化你的模型

從編譯器到虛擬機，軟件工程師長期以來一直在使用能夠針對任何運行硬件自動優(yōu)化代碼的工具。

然而，機器學習社區(qū)仍在這個課題上苦苦掙扎，這是有充分理由的。優(yōu)化模型的尺寸和速度是一項極其復雜的任務，其中涉及以下技術:

專用硬件加速: 如訓練加速硬件 (Graphcore、Habana) 、推理加速硬件 (Google TPU，AWS Inferentia)。

剪枝: 刪除對預測結果影響很小或沒有影響的模型參數(shù)。

融合: 合并模型層 (例如，卷積和激活) 。

量化: 以較小的位深存儲模型參數(shù) (例如，使用 8 位而不是 32 位)

幸運的是，自動化工具開始出現(xiàn)，例如 Optimum 開源庫和 Infinity，Infinity 是一個最低能以 1 毫秒的延遲提供 Transformers 推理能力的容器化解決方案。

結論

在過去的幾年里，大語言模型的尺寸平均每年增長 10 倍。這開始看起來像另一個摩爾定律。

這條路似曾相識，我們應該知道這條路遲早會遇到收益遞減、成本增加、復雜性等問題以及新的風險。指數(shù)的結局往往不是會很好。還記得 Meltdown and Spectre 嗎？我們想知道人工智能的 Meltdown and Spectre 會是什么嗎？

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4760

瀏覽量
129128
機器學習

機器學習

+關注

關注
66

文章
8428

瀏覽量
132831
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22064
ChatGPT

ChatGPT

+關注

關注
29

文章
1564

瀏覽量
7860

原文標題：大語言模型: 新的摩爾定律？

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

大語言模型背后的Transformer，與CNN和RNN有何不同

? 電子發(fā)燒友網(wǎng)報道（文/李彎彎）近年來，隨著大語言模型的不斷出圈，Transformer這一概念也走進了大眾視野。Transformer是

發(fā)表于 12-25 08:36 ?4265次閱讀

大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>，與CNN和RNN有何不同

【大語言模型：原理與工程實踐】大語言模型的基礎技術

模型仍以Transformer為基礎進行訓練。Transformer是一種基于自注意力機制的編碼器-解碼器結構，其核心由編碼器和解碼器組成，每個部分均由多個相同層堆疊而成。自注意力機制

發(fā)表于 05-05 12:17

大語言模型：原理與工程時間+小白初識大語言模型

開拓深度學習的思路。對于新涌現(xiàn)的大語言模型的能力，主要是表現(xiàn)在學習能力的提升、語言理解和生成能力、創(chuàng)新和探索的能力。基礎技術詞表示技術詞表示一般分為三

發(fā)表于 05-12 23:57

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞，模型逐漸掌握語言的規(guī)律和特征。常用的模型結構 Transformer架構：大

發(fā)表于 08-02 11:03

如何更改ABBYY PDF Transformer+界面語言

在安裝ABBYY PDF Transformer+時會讓您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項。在特殊情況下，您可能需要在安裝完成后更改界面語言以適應需求，方法其實

發(fā)表于 10-11 16:13

ABBYY PDF Transformer+改善轉換結果之識別語言

ABBYY PDF Transformer+識別語言。一、打開編輯菜單然后單擊首選項；二、在首選項對話框中，從識別語言下拉列表中選擇一項：1

發(fā)表于 10-18 10:09

你了解在單GPU上就可以運行的Transformer模型嗎

的鄰居：在深度學習中，注意力是一種機制，它使網(wǎng)絡能夠根據(jù)上下文的不同部分與當前時間步長之間的相關性，將注意力集中在上下文的不同部分。transformer模型中存在三種注意機制：圖3：

發(fā)表于 11-02 15:19

一種新的動態(tài)微觀語言競爭社會仿真模型

語言競爭傳播演化現(xiàn)象是典型的不能假設、無法進行真實性實驗的社會科學問題，而建立在社會仿真模型基礎上的計算實驗是可行的方案。利用基于Agent的社會圈子網(wǎng)絡理論并引入語言的內部詞匯結構給出一種

發(fā)表于 11-23 15:41 ?6次下載

超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹

發(fā)表于 10-11 16:46 ?2726次閱讀

探究超大Transformer語言模型的分布式訓練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓練基于 Transformer 架構的巨型語言模型。本系列文章將詳細介紹

發(fā)表于 10-20 09:25 ?2465次閱讀

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT

發(fā)表于 05-10 15:01 ?1570次閱讀

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM

發(fā)表于 06-25 15:08 ?1509次閱讀

大語言模型中的語言與知識：一種神秘的分離現(xiàn)象

自然語言處理領域存在著一個非常有趣的現(xiàn)象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊

發(fā)表于 02-20 14:53 ?565次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問世以來，在自然語言處理（NLP）領域取得了巨大的成功，并成為了許多先進模型（如BERT、GPT等）的基礎。本文將深入解讀如何使用PyTorch框架搭建

發(fā)表于 07-02 11:41 ?1710次閱讀

Transformer語言模型簡介與實現(xiàn)過程

在自然語言處理（NLP）領域，Transformer模型以其卓越的性能和廣泛的應用前景，成為了近年來最引人注目的技術之一。Transformer

發(fā)表于 07-10 11:48 ?1944次閱讀