女强穿越玄幻完结小说,欢乐颂第一季,辰东

什么是大模型？

大模型，英文名叫Large Model，大型模型。早期的時候，也叫Foundation Model，基礎模型。

大模型是一個簡稱。完整的叫法，應該是“人工智能預訓練大模型”。預訓練，是一項技術，我們后面再解釋。

我們現在口頭上常說的大模型，實際上特指大模型的其中一類，也是用得最多的一類——語言大模型（LargeLanguage Model，也叫大語言模型，簡稱LLM）。

除了語言大模型之外，還有視覺大模型、多模態大模型等。現在，包括所有類別在內的大模型合集，被稱為廣義的大模型。而語言大模型，被稱為狹義的大模型。

從本質來說，大模型，是包含超大規模參數（通常在十億個以上）的神經網絡模型。

之前給大家科普人工智能（鏈接）的時候，小棗君介紹過，神經網絡是人工智能領域目前最基礎的計算模型。它通過模擬大腦中神經元的連接方式，能夠從輸入數據中學習并生成有用的輸出。

這是一個全連接神經網絡（每層神經元與下一層的所有神經元都有連接），包括1個輸入層，N個隱藏層，1個輸出層。

大名鼎鼎的卷積神經網絡（CNN）、循環神經網絡（RNN）、長短時記憶網絡（LSTM）以及transformer架構，都屬于神經網絡模型。

目前，業界大部分的大模型，都采用了transformer架構。

剛才提到，大模型包含了超大規模參數。實際上，大模型的“大”，不僅是參數規模大，還包括：架構規模大、訓練數據大、算力需求大。

以OpenAI 公司的GPT-3為例。這個大模型的隱藏層一共有96層，每層的神經元數量達到2048個。

整個架構的規模就很大（我可畫不出來），神經元節點數量很多。

大模型的參數數量和神經元節點數有一定的關系。簡單來說，神經元節點數越多，參數也就越多。例如，GPT-3的參數數量，大約是1750億。

大模型的訓練數據，也是非常龐大的。

同樣以GPT-3為例，采用了45TB的文本數據進行訓練。即便是清洗之后，也有570GB。具體來說，包括CC數據集（4千億詞）+WebText2（190億詞）+BookCorpus（670億詞）+維基百科（30億詞），絕對堪稱海量。

最后是算力需求。

這個大家應該都聽說過，訓練大模型，需要大量的GPU算卡資源。而且，每次訓練，都需要很長的時間。

根據公開的數據顯示，訓練GPT-3大約需要3640PFLOP·天（PetaFLOP·Days）。如果采用512張英偉達的A100 GPU（單卡算力195 TFLOPS），大約需要1個月的時間。訓練過程中，有時候還會出現中斷，實際時間會更長。

總而言之，大模型就是一個虛擬的龐然大物，架構復雜、參數龐大、依賴海量數據，且非常燒錢。

相比之下，參數較少（百萬級以下）、層數較淺的模型，是小模型。小模型具有輕量級、高效率、易于部署等優點，適用于數據量較小、計算資源有限的垂直領域場景。

大模型是如何訓練出來的？

接下來，我們了解一下大模型的訓練過程。

大家都知道，大模型可以通過對海量數據的學習，吸收數據里面的“知識”。然后，再對知識進行運用，例如回答問題、創造內容等。

學習的過程，我們稱之為訓練。運用的過程，則稱之為推理。

訓練，又分為預訓練（Pre-trained）和微調（Fine tuning）兩個環節。

預訓練

在預訓練時，我們首先要選擇一個大模型框架，例如transformer。然后，通過“投喂”前面說的海量數據，讓大模型學習到通用的特征表示。

那么，為什么大模型能夠具有這么強大的學習能力？為什么說它的參數越多，學習能力就越強？

我們可以參考MIT（麻省理工）公開課的一張圖：

這張圖是深度學習模型中一個神經元的結構圖。

神經元的處理過程，其實就是一個函數計算過程。算式中，x是輸入，y是輸出。預訓練，就是通過x和y，求解W。W是算式中的“權重（weights）”。

權重決定了輸入特征對模型輸出的影響程度。通過反復訓練來獲得權重，這就是訓練的意義。

權重是最主要的參數類別之一。除了權重之外，還有另一個重要的參數類別——偏置（biases）。

參數有很多種類

權重決定了輸入信號對神經元的影響程度，而偏置則可以理解為神經元的“容忍度”，即神經元對輸入信號的敏感程度。

簡單來說，預訓練的過程，就是通過對數據的輸入和輸出，去反復“推算”最合理的權重和偏置（也就是參數）。訓練完成后，這些參數會被保存，以便模型的后續使用或部署。

參數越多，模型通常能夠學習到更復雜的模式和特征，從而在各種任務上表現出更強的性能。

我們通常會說大模型具有兩個特征能力——涌現能力和泛化能力。

當模型的訓練數據和參數不斷擴大，直到達到一定的臨界規模后，會表現出一些未能預測的、更復雜的能力和特性。模型能夠從原始訓練數據中，自動學習并發現新的、更高層次的特征和模式。這種能力，被稱為“涌現能力”。

“涌現能力”，可以理解為大模型的腦子突然“開竅”了，不再僅僅是復述知識，而是能夠理解知識，并且能夠發散思維。

泛化能力，是指大模型通過“投喂”海量數據，可以學習復雜的模式和特征，可以對未見過的數據做出準確的預測。

簡單來說，就像董宇輝一樣，書讀得多了，有些書雖然沒讀過，他也能瞎掰幾句。

參數規模越來越大，雖然能讓大模型變得更強，但是也會帶來更龐大的資源消耗，甚至可能增加“過擬合”的風險。

過擬合，是指模型對訓練數據學習得過于精確，以至于它開始捕捉并反映訓練數據中的噪聲和細節，而不是數據的總體趨勢或規律。說白了，就是大模型變成了“書呆子”，只會死記硬背，不愿意融會貫通。

預訓練所使用的數據，我們也需要再說明一下。

預訓練使用的數據，是海量的未標注數據（幾十TB）。

之所以使用未標注數據，是因為互聯網上存在大量的此類數據，很容易獲取。而標注數據（基本上靠人肉標注）需要消耗大量的時間和金錢，成本太高。

預訓練模型，可以通過無監督學習方法（如自編碼器、生成對抗網絡、掩碼語言建模、對比學習等，大家可以另行了解），從未標注數據中，學習到數據的通用特征和表示。

這些數據，也不是隨便網上下載得來的。整個數據需要經過收集、清洗、脫敏和分類等過程。這樣可以去除異常數據和錯誤數據，還能刪除隱私數據，讓數據更加標準化，有利于后面的訓練過程。

獲取數據的方式，也是多樣化的。

如果是個人和學術研究，可以通過一些官方論壇、開源數據庫或者研究機構獲取。如果是企業，既可以自行收集和處理，也可以直接通過外部渠道（市場上有專門的數據提供商）購買。

微調

預訓練學習之后，我們就得到了一個通用大模型。這種模型一般不能直接拿來用，因為它在完成特定任務時往往表現不佳。

這時，我們需要對模型進行微調。

微調，是給大模型提供特定領域的標注數據集，對預訓練的模型參數進行微小的調整，讓模型更好的完成特定任務。

行業數據類別

微調之后的大模型，可以稱之為行業大模型。例如，通過基于金融證券數據集的微調，可以得到一個金融證券大模型。

如果再基于更細分的專業領域進行微調，就是專業大模型（也叫垂直大模型）。

我們可以把通用大模型理解為中小學生，行業大模型是大學本科生，專業大模型是研究生。

微調階段，由于數據量遠小于預訓練階段，所以對算力需求小很多。

大家注意，對于大部分大模型廠商來說，他們一般只做預訓練，不做微調。而對于行業客戶來說，他們一般只做微調，不做預訓練。

“預訓練+微調”這種分階段的大模型訓練方式，可以避免重復的投入，節省大量的計算資源，顯著提升大模型的訓練效率和效果。

預訓練和微調都完成之后，需要對這個大模型進行評估。通過采用實際數據或模擬場景對大模型進行評估驗證，確認大模型的性能、穩定性和準確性?等是否符合設計要求。

等評估和驗證也完成，大模型基本上算是打造成功了。接下來，我們可以部署這個大模型，將它用于推理任務。

換句話說，這時候的大模型已經“定型”，參數不再變化，可以真正開始干活了。

大模型的推理過程，就是我們使用它的過程。通過提問、提供提示詞（Prompt），可以讓大模型回答我們的問題，或者按要求進行內容生成。

最后，畫一張完整的流程圖：

大模型究竟有什么作用？

根據訓練的數據類型和應用方向，我們通常會將大模型分為語言大模型（以文本數據進行訓練）、音頻大模型（以音頻數據進行訓練）、視覺大模型（以圖像數據進行訓練），以及多模態大模型（文本和圖像都有）。

語言大模型，擅長自然語言處理（NLP）領域，能夠理解、生成和處理人類語言，常用于文本內容創作（生成文章、詩歌、代碼）、文獻分析、摘要匯總、機器翻譯等場景。大家熟悉的ChatGPT，就屬于此類模型。

音頻大模型，可以識別和生產語音內容，常用于語音助手、語音客服、智能家居語音控制等場景。

視覺大模型，擅長計算機視覺（CV）領域，可以識別、生成甚至修復圖像，常用于安防監控、自動駕駛、醫學以及天文圖像分析等場景。

多模態大模型，結合了NLP和CV的能力，通過整合并處理來自不同模態的信息（文本、圖像、音頻和視頻等），可以處理跨領域的任務，例如文生圖，文生視頻、跨媒體搜索（通過上傳圖，搜索和圖有關的文字描述）等。

今年以來，多模態大模型的崛起勢頭非常明顯，已經成為行業關注的焦點。

如果按照應用場景進行分類，那么類別就更多了，例如金融大模型、醫療大模型、法律大模型、教育大模型、代碼大模型、能源大模型、政務大模型、通信大模型，等等。

例如金融大模型，可以用于風險管理、信用評估、交易監控、市場預測、合同審查、客戶服務等。功能和作用很多很多，不再贅述。

大模型的發展趨勢？

截至2024年3月25日，中國10億參數規模以上的大模型數量已經超過100個，號稱“百模大戰”。

這些大模型的應用領域、參數規模各有不同，但是，背后都是白花花的銀子。

根據行業估測的數據，訓練一個大模型，成本可能在幾百萬美元到上億美元之間。例如，GPT-3訓練一次的成本，約為140萬美元。Claude 3模型的訓練費用，高達約1億美元。

如此多的企業推出大模型，實際上也是一種資源的浪費。

而且，大模型也分為開源大模型和閉源大模型。行業里有能力做閉源大模型的企業，并不是很多。大部分的大模型，都是基于開源大模型框架和技術打造的，實際上是為了迎合資本市場的需求，或者為了蹭熱度。
行業里，目前仍有部分頭部企業在死磕參數規模更大的超大模型（擁有數萬億到數千萬億個參數），例如OpenAI、xAI等。馬斯克之前就在X平臺宣布，xAI團隊已經成功啟動了世界上最強大的AI訓練集群。該集群由10萬塊H100組成，主要用于Grok 2和Grok3的訓練和開發。
對于大部分企業來說，萬卡和萬億參數其實已經是個天花板了，再往上走的意愿不強烈，錢包也不允許。
隨著行業逐漸趨于理性，現在大家的關注焦點，逐漸從“打造大模型”，變成“使用大模型”。如何將大模型投入具體應用，如何吸引更多用戶，如何通過大模型創造收入，成為各大廠商的頭等任務。

大模型落地，就涉及到能力“入”端（下沉到終端）。所以，AI手機、AI PC、具身智能的概念越來越火，成為新的發展熱點。
以AI手機為例，像高通、聯發科等芯片廠商，都推出了具有更強AI算力的手機芯片。而OPPO、vivo等手機廠商，也在手機里內置了大模型，并推出了很多原生AI應用。
第三方AI應用的數量，就更不用說了。截止目前，根據行業數據顯示，具有AI功能的APP數量已達到300多萬款。2024年6月，AIGC類APP的月活躍用戶規模達6170萬，同比增長653%。

大模型入端，也帶來了輕量化的趨勢。為了在資源受限的設備上運行，大模型將通過剪枝、量化、蒸餾等技術進行輕量化，保持性能的同時減少計算資源需求。

大模型會帶來哪些挑戰？

大模型是一個好東西，能夠幫我們做很多事情，節約時間，提升效率。但是，大模型也是一把雙刃劍，會帶來一些新的挑戰。

首先，是影響失業率。大模型所掀起的AI人工智能浪潮，肯定會導致一些人類工作崗位被替代，進而導致失業率上升。

其次，是版權問題。大模型基于已有數據進行學習。大模型生成的內容，尤其是用于文本、圖像、音樂和視頻創作，可能引發版權和知識產權問題。它雖然幫助了創作，但也“引用”了人類創作者的作品，界限難以區分。長此以往，可能打擊人類的原生創作熱情。

第三，大模型可能引發算法偏見和不公平。也就是說，訓練數據中存在的偏差，會導致大模型學習到這些偏差，從而在預測和生成內容時表現出不公平的行為。模型可能無意中強化社會上的刻板印象和偏見，例如性別、種族和宗教等方面的偏見。大模型生成的內容也可能被用于政治宣傳和操縱，影響選舉和公共輿論。

第四，被用于犯罪。大模型可以生成逼真的文本、圖像、語音和視頻，這些內容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。

第五，能耗問題。大模型的訓練和推理需要大量的計算資源，這不僅增加了成本，還帶來了巨大的碳排放。很多企業為了服務于資本市場或跟風，盲目進行大模型訓練，消耗了大量的資源，也導致了無意義的碳排放。

總而言之，大模型在倫理、法律、社會和經濟層面帶來的威脅和挑戰還是很多的，需要更多時間進行探索和解決。
好啦，以上就是今天文章的全部內容，希望對大家有所幫助！
文章來源于鮮棗課堂，作者小棗君

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1792

文章
47483

瀏覽量
239162
語言模型

語言模型

+關注

關注
0

文章
532

瀏覽量
10300
大模型

大模型

+關注

關注
2

文章
2499

瀏覽量
2914

AIGC入門及鴻蒙入門

模型，能夠生成與給定文本描述相符的圖像。鴻蒙系統入門 1. 基礎知識：鴻蒙系統（HarmonyOS）是華為推出的一款分布式操作系統，旨在實現跨設備、跨平臺的無縫協同體驗。鴻蒙系統具有輕量化

發表于 01-13 10:32

小白學大模型：構建LLM的關鍵步驟

隨著大規模語言模型（LLM）在性能、成本和應用前景上的快速發展，越來越多的團隊開始探索如何自主訓練LLM模型。然而，是否從零開始訓練一個LLM，并非每個組織都適合。本文將根據不同的需求與資源，幫助

發表于 01-09 12:12 ?255次閱讀

<b class='flag-5'>小白</b>學大<b class='flag-5'>模型</b>：構建LLM的關鍵步驟

智行者蝸小白繪就泰國智慧清潔藍圖

在科技進步的浪潮中，智行者秉持用自動駕駛解決方案構建智慧生活的理念，孕育出了“蝸小白”這一智慧清潔領域的重要成果。蝸小白在國內已嶄露頭角，身影遍布多地;而在海外，蝸小白系列產品已成功拓展至30余個國家及地區。

發表于 12-06 13:53 ?228次閱讀

智行者蝸小白海外項目落地實況

發表于 11-29 16:24 ?307次閱讀

科普課堂 | OSI模型，你真的了解嗎？

網絡通信是現代信息技術的基石，它使得人們可以在不同的地理位置之間快速、高效的傳遞信息，為了實現這一目標，需要一種標準的框架來描述網絡通信的過程。因此OSI七層網絡模型誕生了。簡單介紹-什么是OSI

發表于 10-18 17:37 ?1750次閱讀

<b class='flag-5'>科普</b>課堂 | OSI<b class='flag-5'>模型</b>，你真的了解嗎？

寫給小白的AI入門科普

到底什么是AI？AI，是artificialintelligence的縮寫。Artificial，很多同學認字認半邊，會以為是藝術（art）的什么形容詞。其實不然，artificial的意思就是“人工的、人造的”，和natural（天然的）是反義詞。Intelligence，這個不容易認錯，是“智能”的意思。英特爾（Intel）公司的名字，就是基于這個詞的前

發表于 08-08 08:28 ?511次閱讀

<b class='flag-5'>寫給</b><b class='flag-5'>小白</b>的AI<b class='flag-5'>入門</b><b class='flag-5'>科普</b>

【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

，了解此書的主要內容：書分四篇，基礎、入門、進階和展望。基礎篇從人工智能起源開始、之后又介紹了機器學習、神經網絡和大語言模型的基礎知識，如果讀者學習過機器學習相關課程，那這個基礎篇的閱讀就會很輕

發表于 07-21 13:35

AI大模型的發展歷程和應用前景

領域取得重要突破。本文將深入解析AI大模型的基本原理、發展歷程、應用前景以及面臨的挑戰與爭議，為讀者提供一個全面而深入的科普視角。

發表于 07-03 18:20 ?1242次閱讀

科普EEPROM 科普 EVASH Ultra EEPROM?科普存儲芯片

發表于 06-25 17:14 ?602次閱讀

電感科普篇：電感的特性有哪些？

發表于 06-16 10:31 ?1279次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

合宙 | 小白測功耗：辦公室人手必備鼠標

小白測功耗又和大家見面啦~前幾期測試了溫濕度計、普通門鈴、可視門鈴，特別感謝大家對測品的建議，小白會加油測試噠！小白：決定了！這次測鼠標！國梁：測測我的，我的一年才換一次國梁鴿鴿用的鼠標會是哪一款呢

發表于 05-11 08:04 ?1277次閱讀

合宙 | <b class='flag-5'>小白</b>測功耗：辦公室人手必備鼠標

寫給小白的芯片半導體科普

我們在日常工作和生活中，經常會使用到各種各樣的電子或電器產品，例如電腦、手機、電視、冰箱、洗衣機等。這些產品，如果我們把它拆開，都會看到類似下面這樣的一塊綠色板子。有時候是藍色或黑色的大家都知道，這個綠色板子，叫做電路板。更官方一點的名稱，叫印制電路板，也就是PCB（PrintedCircuitBoard，國外有時候也叫PWB，PrintedWireBoar

發表于 04-18 08:04 ?272次閱讀

<b class='flag-5'>寫給</b><b class='flag-5'>小白</b>的芯片半導體<b class='flag-5'>科普</b>

有獎征文！第二屆電力電子科普作品創作大賽（中國電源學會和英飛凌聯合主辦）

示才華、傳播知識的舞臺。本次科普作品創作大賽由中國電源學會科普工委與英飛凌科技（中國）有限公司共同主辦，參賽者可結合自身的工作和學習，你的興趣愛好，用科普作品展現電力電子技術和各應用場景，寫

發表于 04-11 11:38

使用CUBEAI部署tflite模型到STM32F0中，模型創建失敗怎么解決？

看到CUBE_AI已經支持到STM32F0系列芯片，就想拿來入門嵌入式AI。生成的模型很小，是可以部署到F0上的，但是一直無法創建成功。查閱CUBE AI文檔說在調用create函數前，要啟用

發表于 03-15 08:10

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

寫給小白的大模型入門科普