在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

小白學大模型:構建LLM的關鍵步驟

穎脈Imgtec ? 2025-01-09 12:12 ? 次閱讀

本文轉自:Coggle數據科學


隨著大規模語言模型(LLM)在性能、成本和應用前景上的快速發展,越來越多的團隊開始探索如何自主訓練LLM模型。然而,是否從零開始訓練一個LLM,并非每個組織都適合。本文將根據不同的需求與資源,幫助你梳理如何在構建AI算法應用時做出合適的決策。


訓練LLM的三種選擇

在構建AI算法應用時,首先需要決定是使用現有的商用API,還是開源模型,或者選擇完全自主訓練一個LLM。每種選擇有其獨特的優勢與劣勢。

e33c3420-ce3f-11ef-9434-92fbcf53809c.pnge36fbbf6-ce3f-11ef-9434-92fbcf53809c.png

選項一:使用商用LLM API

這種方法最適合缺乏深厚技術背景的團隊,或者希望盡快構建應用的組織。商用API的優點在于,無需進行繁瑣的模型訓練,團隊可以直接使用現成的、高性能的LLM服務來執行推理任務。它還允許使用最先進的LLM技術,節省了大量的開發時間與成本。通過API,你只需為推理計算付費,且不需要處理數據集和模型訓練過程中的復雜性。

然而,這種方法也有明顯的缺點。首先,成本問題是一個關鍵考量,高頻次的推理任務或微調可能導致不小的費用。其次,數據隱私和合規性也是商用API的限制之一,某些行業(如醫療健康、金融等)可能無法將敏感數據上傳至外部服務。此外,商用API的定制性較差,模型微調的空間有限,如果需求有所變化,靈活性較低。

選項二:使用開源LLM
與商用API相比,開源LLM提供了更多的定制和控制權。你可以基于開源模型進行微調,或者在此基礎上繼續進行預訓練。這種方法適合有一定技術實力的團隊,尤其是當項目的數據隱私要求較高時。使用開源模型,你可以完全控制訓練數據和模型的演化方向,避免了商用API服務帶來的依賴風險。

然而,開源LLM的性能通常落后于商用模型,有時需要幾個月甚至更長時間才能趕上最新的商業技術。訓練和微調開源模型也需要投入較大的計算資源與專業知識,因此時間和資源的成本不可忽視。

選項三:完全自主訓練LLM

當組織擁有強大的技術團隊并且預算充足時,完全從零開始訓練一個LLM可以提供最大的靈活性。自主訓練不僅可以讓你定制模型架構(如選擇不同的tokenizer、調整模型維度、頭數、層數等),還可以完全控制訓練數據,以最大限度地減少模型偏差和毒性問題。這種方法適合那些將LLM作為核心技術和競爭優勢的公司,尤其是在數據和算法方面有顯著創新的情況下。

但與此同時,完全自主訓練LLM也是最昂貴且風險較高的選擇。模型訓練需要大量的計算資源和跨領域的技術能力,若不慎,可能導致訓練失敗,尤其是在訓練的后期,錯誤難以修正。而且,與開源模型相比,完全從頭開始訓練需要更為龐大的高質量、多樣化的數據集,否則難以獲得具備廣泛能力的模型。


規模法則(Scaling Laws)

LLM規模的歷史演變
自2020年OpenAI首次提出LLM規模法則以來,關于如何提高模型性能的觀點經歷了顯著的變化。OpenAI的研究表明,增加模型的規模比增加數據量更為重要。這一理論在一定時間內是成立的,尤其是在模型訓練初期。然而,隨著研究的深入,尤其是2022年DeepMind提出的新見解,關于模型規模和數據規模的關系發生了根本性的轉變。

DeepMind提出,之前的LLM模型訓練還遠遠不夠,它們的數據量和計算資源未能達到最佳水平。具體來說,現有的LLM模型并沒有在足夠的數據上進行充分的訓練。這一觀點通過DeepMind提出的模型——Chinchilla得到了驗證。Chinchilla的規模只有Gopher模型的四分之一,但它的訓練數據量卻是Gopher的4.6倍。在這種縮小模型規模的情況下,Chinchilla卻取得了更好的性能,超過了Gopher和其他同類模型。

新的規模法則:模型大小與數據量的平衡基于Chinchilla的實驗結果,DeepMind提出了一個新的規模法則:模型大小和訓練數據的大小應該按相同的比例增加,才能獲得最佳的模型表現。如果你的計算資源增加了10倍,你應該將模型的大小增加3.1倍,并且數據量也要增加3.1倍;如果計算資源增加了100倍,模型和數據的大小都應當增加10倍。這種方式能夠更好地平衡計算資源、模型復雜度和訓練數據量,從而實現更優的訓練效果。

簡而言之,當前的最佳實踐建議,在選擇訓練數據集時,首先要根據數據的大小來確定最適合的模型規模。DeepMind稱為Chinchilla-Optimal模型的訓練方法,是根據訓練數據量來優化模型的大小。對于數據規模和模型規模的組合,最佳做法是基于訓練計算預算和推理延遲需求來做出決策。

過小或過大的模型:何時調整?在規模法則中,存在著一個最優點,即模型的大小和訓練數據的大小之間的最佳平衡。當模型的大小太小(即處于曲線的左側)時,增加模型的規模并減少數據量的需求是有益的。而當模型太大(處于曲線的右側)時,減少模型的規模并增加數據量反而會帶來更好的效果。最佳的模型通常位于曲線的最低點——即Chinchilla-Optimal點。在實際訓練過程中,你可能會面臨以下幾種情形:

模型過小:如果模型規模過小,而你有充足的訓練數據,那么擴展模型的規模并且增加數據量,會提升性能。

  • 模型過大:如果模型規模過大,且數據量相對不足,則縮小模型規模并增加數據量可能會帶來更好的性能提升。

訓練FLOPs和訓練tokens的最佳配置DeepMind的研究還提供了一些數據,展示了不同模型規模下,訓練所需的計算量(FLOPs)和訓練tokens的最優配置。這些數據為開發者提供了一個參考框架,幫助他們根據實際計算資源和數據集的規模,選擇最適合的模型。

通過這些數據,你可以更清晰地理解,不同大小的模型在計算資源與訓練數據的需求之間的平衡。訓練FLOPs(每次操作所需的浮點運算數)與訓練tokens(經過token化處理后的訓練數據量)之間的關系,能夠幫助你更好地預測訓練的需求,合理分配計算資源。

如何應用這些Scaling Laws到訓練中?理解了這些理論后,如何在實際訓練中應用這些Scaling Laws呢?以下是幾個關鍵步驟:

選擇合適的數據集:首先需要明確你的應用場景和數據集。如果數據集很小,可能不適合訓練一個大規模的模型;如果數據集龐大,可以考慮訓練更大規模的模型,以充分利用數據的潛力。

確定模型規模:根據數據集的大小和計算預算,使用Chinchilla-Optimal方法來決定模型的規模。確保你的模型規模與數據量之間保持一致,避免過度或不足的訓練。

計算資源預算:在決定模型規模和數據量之后,你需要確保有足夠的計算資源來支持訓練過程。這涉及到計算能力的選擇——從硬件設備(如TPU或GPU)到實際訓練過程中的分布式計算能力。

推理延遲的考慮:如果你的應用需要低延遲推理,模型的大小與推理時間之間的關系也是需要考慮的。通常,大模型的推理速度較慢,因此可能需要對模型進行優化或采用更小的模型。

  1. 持續監控與調優:訓練過程中,需要實時監控模型的性能,確保在訓練的各個階段都保持最優的計算資源和數據規模配置。如果發現性能沒有預期的提升,可以調整模型的規模或增加數據量進行優化。

高效使用硬件資源

數據并行(Data Parallelism)數據并行是處理無法裝入單一計算節點的數據集時最常見的方式。具體來說,數據并行將訓練數據劃分為多個數據分片(shards),并將這些分片分配到不同的計算節點上。每個節點在其本地數據上訓練一個子模型,然后與其他節點通信,定期合并它們的結果,從而獲得全局模型。數據并行的參數更新可以是同步的或異步的。同步數據并行中,各個節點會在每個步驟后同步梯度,并將更新后的模型參數發送回所有節點。而異步數據并行則允許各個節點在不同步的情況下更新模型,通常可以加速訓練,但也可能引入更多的不一致性,導致模型收斂較慢。

數據并行的優點在于它提高了計算效率,并且相對容易實現。然而,缺點在于反向傳播時,需要將整個梯度傳遞給所有其他GPU,這會導致較大的內存開銷。同時,模型和優化器的復制會占用較多的內存,降低內存效率。

張量并行(Tensor Parallelism)張量并行是將大模型的張量運算分割到多個設備上進行的一種并行方式。不同于數據并行在數據維度上的劃分,張量并行通過分割模型的不同層或張量來并行化計算。每個GPU只計算模型的一部分(例如,一層神經網絡或一個張量片段),然后通過跨設備通信將其結果匯總。張量并行能夠有效解決單個GPU內存不足以加載完整模型的問題,但它的挑戰在于跨設備的通信開銷較大。隨著模型尺寸的增加,模型并行的開銷也隨之增加,這要求更加高效的算法和硬件架構。

Megatron-LM是張量并行的一個典型應用,通過將模型的張量分布到多個GPU上,從而能夠訓練大規模模型,如GPT-3、PaLM等。結合數據并行和張量并行的方式,模型的訓練效率和規模都得到了顯著提升。

流水線并行(Pipeline Parallelism)流水線并行是一種將模型的不同階段分布到多個設備上進行訓練的策略。不同于數據并行和張量并行,流水線并行將模型劃分為不同的部分,每個設備只處理某個階段的任務,并將輸出傳遞給下一個階段的設備。這樣,多個設備可以并行工作,每個設備處理不同的任務,但最終目標是加速模型的訓練過程。例如,如果一個模型有5個階段,流水線并行會將每個階段分配到一個GPU上,允許GPU并行工作,每個GPU處理模型的一部分任務。這種方法在長時間的訓練過程中非常有效,尤其是在非常深的網絡架構中。

流水線并行的挑戰在于,需要有效地同步不同階段之間的數據流,而且每個設備只能在前一個設備完成計算后才開始工作,這可能會帶來延遲。然而,通過合理設計流水線,延遲可以降到最低,從而提高訓練效率。

訓練優化策略在訓練LLM時,除了并行化策略,硬件和算法的優化同樣至關重要。以下是一些重要的訓練優化策略:

梯度累積(Gradient Accumulation)
梯度累積是一種將訓練批次分割為微批次,并在每個微批次的訓練過程中累積梯度,直到所有微批次完成后再進行一次參數更新的技術。這種方式可以有效降低內存需求,并使得大批次的訓練成為可能,從而加速模型訓練。

混合精度訓練(Mixed Precision Training)
混合精度訓練使用16位和32位浮動精度的結合來訓練神經網絡。通過使用低精度的計算,可以顯著減少內存占用和計算開銷,同時又不會損失太多的模型精度。這種技術在處理大規模模型時尤其有用。

動態學習率(Dynamic Learning Rates)
在訓練過程中,根據模型的表現動態調整學習率,可以提高收斂速度并減少過擬合的風險。常見的學習率調整策略包括基于訓練輪次的衰減、基于梯度的自適應調整等。

  1. 模型剪枝與蒸餾(Model Pruning and Distillation)
    在訓練后期,通過剪枝減少不必要的模型參數,或者通過蒸餾技術將大模型的知識轉移到小模型中,從而提升推理效率。這些技術可以幫助減輕大模型部署的資源壓力,并加速推理。

數據集收集

“壞數據導致壞模型。” 這一點在訓練大型語言模型(LLM)時尤為重要。高質量、具有高多樣性和大規模的訓練數據集,不僅能提高下游任務的模型表現,還能加速模型的收斂過程。

數據集的多樣性對于LLM尤其關鍵。這是因為數據的多樣性能有效提升模型在跨領域的知識涵蓋能力,從而提高其對各種復雜任務的泛化能力。通過訓練多樣化的示例,能夠增強模型在處理各種細微任務時的表現。在數據集收集過程中,一般的數據可以由非專家收集,但對于特定領域的數據,通常需要由專業領域的專家(SMEs,Subject Matter Experts)來進行收集和審查。

NLP工程師在這個階段也應當深度參與,原因在于他們熟悉LLM如何“學習表示數據”的過程,因此能發現專家可能遺漏的數據異常或缺口。專家和NLP工程師之間的協作非常重要,可以確保數據的質量和代表性。


數據預處理

  1. 數據采樣(Data Sampling):
  • 某些數據組件可以進行過采樣(up-sampling),以獲得更平衡的數據分布。例如,一些研究會對低質量的數據集(如未過濾的網頁爬取數據)進行下采樣(down-sampling)。而其他研究則會根據模型目標對特定領域的數據進行過采樣。
  • 對于預訓練數據集而言,其組成通常來源于高質量的科學資源,例如學術論文、教科書、講義和百科全書。數據集的質量通常非常高,并且會根據任務需要進行特定的篩選,比如使用任務特定的數據集來幫助模型學習如何將這些知識融入到新的任務上下文中。
  • 數據清理(Data Cleaning):

通常在訓練之前,需要對數據進行清理和重新格式化。一些常見的清理步驟包括去除樣板文本(boilerplate text)、去除HTML代碼或標記。對于某些項目,還需要修復拼寫錯誤、處理跨領域的同形異義詞(homographs),或者去除有偏見或有害的言論,以提高模型的表現。

  • 非標準文本組件的處理(Handling Non-Standard Textual Components):

在某些情況下,將非標準的文本組件轉換成標準文本非常重要。例如,emoji表情可以轉換為其對應的文本表示:可以轉換為“snowflake”。這種轉換通常可以通過編程實現。

數據去重(Data Deduplication):

  • 一些研究者發現,去重訓練數據能夠顯著提高模型的表現。常用的去重方法包括局部敏感哈希(LSH, Locality-Sensitive Hashing)。通過這種方法,可以識別并移除重復的訓練數據,從而減少模型學習到的冗余信息

預訓練

訓練一個數十億參數的LLM(大規模語言模型)通常是一個高度實驗性的過程,充滿了大量的試驗與錯誤。通常,團隊會從一個較小的模型開始,確保其具有潛力,然后逐步擴展到更多的參數。需要注意的是,隨著模型規模的擴大,會出現一些在訓練小規模數據時不會遇到的問題。

模型架構為了減少訓練不穩定的風險,實踐者通常會選擇從流行的前身模型(如GPT-2或GPT-3)中借鑒架構和超參數,并在此基礎上做出調整,以提高訓練效率、擴展模型的規模(包括深度和寬度),并增強模型的性能。正如前面提到的,預訓練過程通常涉及大量的實驗,以找到模型性能的最佳配置。實驗可以涉及以下內容之一或全部:

  • 權重初始化(Weight Initialization)
  • 位置嵌入(Positional Embeddings)
  • 優化器(Optimizer)
  • 激活函數(Activation)
  • 學習率(Learning Rate)
  • 權重衰減(Weight Decay)
  • 損失函數(Loss Function)
  • 序列長度(Sequence Length)
  • 層數(Number of Layers
  • 注意力頭數(Number of Attention Heads)
  • 參數數量(Number of Parameters)
  • 稠密與稀疏層(Dense vs. Sparse Layers)
  • 批量大小(Batch Size)

Dropout等。

通常,人工試錯與自動超參數優化(HPO)相結合,用來找到最優的配置組合。常見的超參數包括:學習率、批量大小、dropout率等。超參數搜索是一個高昂的過程,尤其是對于數十億參數的模型來說,往往過于昂貴,不容易在完整規模下進行。通常會根據先前的小規模實驗結果和已發布的工作,來選擇超參數,而不是從零開始。此外,某些超參數在訓練過程中也需要進行動態調整,以平衡學習效率和訓練收斂。例如:

學習率(Learning Rate):在訓練的早期階段可以線性增加,之后再衰減。

批量大小(Batch Size):通常會從較小的批量大小開始,逐步增加。

硬件故障與訓練不穩定

硬件故障(Hardware Failure):在訓練過程中,計算集群可能會發生硬件故障,這時需要手動或自動重啟訓練。在手動重啟時,訓練會暫停,并進行一系列診斷測試來檢測有問題的節點。標記為有問題的節點應該被隔離,然后從最后保存的檢查點繼續訓練。

訓練不穩定(Training Instability):訓練不穩定性是一個根本性的挑戰。在訓練過程中,超參數(如學習率和權重初始化)直接影響模型的穩定性。例如,當損失值發散時,降低學習率并從較早的檢查點重新啟動訓練,可能會幫助恢復訓練并繼續進行。此外,模型越大,訓練過程中發生損失峰值(loss spikes)的難度也越大,這些峰值可能在訓練的后期出現,并且不規則。盡管沒有很多系統性的方法來減少這種波動,但以下是一些行業中的最佳實踐:

批量大小(Batch Size):通常,使用GPU能夠支持的最大批量大小是最好的選擇。

批量歸一化(Batch Normalization):對mini-batch中的激活進行歸一化可以加速收斂并提高模型性能。

學習率調度(Learning Rate Scheduling):高學習率可能會導致損失波動或發散,從而導致損失峰值。通過調整學習率的衰減,逐步減小模型參數更新的幅度,可以提高訓練穩定性。常見的調度方式包括階梯衰減(step decay)**和**指數衰減(exponential decay)。

權重初始化(Weight Initialization):正確的權重初始化有助于模型更快收斂并提高性能。常見的方法包括隨機初始化、高斯噪聲初始化以及Transformers中的T-Fixup初始化。

模型訓練起點(Model Training Starting Point):使用在相關任務上預訓練過的模型作為起點,可以幫助模型更快收斂并提高性能。

正則化(Regularization):使用dropout、權重衰減(weight decay)和L1/L2正則化等方法可以減少過擬合并提高模型的泛化能力。

數據增強(Data Augmentation):通過對訓練數據應用轉換,可以幫助模型更好地泛化,減少過擬合。

訓練過程中熱交換(Hot-Swapping):在訓練過程中根據需要更換優化器或激活函數,幫助解決出現的問題。


模型評估

通常,預訓練的模型會在多種語言模型數據集上進行評估,以評估其在邏輯推理、翻譯、自然語言推理、問答等任務中的表現。機器學習領域的實踐者已經對多種標準評估基準達成共識。另一個評估步驟是n-shot學習。它是一個與任務無關的維度,指的是在推理時提供給模型的監督樣本(示例)數量。n-shot通常通過“提示(prompting)”技術來提供。評估通常分為以下三類:

零樣本(Zero-shot):不向模型提供任何監督樣本進行推理任務的評估。

一-shot(One-shot):類似于少樣本(few-shot),但n=1,表示在推理時向模型提供一個監督樣本。

  • 少樣本(Few-shot):評估中向模型提供少量監督樣本(例如,提供5個樣本 -> 5-shot)。

偏見與有害語言

在基于網頁文本訓練的大規模通用語言模型中,存在潛在的風險。這是因為:人類本身有偏見,這些偏見會通過數據傳遞到模型中,模型在學習這些數據時,也會繼承這些偏見。除了加劇或延續社會刻板印象之外,我們還需要確保模型不會記住并泄露私人信息。

仇恨言論檢測(Hate Speech Detection)

社會偏見檢測(Social Bias Detection)

有害語言生成(Toxic Language Generation)

對話安全評估(Dialog Safety Evaluations)

截至目前,大多數對現有預訓練模型的分析表明,基于互聯網訓練的模型會繼承互聯網規模的偏見。此外,預訓練模型通常容易生成有害語言,即使給出相對無害的提示,且對抗性提示也容易找到。那么,如何修復這些問題呢?以下是一些在預訓練過程中以及訓練后緩解偏見的方法:

  1. 訓練集過濾(Training Set Filtering)
  2. 訓練集修改(Training Set Modification)
  3. 訓練后偏見緩解方法
  • 提示工程(Prompt Engineering)
  • 微調(Fine-tuning)

輸出引導(Output Steering)


Instruction Tuning(指令微調)

假設我們現在擁有一個預訓練的通用大型語言模型(LLM)。如果我們之前的工作做得足夠好,那么模型已經能夠在零-shot和少量-shot的情況下執行一些特定領域的任務。然而,盡管零-shot學習可以在某些情況下有效,許多任務(如閱讀理解、問答、自然語言推理等)中,零-shot學習的效果通常要遜色于少量-shot學習的表現。一個可能的原因是,在沒有少量示例的情況下,模型很難在格式與預訓練數據不同的提示下取得好的表現。為了應對這個問題,我們可以使用指令微調(Instruction Tuning)。指令微調是一種先進的微調技術,它通過對預訓練模型進行微調,使其能更好地響應各種任務指令,從而減少在提示階段對少量示例的需求(即顯著提高零-shot性能)。

指令微調在2022年大受歡迎,因為這一技術能顯著提高模型性能,同時不會影響其泛化能力。通常,預訓練的LLM會在一組語言任務上進行微調,并通過在微調過程中未見過的任務來評估其泛化能力和零-shot能力。

與預訓練–微調和提示的比較

預訓練–微調(Pretrain–Finetune):在預訓練模型的基礎上,進行特定任務的微調。模型通常在特定領域數據上進行微調,能顯著提升該任務的性能,但對其他任務的泛化能力可能較差。

提示(Prompting):使用適當的提示詞(prompt)引導模型執行特定任務,但在某些任務中(如閱讀理解和問答),零-shot學習的效果往往較差。

指令微調:通過對模型進行全面微調,使其能夠更加有效地理解和執行各種任務指令,從而減少了對少量示例的依賴,并顯著提升零-shot性能。

思維鏈(Chain-of-Thought)在指令微調中的作用

思維鏈是一種技術,通過這種方式,模型在執行任務時會顯式地推理每一個步驟,幫助模型更好地理解問題的背景并給出合理的推理過程。對于某些復雜的推理任務,使用思維鏈的示例可以顯著提高模型的推理能力,并提升其在這些任務上的表現。在指令微調過程中,若包含思維鏈示例(例如步驟分解、推理過程的寫作等),模型會學會按照邏輯推理的步驟逐步完成任務,而非直接給出答案。這對像數學推理、常識推理等復雜任務尤其有效。

提高零-shot能力:通過對預訓練模型進行指令微調,模型能更好地理解和執行未見過的任務,提升其在零-shot任務上的表現。

泛化性強:與只針對特定任務微調的模型相比,指令微調的模型具有更強的泛化能力,能夠適應多種下游任務。

  1. 減少對少量示例的需求:經過指令微調的模型在零-shot和少-shot任務中表現更為優秀,減少了對示例輸入的依賴。

強化學習與人類反饋 (RLHF)

RLHF(Reinforcement Learning with Human Feedback)是一種在指令微調的基礎上,通過引入人類反饋來進一步提升模型與用戶期望對齊的技術。預訓練的LLM(大型語言模型)通常會表現出一些不良行為,例如編造事實、生成偏見或有毒的回復,或者由于訓練目標和用戶目標之間的錯位,未能按照指令執行任務。RLHF 通過利用人類反饋來對模型的輸出進行精細調整,從而解決這些問題。例如,OpenAI 的 InstructGPT 和 ChatGPT 就是 RLHF 的實際應用案例。InstructGPT 是在 GPT-3 上使用 RLHF 進行微調的,而 ChatGPT 基于 GPT-3.5 系列,這些模型在提升真實度和減少有毒輸出方面取得了顯著進展,同時性能回歸(也稱為“對齊稅”)保持在最低水平。

以下是 RLHF 流程的概念圖,展示了三個主要步驟:

  1. 監督微調(SFT):對預訓練模型進行指令微調。
  2. 獎勵模型(RM)訓練:通過人類反饋訓練獎勵模型。
  3. 通過近端策略優化(PPO)進行強化學習:使用獎勵模型優化模型的行為策略。

參考文獻

What Language Model Architecture and Pre-training Objective Work Best for Zero-Shot Generalization?GPT-3 Paper – Language Models are Few-Shot LearnersGPT-NeoX-20B: An Open-Source Autoregressive Language ModelOPT: Open Pre-trained Transformer Language ModelsEfficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LMHow To Build an Efficient NLP ModelEmergent Abilities of Large Language ModelsBeyond the Imitation Game Benchmark (BIG-bench)Talking About Large Language ModelsGalactica: A Large Language Model for ScienceState of AI Report 2022Finetuned Language Models are Zero-Shot LearnersScaling Instruction-Fine Tuned Language ModelsTraining Language Models to Follow Instructions with Human FeedbackScalable Deep Learning on Distributed Infrastructures: Challenges, Techniques, and ToolsNew Scaling Laws for Large Language Models by DeepMindNew Scaling Laws for Large Language Models

Understanding the Difficulty of Training Transformers


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    530

    瀏覽量

    10298
  • 大模型
    +關注

    關注

    2

    文章

    2489

    瀏覽量

    2861
  • LLM
    LLM
    +關注

    關注

    0

    文章

    294

    瀏覽量

    353
收藏 人收藏

    評論

    相關推薦

    電動工具EMC測試整改:確保電磁兼容性的關鍵步驟

    深圳南柯電子|電動工具EMC測試整改:確保電磁兼容性的關鍵步驟
    的頭像 發表于 12-02 11:25 ?162次閱讀
    電動工具EMC測試整改:確保電磁兼容性的<b class='flag-5'>關鍵步驟</b>

    如何訓練自己的LLM模型

    訓練自己的大型語言模型LLM)是一個復雜且資源密集的過程,涉及到大量的數據、計算資源和專業知識。以下是訓練LLM模型的一般步驟,以及一些
    的頭像 發表于 11-08 09:30 ?615次閱讀

    深圳南柯電子 EMC測試整改:確保產品電磁兼容性的關鍵步驟

    深圳南柯電子|EMC測試整改:確保產品電磁兼容性的關鍵步驟
    的頭像 發表于 10-22 15:06 ?229次閱讀
    深圳南柯電子 EMC測試整改:確保產品電磁兼容性的<b class='flag-5'>關鍵步驟</b>

    組合邏輯電路設計的關鍵步驟是什么

    組合邏輯電路設計的關鍵步驟主要包括以下幾個方面: 1. 邏輯抽象 任務 :根據實際邏輯問題的因果關系,確定輸入、輸出變量,并定義邏輯狀態的含義。 內容 :明確問題的邏輯要求,找出自變量(輸入條
    的頭像 發表于 08-11 11:28 ?1027次閱讀

    LLM模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM
    的頭像 發表于 07-24 11:38 ?919次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式
    的頭像 發表于 07-09 09:59 ?660次閱讀

    LLM模型和LMM模型的區別

    LLM(線性混合模型)和LMM(線性混合效應模型)之間的區別如下: 定義: LLM(線性混合模型)是一種統計
    的頭像 發表于 07-09 09:57 ?1063次閱讀

    llm模型和chatGPT的區別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學習技術構建的自然語言處理(NLP)模型LLM
    的頭像 發表于 07-09 09:55 ?1142次閱讀

    深圳比創達|EMC與EMI測試整改:確保設備電磁兼容性的關鍵步驟

    深圳比創達|EMC與EMI測試整改:確保設備電磁兼容性的關鍵步驟
    的頭像 發表于 06-04 11:45 ?441次閱讀
    深圳比創達|EMC與EMI測試整改:確保設備電磁兼容性的<b class='flag-5'>關鍵步驟</b>

    大語言模型(LLM)快速理解

    自2022年,ChatGPT發布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始,先來整體理解一下大語言模型。一、發展歷史大
    的頭像 發表于 06-04 08:27 ?1011次閱讀
    大語言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    EMI測試整改:確保電子設備電磁兼容性的關鍵步驟

    深圳比創達|EMI測試整改:確保電子設備電磁兼容性的關鍵步驟
    的頭像 發表于 04-29 14:40 ?598次閱讀
    EMI測試整改:確保電子設備電磁兼容性的<b class='flag-5'>關鍵步驟</b>

    主軸維修:關鍵步驟和要點有哪些?|深圳恒興隆機電.

    主軸維修:關鍵步驟和要點有哪些?|深圳恒興隆機電主軸是許多機床設備中的關鍵組成部分,通常用于加工、旋轉和支撐各種工件。由于其復雜性和多功能性,主軸的維護和維修變得尤為重要。本文將深入探討主軸的維修
    發表于 03-25 09:45

    交換芯片的構建方式

    交換芯片的構建方式是一個高度復雜且精細的過程,它涉及多個關鍵步驟和考量因素。下面將詳細闡述交換芯片的構建方式。
    的頭像 發表于 03-22 16:22 ?484次閱讀

    MES系統實施的幾大關鍵步驟

    MES系統實施的幾大關鍵步驟--萬界星空科技MES/低代碼MES/開源MES ?在制造業中,MES管理系統成為了提升生產效率、優化資源配置和確保產品質量的關鍵工具。然而,由于MES管理系統的復雜性
    的頭像 發表于 03-08 11:38 ?771次閱讀

    邪惡PLC攻擊技術的關鍵步驟

    今天我們來聊一聊PLC武器化探秘:邪惡PLC攻擊技術的六個關鍵步驟詳解。
    的頭像 發表于 01-23 11:20 ?1076次閱讀
    邪惡PLC攻擊技術的<b class='flag-5'>關鍵步驟</b>
    主站蜘蛛池模板: 一级毛片真人免费播放视频| 国产精品一级毛片不收费| 美女被强插| 欧美三级久久| 大喷水吹潮magnet| 成人午夜网址| 中文字幕在线一区二区在线 | 农村妇女色又黄一级毛片卡| 噜噜噜噜天天狠狠| 爱爱免费小视频| 天天操夜夜噜| 操综合网| 日本不卡在线观看| 亚洲wuma| 午夜婷婷网| 日韩一级片在线观看| 天堂国产| 人人插人人爱| 国产高清视频免费最新在线 | 欧美精品videosex性欧美 | 免费观看在线视频| 夜色321看片资源站| 中文字幕xxx| 亚洲一区二区视频| 在线观看中文字幕第一页| 四虎www.| 国内精品久久久久影| 天天搞天天干| 黄色xxxx| 性人久久久久| 久久福利青草精品资源站免费| 老头天天吃我奶躁我的动图| 丁香婷五月| 乱人伦精品一区二区| 亚洲a区视频| 色婷婷亚洲| 欧美日韩一区视频| 丁香花五月婷婷| 伊人福利网| 成人在线黄色| 国产99热|