雪鹰领主,好看的玄幻小说,盗墓笔记有声小说

事實(shí)證明，LLM的表現(xiàn)與模型大小和可擴(kuò)展性呈正相關(guān)。這種擴(kuò)展伴隨著計(jì)算資源的擴(kuò)展，也就是說，模型越大，成本就越高。

基于參數(shù)計(jì)數(shù)的 LLM 性能

這是該行業(yè)面臨的最大挑戰(zhàn)之一。雖然專家混合（Mixture of Experts：MOE）最近被大肆宣傳用于改進(jìn)Transformer模型，但機(jī)器學(xué)習(xí)人員發(fā)現(xiàn)了一種更有前途的新方法——令牌混合（Mixture of Tokens：MOT）。MOE在嘗試不同模型時(shí)表現(xiàn)出的某些缺點(diǎn)導(dǎo)致需要其他方法。在這篇博文中，我們將討論這些新技術(shù)，并研究 MoT 在保持訓(xùn)練和推理成本的同時(shí)擴(kuò)展大型語言模型的方式。

Mixture of Experts

Mixture of Experts 因顯著優(yōu)化 Transformer 的可擴(kuò)展性而聞名。要理解這一點(diǎn)，我們首先要了解這些“專家”是誰。在 MoE 中，專家是專門執(zhí)行一項(xiàng)或多項(xiàng)任務(wù)的模型。在標(biāo)準(zhǔn)Transformer模型中，令牌(token)由標(biāo)準(zhǔn)前饋層處理。MoE 沒有采用這種方法，而是將每個(gè)token定向到一組專家以及一個(gè)稱為控制器的小型網(wǎng)絡(luò)。該控制器確保每個(gè)令牌僅由一小部分專家處理。

開關(guān)Transformer將每個(gè)令牌發(fā)送給控制器產(chǎn)生的得分最高的一位專家。這項(xiàng)技術(shù)導(dǎo)致參數(shù)大幅減少——從 1.6T 模型（T5 架構(gòu)）到等效 1.4B vanilla Transformer 的 FLOPS 成本。

專家選擇提供了一種略有不同的方法。不是讓token選擇前 k 個(gè)專家，而是專家自己選擇前 k 個(gè)token。該方法保證了均勻的負(fù)載平衡（每個(gè)專家接收相同數(shù)量的令牌），并在訓(xùn)練效率和下游性能方面取得了顯著的進(jìn)步。然而，存在某些Token不被選擇的風(fēng)險(xiǎn)。

MoE 方法：從左到右：標(biāo)準(zhǔn)前饋、開關(guān)、專家選擇

當(dāng)前方法的局限性

雖然大參數(shù) MoE 架構(gòu)的性能令人印象深刻，但它們在訓(xùn)練和推理過程中面臨著一系列新的挑戰(zhàn)。最值得注意的是：

訓(xùn)練不穩(wěn)定性：這種方法謹(jǐn)慎地選擇專家并將其與token匹配。這意味著控制器權(quán)重的微小變化可能會對控制器決策產(chǎn)生不成比例的影響。

負(fù)載不平衡： MoE 的問題是我們無法有效地平衡令牌和專家的分配方式，因?yàn)槁酚删W(wǎng)絡(luò)的選擇沒有受到有效的限制。這就是為什么有些令牌沒有任何專家來處理它們（令牌丟棄），并且?guī)缀跛辛钆贫贾环峙浣o少數(shù)專家（模型崩潰）。

信息泄漏：一些成功的 MoE 方法將序列中不同位置的令牌一起處理（即，通過比較批次中所有令牌的分?jǐn)?shù)）。這造成了序列內(nèi)信息泄漏并阻礙了它們在自回歸解碼中的實(shí)用性。

知識混合性：由于專家數(shù)量有限，傳統(tǒng) MoE 架構(gòu)中的專家通常會積累廣泛的知識。這種廣泛的知識庫削弱了個(gè)別專家的專業(yè)性和有效性。

知識冗余：多個(gè)專家在學(xué)習(xí)相似信息時(shí)有趨同的傾向，導(dǎo)致知識領(lǐng)域重疊和模型參數(shù)使用效率低下。

在他們最近的論文中，Cohere AI 的科學(xué)家討論了解決MOE主要挑戰(zhàn)之一的方法——必須將所有專家存儲在內(nèi)存中。他們通過將 MoE 架構(gòu)與輕量級專家獨(dú)特地結(jié)合起來，提出了參數(shù)極其高效的 MoE。他們的 MoE 架構(gòu)優(yōu)于標(biāo)準(zhǔn) PEFT 方法，并且僅通過更新輕量級專家即可達(dá)到完全微調(diào)的效果——不到 11B 參數(shù)模型的 1%。

解決MOE的限制

在他們最近的論文中，Cohere AI 的科學(xué)家討論了解決MOE主要挑戰(zhàn)之一的方法——將所有專家存儲在內(nèi)存中。他們通過將 MoE 架構(gòu)與輕量級專家獨(dú)特地結(jié)合起來，提出了一種參數(shù)極其高效的 MoE。他們的 MoE 架構(gòu)優(yōu)于標(biāo)準(zhǔn) PEFT 方法，并且僅通過更新輕量級專家即可達(dá)到完全微調(diào)的效果——不到 11B 參數(shù)模型的 1%。

最近的一篇論文討論了 MoE 的最后兩個(gè)局限性，并提出了一種解決這些問題的新技術(shù)——DeepSeekMoE。這是新的 MoE 架構(gòu)，旨在通過采用兩個(gè)關(guān)鍵策略來增強(qiáng)專家專業(yè)化：細(xì)粒度專家分割和共享專家隔離。

細(xì)粒度專家分割（Fine-grained expert segmentation）涉及細(xì)分 FFN 中間隱藏維度，從而允許細(xì)粒度專家之間更細(xì)致地分配知識。這種細(xì)分使每個(gè)專家能夠?qū)Ｗ⒂诟唧w的知識領(lǐng)域，從而在保持恒定的計(jì)算成本的同時(shí)實(shí)現(xiàn)更高水平的專業(yè)化。

同時(shí)，共享專家隔離（shared expert isolation）策略將特定專家指定為“共享”，負(fù)責(zé)捕獲不同背景下的共同知識。通過將一般知識集中在這些共享專家上，減少了其他專家學(xué)習(xí)過程中的冗余。這種方法提高了參數(shù)效率，并確保每位專家始終專注于獨(dú)特且獨(dú)特的知識領(lǐng)域。

DeepSeekMoE。在這三種架構(gòu)中，專家參數(shù)的數(shù)量和計(jì)算成本保持不變

DeepSeekMoE 經(jīng)過擴(kuò)展可訓(xùn)練 16B 模型，只需約 40% 的計(jì)算量，即可實(shí)現(xiàn)與 DeepSeek 7B 和 LLaMA2 7B 相當(dāng)?shù)男阅堋Ｑ芯咳藛T還計(jì)劃將 DeepSeekMoE 擴(kuò)展到 145B，突出其相對于 GShard 架構(gòu)的優(yōu)勢，并展示與 DeepSeek 67B 相當(dāng)?shù)男阅堋?/p>

Token混合（Mixture of Tokens）

MoE 的幾個(gè)缺點(diǎn)導(dǎo)致了混合Token（MoT）的興起。這種對方法的輕微修改解決了所討論的方法帶來的許多問題。MoT 不是將token發(fā)送給專家，而是將不同示例中的token混合在一起，然后再將其提供給專家。這使得模型能夠從所有token-專家組合中學(xué)習(xí)，并提高訓(xùn)練穩(wěn)定性和專家利用率。在向?qū)＜姨峁﹖oken后，每種混合物都會被處理并重新分配回原始token。

token混合是如何進(jìn)行的？首先，您需要為每個(gè)token設(shè)置重要性權(quán)重。這是通過控制器完成的，然后是對生成的token分?jǐn)?shù)執(zhí)行 softmax 層。因此，每個(gè)專家的token權(quán)重是獨(dú)立計(jì)算的。最后，將每個(gè)token乘以其重要性權(quán)重，然后將它們?nèi)考釉谝黄稹?/p>

令牌混合：每個(gè)專家的令牌都是唯一混合的（混合權(quán)重由控制器決定，為簡單起見，此處省略），然后處理每個(gè)混合物并將其重新分配回原始令牌（使用與之前相同的權(quán)重）。

MoT 通過進(jìn)行以下更改來解決 MoE 模型的問題：

混合來自不同示例的token，然后將其提供給專家；通過允許模型從所有token-專家組合中學(xué)習(xí)，這提高了訓(xùn)練穩(wěn)定性和專家利用率。

token混合是一個(gè)完全可微的模型，這意味著它可以使用標(biāo)準(zhǔn)的基于梯度的方法進(jìn)行訓(xùn)練。這避免了輔助損失或其他難以訓(xùn)練的技術(shù)的需要，從而更容易訓(xùn)練和部署。”

MoE 與 MoT：在專家混合中（左），每個(gè)令牌都被路由到不同的專家前饋層。在令牌混合（右）中，每組內(nèi)的令牌被混合，并且混合令牌由專家前饋層處理。

結(jié)論

toke混合有可能顯著提高LLM的表現(xiàn)和效率。與普通 Transformer 相比，它顯示出訓(xùn)練時(shí)間減少了 3 倍的驚人結(jié)果。未來，我們預(yù)計(jì) MoT 將繼續(xù)帶來更顯著的改進(jìn)。

MoTs 僅用 1/4 的步數(shù)和 1/3 的訓(xùn)練時(shí)間就減少了密集香草 Transformer 的最終訓(xùn)練損失，預(yù)計(jì)未來將顯著改善。

審核編輯：黃飛

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

控制器

控制器

+關(guān)注

關(guān)注
113

文章
16767

瀏覽量
181790
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8471

瀏覽量
133706
LLM

LLM

+關(guān)注

關(guān)注
1

文章
316

瀏覽量
601