在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VPG 在 LLM 之間的可遷移性問(wèn)題

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-17 11:46 ? 次閱讀

1. 極低訓(xùn)練成本

通過(guò)我們提出的VPGTrans方法,可以快速(少于10%訓(xùn)練時(shí)間)將已有的多模態(tài)對(duì)話(huà)模型的視覺(jué)模塊遷移到新的語(yǔ)言模型,且達(dá)到類(lèi)似或更優(yōu)效果。比如,相比于從頭訓(xùn)練視覺(jué)模塊,我們可以將BLIP-2 FlanT5-XXL的訓(xùn)練開(kāi)銷(xiāo)從19000+人民幣縮減到不到1000元:

8572e29a-f3de-11ed-90ce-dac502259ad0.png▲圖 1:基于我們的VPGTrans方法的BLIP-2訓(xùn)練開(kāi)銷(xiāo)縮減對(duì)比

2. 多模態(tài)大模型定制

通過(guò)我們的VPGTrans框架可以根據(jù)需求為各種新的大語(yǔ)言模型靈活添加視覺(jué)模塊。比如我們?cè)贚LaMA-7B和Vicuna-7B基礎(chǔ)上制作了VL-LLaMA和VL-Vicuna。

3. 開(kāi)源多模態(tài)對(duì)話(huà)模型

我們開(kāi)源了VL-Vicuna,多模態(tài)對(duì)話(huà)模型,可實(shí)現(xiàn)高質(zhì)量的多模態(tài)對(duì)話(huà):

8579b052-f3de-11ed-90ce-dac502259ad0.png▲圖 2:VL-Vicuna的交互實(shí)例

一、動(dòng)機(jī)介紹

1.1 背景

2023年是AI元年,以ChatGPT為代表的大語(yǔ)言模型(LLM)大火。LLM除了在自然語(yǔ)言領(lǐng)域顯示出巨大的潛力之外,也開(kāi)始逐漸輻射到其他相關(guān)領(lǐng)域。比如,LLM在多模態(tài)理解領(lǐng)域掀起了一股從傳統(tǒng)預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型(VLM)到基于大語(yǔ)言模型的視覺(jué)語(yǔ)言模型(VL-LLM)的變革。通過(guò)為L(zhǎng)LM接入視覺(jué)模塊,VL-LLM可以繼承已有LLM的知識(shí),零樣本泛化能力,推理能力和規(guī)劃能力等。相關(guān)模型有BLIP-2[1],Flamingo[2],PALM-E等。

858180d4-f3de-11ed-90ce-dac502259ad0.png▲圖 3:常用的VL-LLM架構(gòu)

現(xiàn)有的常用的VL-LLM基本采取圖3所示的架構(gòu):在一個(gè)基座LLM基礎(chǔ)上訓(xùn)練一個(gè)視覺(jué)soft prompt生成模塊(Visual Prompt Generator, VPG),以及一個(gè)進(jìn)行維度變換的線性層(Projector)。在參數(shù)規(guī)模上,LLM一般占主要部分(比如11B),VPG占次要部分(比如1.2B),Projector最小(4M)。在訓(xùn)練過(guò)程中,LLM參數(shù)一般不會(huì)被更新,或者僅僅更新非常少量的參數(shù)。可訓(xùn)練參數(shù)主要來(lái)自于VPG和projector。

1.2 動(dòng)機(jī)

實(shí)際上,即便基座LLM的參數(shù)凍結(jié)不訓(xùn),但由于LLM的大參數(shù)量,訓(xùn)練一個(gè)VL-LLM的關(guān)鍵開(kāi)銷(xiāo)依然在于加載基座LLM。因此訓(xùn)練一個(gè)VL-LLM依然無(wú)法避免極大的計(jì)算代價(jià)。比如,要得到BLIP-2(基座LLM為FlanT5-XXL)需要付出超過(guò)600個(gè)小時(shí)的A100訓(xùn)練時(shí)長(zhǎng)。如果租用亞馬遜的A100-40G機(jī)器,大概需要將近2萬(wàn)元人民幣的費(fèi)用。既然從零訓(xùn)練一個(gè)VPG代價(jià)如此昂貴,那么我們開(kāi)始思考能否把一個(gè)已有的VPG遷移到新的LLM上來(lái)節(jié)省開(kāi)銷(xiāo)

858b7936-f3de-11ed-90ce-dac502259ad0.png▲圖 4:VPG遷移: 跨LLM大小遷移和跨LLM類(lèi)型遷移

如圖4所示,我們主要探索了兩種類(lèi)型的VPG的遷移:

(1)跨LLM大小遷移 (TaS): 比如從OPT-2.7B到OPT-6.7B。

(2)跨LLM類(lèi)型遷移 (TaT): 比如從OPT到FlanT5

其中TaS的意義在于:在LLM相關(guān)科研中,我們通常需要在小LLM上調(diào)參,再擴(kuò)展到大LLM。有了TaS,我們可以在調(diào)參之后,把小LLM上已經(jīng)訓(xùn)好的VPG直接遷移到大LLM上。TaT的意義在于:不同功能種類(lèi)的LLM層出不窮,比如今天有了LLaMA,明天又有了Alpaca和Vicuna。TaT可以讓我們利用已有的VPG快速為新語(yǔ)言模型添加視覺(jué)感知能力。

1.3 貢獻(xiàn)

(1) 提出高效的方法: 我們首先通過(guò)一系列的探究實(shí)驗(yàn),探究了影響VPG遷移效率的關(guān)鍵因素。根據(jù)探索實(shí)驗(yàn)發(fā)現(xiàn),我們提出了一個(gè)兩階段的高效遷移框架VPGTrans。該框架可以大幅度縮減訓(xùn)練VL-LLM所需的計(jì)算開(kāi)銷(xiāo)和需要的訓(xùn)練數(shù)據(jù)。比如,相比于從頭訓(xùn)練,我們通過(guò)BLIP-2 OPT-2.7B到6.7B的VPG遷移,可以?xún)H用大約10%的數(shù)據(jù)和計(jì)算時(shí)間就達(dá)成各個(gè)數(shù)據(jù)集相似或更好的效果(圖1)。訓(xùn)練花銷(xiāo)從17901人民幣到1673元。

(2) 得到有趣的發(fā)現(xiàn): 我們同時(shí)提供了TaS和TaT場(chǎng)景下一些有趣的發(fā)現(xiàn),并嘗試給出解釋: a) TaS場(chǎng)景下,使用VPGTrans從小到大遷移不會(huì)影響最終模型效果。b) TaS場(chǎng)景下,越小的語(yǔ)言模型上訓(xùn)練的VPG,遷移到大模型時(shí)效率越高,最終效果越好。c) TaT場(chǎng)景下,越小的模型之間遷移的gap越大。在我們驗(yàn)證實(shí)驗(yàn)中,OPT-350M和FlanT5-base使用VPGTrans互相遷移幾乎和從頭訓(xùn)練一樣慢。

(3) 開(kāi)源: 我們使用VPGTrans得到了兩個(gè)新的VL-LLMs: VL-LLaMA和VL-Vicuna,并開(kāi)源在了社區(qū)上。其中VL-Vicuna實(shí)現(xiàn)了高質(zhì)量的多模態(tài)對(duì)話(huà)。歡迎小伙伴嘗試:https://vpgtrans.github.io/.

二、高效率的VPG遷移方案: VPGTrans

首先我們進(jìn)行一系列的探索驗(yàn)證實(shí)驗(yàn),分析如何最大化對(duì)于VPG的遷移效率。接著我們基于這些重要觀察提出一個(gè)解決方案。

2.1 探究實(shí)驗(yàn)

我們選取BLIP-2架構(gòu)作為我們的基礎(chǔ)模型,預(yù)訓(xùn)練語(yǔ)料采用COCO和SBU,總共1.4M圖文對(duì)。下游任務(wù)采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot設(shè)定進(jìn)行評(píng)測(cè)(對(duì)caption任務(wù)并非嚴(yán)格zero-shot)。下面是我們的關(guān)鍵發(fā)現(xiàn):

(1)直接繼承一個(gè)訓(xùn)練好的VPG可以加速收斂,但效果有限:我們發(fā)現(xiàn),直接遷移一個(gè)LLM上訓(xùn)練好的VPG到大LLM可以加速模型收斂,但加速效果有限,且收斂后模型效果相比于從頭訓(xùn)練VPG會(huì)掉點(diǎn)(圖5的VQAv2、GQA藍(lán)線最高點(diǎn)均低于橘線)。我們猜測(cè),這個(gè)掉點(diǎn)是由于隨機(jī)初始化的projector會(huì)在訓(xùn)練起始階段損傷VPG中已有的視覺(jué)感知能力。

8592c83a-f3de-11ed-90ce-dac502259ad0.png▲圖 5:VPG inherit (藍(lán)線): 直接繼承訓(xùn)練好的VPG。train from scratch (橘線):從頭訓(xùn)練VPG。only linear (綠線):只訓(xùn)練linear projector不訓(xùn)練VPG。

(2)先warm-up訓(xùn)練projector可以防止掉點(diǎn),且進(jìn)一步加速收斂:于是,我們固定住VPG和LLM,先warm-up訓(xùn)練projector 3個(gè)epoch,再解凍VPG進(jìn)行下一步訓(xùn)練。我們發(fā)現(xiàn),這樣不僅僅可以避免掉點(diǎn)情況,還能夠進(jìn)一步加速VPG收斂(圖6)。但值得強(qiáng)調(diào)的是,由于訓(xùn)練的主要開(kāi)銷(xiāo)在LLM(參數(shù)巨多),僅僅訓(xùn)練projector的開(kāi)銷(xiāo)不會(huì)比同時(shí)訓(xùn)練VPG和projector的開(kāi)銷(xiāo)小太多。所以,我們開(kāi)始探究加速projector warm-up的關(guān)鍵技術(shù)。

85999a70-f3de-11ed-90ce-dac502259ad0.png▲圖6:先warm-up訓(xùn)練projector可以防止掉點(diǎn)+加速收斂

(3)詞向量轉(zhuǎn)化器初始化可以加速projector warm-up:首先,VPG是通過(guò)把圖像轉(zhuǎn)化為L(zhǎng)LM可以理解的soft prompt來(lái)產(chǎn)生效果的。而soft prompt的使用方式和詞向量其實(shí)是非常相似的,都是直接輸入語(yǔ)言模型來(lái)提示模型產(chǎn)生對(duì)應(yīng)內(nèi)容。所以,我們使用詞向量來(lái)作為soft prompt的一個(gè)代理,訓(xùn)練了一個(gè)到的詞向量轉(zhuǎn)化器(一個(gè)線性層)。然后,我們將詞向量轉(zhuǎn)化器和上的projector融合作為projector的初始化。通過(guò)這個(gè)初始化,我們可以將projector的warm-up訓(xùn)練由3個(gè)epoch減為2個(gè)epoch。

(4)projector可以在超大學(xué)習(xí)率下快速收斂:我們進(jìn)一步實(shí)驗(yàn)發(fā)現(xiàn),projector由于其參數(shù)量較少,可以使用5倍的正常學(xué)習(xí)率進(jìn)行訓(xùn)練而不崩潰。通過(guò)5倍學(xué)習(xí)率的訓(xùn)練,projector warm-up可以進(jìn)一步被縮短到1個(gè)epoch。

(5)一個(gè)附加發(fā)現(xiàn): 雖然projector warm-up很重要,但僅訓(xùn)練projector是不夠的。尤其在caption任務(wù)上面,僅僅訓(xùn)練projector的效果要比同時(shí)訓(xùn)練VPG的效果差一截 (圖5綠線在COCO Caption和NoCaps均遠(yuǎn)低于藍(lán)線)。這也就意味著,僅僅訓(xùn)練projector會(huì)導(dǎo)致欠擬合,也就是無(wú)法充分對(duì)齊到訓(xùn)練數(shù)據(jù)。

2.2 我們所提出的方法

859eda44-f3de-11ed-90ce-dac502259ad0.png▲圖 7:VPGTrans框架: (1) 一階段:projector的warm-up (2) 二階段: 整體微調(diào)

如圖7所示,我們的方法共分為兩個(gè)階段:(1)第一階段: 我們首先使用詞向量轉(zhuǎn)化器和原有projector進(jìn)行融合作為新projector的初始化,然后用5倍學(xué)習(xí)率訓(xùn)練新projector一個(gè)epoch。(2) 第二階段:直接正常訓(xùn)練VPG和projector。

三、實(shí)驗(yàn)結(jié)果

3.1 加速比

85a7b326-f3de-11ed-90ce-dac502259ad0.png▲表1:我們的VPGTrans的相比于從頭訓(xùn)練在各個(gè)數(shù)據(jù)集的加速比

如表1所示,我們測(cè)試了不同遷移類(lèi)型下,VPGTrans在不同數(shù)據(jù)集上的加速比。VPGTrans在某指定數(shù)據(jù)集A上的加速比是通過(guò)從頭訓(xùn)練達(dá)到A上最佳效果a的輪數(shù)除以VPGTrans在A上效果超過(guò)a的最小訓(xùn)練輪數(shù)得到。比如,從頭在OPT-2.7B上訓(xùn)練VPG,在COCO caption達(dá)到最佳效果需要10個(gè)epoch,但從OPT-125M遷移VPG到OPT-2.7B,僅需1個(gè)epoch就能達(dá)到該最佳效果。則加速比為10/1=10倍。我們可以看到,無(wú)論是在TaS還是在TaT場(chǎng)景下,我們的VPGTrans都可以實(shí)現(xiàn)穩(wěn)定的加速。

3.2 有趣的發(fā)現(xiàn)

我們選取了一個(gè)比較有趣的發(fā)現(xiàn)進(jìn)行了說(shuō)明,其他更多更有意思的發(fā)現(xiàn)請(qǐng)參照我們的論文。

TaS場(chǎng)景下,越小的語(yǔ)言模型上訓(xùn)練的VPG,遷移起來(lái)效率越高,最后模型效果越好。參考表1,我們可以發(fā)現(xiàn)OPT-1.3B到OPT-2.7B的加速比要遠(yuǎn)小于OPT-125M、OPT-350M到OPT-2.7b的加速比。我們嘗試提供了一個(gè)解釋?zhuān)阂话阍酱蟮恼Z(yǔ)言模型,由于其文本空間的維度更高,會(huì)更容易損害VPG(VPG一般都是類(lèi)似于CLIP的預(yù)訓(xùn)練模型)本身的視覺(jué)感知能力。我們通過(guò)類(lèi)似于linear probing的方式進(jìn)行了驗(yàn)證:

85ad25cc-f3de-11ed-90ce-dac502259ad0.png▲圖 8:僅訓(xùn)練linear projector層的跨LLM大小遷移 (模擬linear probing)

如圖8所示,我們進(jìn)行了OPT-125M,350M,1.3B,2.7B之間的跨LLM大小的遷移。在實(shí)驗(yàn)中,為了公平對(duì)比不同模型大小下訓(xùn)練過(guò)的VPG的視覺(jué)感知能力,我們固定住VPG的參數(shù)僅僅訓(xùn)練linear projector層。我們選取了COCO Caption上的SPICE指標(biāo)作為視覺(jué)感知能力的衡量手段。不難發(fā)現(xiàn),對(duì)于每一個(gè)給定的,幾乎都符合越小,最終SPICE越高的一個(gè)現(xiàn)象。

3.3 大規(guī)模實(shí)驗(yàn)

前文實(shí)驗(yàn)主要是在小規(guī)模場(chǎng)景下驗(yàn)證猜想。為了證明我們的方法的有效性,我們模擬BLIP-2的預(yù)訓(xùn)練過(guò)程進(jìn)行了大規(guī)模實(shí)驗(yàn):

85b5ad00-f3de-11ed-90ce-dac502259ad0.png▲表2:真實(shí)場(chǎng)景下的大規(guī)模實(shí)驗(yàn)結(jié)果

如表2所示,我們的VPGTrans在大規(guī)模場(chǎng)景下依然有效。通過(guò)OPT-2.7B到OPT-6.7B的遷移,我們僅用10.8%的數(shù)據(jù)和不到10%的訓(xùn)練時(shí)長(zhǎng)達(dá)到了相似或更優(yōu)的效果。尤其是,我們的方法在BLIP-2 以FlanT5-XXL為基座LLM下實(shí)現(xiàn)了5%左右的訓(xùn)練成本控制

四、定制您的VL-LLMs

我們的VPGTrans可以快速為任意新的LLMs添加視覺(jué)感知模塊,從而得到一個(gè)全新的高質(zhì)量VL-LLM。在本工作,我們額外訓(xùn)練了一個(gè)VL-LLaMA和一個(gè)VL-Vicuna。其中VL-LLaMA的效果如下:

85bba5de-f3de-11ed-90ce-dac502259ad0.png▲表3:VL-LLaMA的效果展示

同時(shí),我們的VL-Vicuna可以進(jìn)行多模態(tài)對(duì)話(huà)。我們和MiniGPT-4進(jìn)行了簡(jiǎn)單的比較:

85c35c20-f3de-11ed-90ce-dac502259ad0.jpg85cb2ff4-f3de-11ed-90ce-dac502259ad0.jpg

五、總結(jié)

在這項(xiàng)工作中,我們對(duì) VPG 在 LLM 之間的可遷移性問(wèn)題進(jìn)行了全面調(diào)查。我們首先探討了最大化遷移效率的關(guān)鍵因素。基于關(guān)鍵觀察,我們提出了一種新穎的兩階段遷移框架,即 VPGTrans。它可以在顯著降低訓(xùn)練成本的同時(shí),實(shí)現(xiàn)相當(dāng)或更好的性能。通過(guò) VPGTrans,我們實(shí)現(xiàn)了從 BLIP-2 OPT 2.7B 到 BLIP-2 OPT 6.7B 的 VPG 遷移。相較于從零開(kāi)始連接 VPG 到 OPT 6.7B,VPGTrans僅需10.7%訓(xùn)練數(shù)據(jù)和不到10%的訓(xùn)練時(shí)長(zhǎng)。此外,我們展示并討論了一系列有趣發(fā)現(xiàn)及其背后的可能原因。最后,我們通過(guò)訓(xùn)練VL-LLaMA和LL-Vicuna,展示了我們的 VPGTrans 在定制新的 VL-LLM 方面的實(shí)際價(jià)值。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3360

    瀏覽量

    42525
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3252

    瀏覽量

    48874
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    289

    瀏覽量

    351

原文標(biāo)題:VPGTrans: 10%的成本定制你自己的類(lèi)GPT-4多模態(tài)大模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    對(duì)比解碼LLM上的應(yīng)用

    為了改進(jìn)LLM的推理能力,University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實(shí)驗(yàn)表明,所提方法能有效改進(jìn)LLM的推理能力。讓我們走進(jìn)
    發(fā)表于 09-21 11:37 ?633次閱讀
    對(duì)比解碼<b class='flag-5'>在</b><b class='flag-5'>LLM</b>上的應(yīng)用

    遷移學(xué)習(xí)

    的適用范圍。No.2 第二天 五、遷移學(xué)習(xí)前沿方法介紹深度遷移網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)深度遷移學(xué)習(xí)目標(biāo)函數(shù)設(shè)計(jì)全新場(chǎng)景下的遷移學(xué)習(xí)章節(jié)目標(biāo):掌握深度遷移
    發(fā)表于 04-21 15:15

    云計(jì)算的遷移性,沒(méi)那么簡(jiǎn)單

    實(shí)際情況是,遷移應(yīng)用程序(無(wú)論它們是否容器中)都需要大量的計(jì)劃來(lái)處理不同環(huán)境的兼容性問(wèn)題。容器的使用并不能保證企業(yè)的容器化應(yīng)用程序都可以從一個(gè)平臺(tái)遷移到另一個(gè)平臺(tái)。例如,企業(yè)不能采用
    發(fā)表于 06-06 14:00 ?923次閱讀

    云原生存儲(chǔ)實(shí)際場(chǎng)景中可以做什么

    隨著云原生應(yīng)用對(duì)遷移性、擴(kuò)展性和動(dòng)態(tài)特性的需求,對(duì)云原生存儲(chǔ)也帶來(lái)了相應(yīng)的密度、速度、混合度的要求,所以對(duì)云存儲(chǔ)基本能力之上又提出了效率、彈性、自治、穩(wěn)定、應(yīng)用低耦合、GuestOS 優(yōu)化和安全等方面的訴求。
    的頭像 發(fā)表于 04-04 16:53 ?2192次閱讀
    云原生存儲(chǔ)<b class='flag-5'>在</b>實(shí)際場(chǎng)景中可以做什么

    云中執(zhí)行ActiveDirectory遷移

    BinaryTree Power365 for ActiveDirectory具有高度適應(yīng)性、自動(dòng)化和可管理性,并且能夠遷移過(guò)程中使已遷移和未遷移的用戶(hù)、設(shè)備和應(yīng)用程序保持同步。此外
    的頭像 發(fā)表于 09-22 10:42 ?808次閱讀

    AN5805 STM32WB10/15/50/55 微控制器之間遷移

    AN5805 STM32WB10/15/50/55 微控制器之間遷移
    發(fā)表于 11-24 08:33 ?0次下載
    AN5805 <b class='flag-5'>在</b> STM32WB10/15/50/55 微控制器<b class='flag-5'>之間</b><b class='flag-5'>遷移</b>

    AN5811 STM32WB10/15/30/35 微控制器之間遷移

    AN5811 STM32WB10/15/30/35 微控制器之間遷移
    發(fā)表于 11-24 08:33 ?0次下載
    AN5811 <b class='flag-5'>在</b> STM32WB10/15/30/35 微控制器<b class='flag-5'>之間</b><b class='flag-5'>遷移</b>

    LLM各種情感分析任務(wù)中的表現(xiàn)如何

    ? 最近幾年,GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務(wù),特別是zero-shot和few-shot方面表現(xiàn)出它們強(qiáng)大的性能。因此,情感分析(SA)領(lǐng)域也必然少不了LLM的影子
    的頭像 發(fā)表于 05-29 17:24 ?2365次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>在</b>各種情感分析任務(wù)中的表現(xiàn)如何

    100%樹(shù)莓派上執(zhí)行的LLM項(xiàng)目

    ChatGPT的人性口語(yǔ)化回復(fù)相信許多人已體驗(yàn)過(guò),也因此掀起一波大型語(yǔ)言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運(yùn)作技術(shù),但LLM運(yùn)作需要龐大運(yùn)算力,因此目前多是
    的頭像 發(fā)表于 02-29 16:29 ?1367次閱讀
    100%<b class='flag-5'>在</b>樹(shù)莓派上執(zhí)行的<b class='flag-5'>LLM</b>項(xiàng)目

    蘋(píng)果承諾:2025年秋季iOS與Android數(shù)據(jù)互換

    該公司已在最新發(fā)布的“DMA合規(guī)報(bào)告非機(jī)密摘要”中展示了未來(lái)幾周將對(duì)iOS系統(tǒng)做出的調(diào)整,其重心便是提升iOS與其它操作系統(tǒng)之間用戶(hù)數(shù)據(jù)的“遷移性”。
    的頭像 發(fā)表于 03-08 11:06 ?736次閱讀

    什么是LLMLLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM)逐漸成為自然語(yǔ)言處理(NLP)領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力,文本
    的頭像 發(fā)表于 07-02 11:45 ?7853次閱讀

    TMS320F2837x和TMS320F28P65x之間進(jìn)行遷移

    電子發(fā)燒友網(wǎng)站提供《TMS320F2837x和TMS320F28P65x之間進(jìn)行遷移.pdf》資料免費(fèi)下載
    發(fā)表于 10-30 09:54 ?3次下載
    <b class='flag-5'>在</b>TMS320F2837x和TMS320F28P65x<b class='flag-5'>之間</b>進(jìn)行<b class='flag-5'>遷移</b>

    TMS320F2838x和TMS320F28P65x之間進(jìn)行遷移

    電子發(fā)燒友網(wǎng)站提供《TMS320F2838x和TMS320F28P65x之間進(jìn)行遷移.pdf》資料免費(fèi)下載
    發(fā)表于 10-31 09:58 ?0次下載
    <b class='flag-5'>在</b>TMS320F2838x和TMS320F28P65x<b class='flag-5'>之間</b>進(jìn)行<b class='flag-5'>遷移</b>

    什么是LLMLLM自然語(yǔ)言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語(yǔ)言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本中的長(zhǎng)距離依賴(lài)關(guān)系。
    的頭像 發(fā)表于 11-19 15:32 ?623次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱(chēng) ReDrafter) 是蘋(píng)果公司為大語(yǔ)言模型 (LLM) 推理開(kāi)發(fā)并開(kāi)源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?145次閱讀
    <b class='flag-5'>在</b>NVIDIA TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的一些變化
    主站蜘蛛池模板: 最新国产你懂的在线网址| 四虎国产精品成人永久免费影视| 可以直接看的黄址| 日本黄色大片网站| 日韩理论电影2021第1页| 日韩欧美中文在线| 欧美在线1| 一级毛片日韩| 日本免费视频| 深爱五月激情| 久久精品系列| 在线播放免费| 狠狠躁夜夜躁人人爽天天天天| 久久婷婷久久一区二区三区| 国产农村妇女毛片精品久久| 一级特黄a 大片免费| 欧美1024| 免费一级特黄欧美大片勹久久网| 久草在线资源网| h国产| 黄网站色在线视频免费观看| 亚洲一区二区欧美| 最近2018年在线中文字幕高清| 午夜老司机福利| 免费在线观看黄色| 在线黄色.com| 波多野结衣三个女人蕾丝边| 亚洲欧美视频网站| 欧美国产精品主播一区| 视频三区| 天堂影院在线| 色视频在线免费看| 三级黄色片免费观看| 狠狠色依依成人婷婷九月| 亚色中文| 天天操天天玩| 欧美日操| 亚洲一区在线免费观看| 婷婷久久久五月综合色| 四虎影院2022| 国产色产综合色产在线观看视频|