開(kāi)發(fā)人工智能的語(yǔ)言模型,一直是人工智能的重要細(xì)分領(lǐng)域。人工智能語(yǔ)言模型應(yīng)用包括搜索引擎、文字生成、個(gè)性化的對(duì)話工具以及軟件生成等。
2020年5月,OpenAI的一組研究人員發(fā)布了具有里程碑意義的AI模型GPT-3。GPT-3就是在570 GB的文本數(shù)據(jù)上訓(xùn)練的語(yǔ)言模型,因此,就訓(xùn)練數(shù)據(jù)和生成能力而言,GPT-3截至2020年都是最龐大的公開(kāi)發(fā)布的語(yǔ)言模型。
此外,OpenAI的GPT-3一反之前死守基礎(chǔ)研究的思路,將 GPT-3 做成了一個(gè)服務(wù),提供可以調(diào)用的 OpenAI API,并且向開(kāi)放了少量體驗(yàn)資格,使得拿到體驗(yàn)資格的業(yè)界人士或?qū)W者等,開(kāi)發(fā)出了一眾驚人的演示。
包括答題、翻譯、寫(xiě)文章,甚至是數(shù)學(xué)計(jì)算和編寫(xiě)代碼。而由GPT-3所寫(xiě)的文章幾乎達(dá)到了以假亂真的地步,在 OpenAI 的測(cè)試中,人類(lèi)評(píng)估人員也很難判斷出這篇新聞的真假,檢測(cè)準(zhǔn)確率僅為 12%。
但現(xiàn)在,谷歌研究人員開(kāi)發(fā)出一個(gè)新的語(yǔ)言模型,它包含了超過(guò) 1.6 萬(wàn)億個(gè)參數(shù),遠(yuǎn)超 Open AI 開(kāi)發(fā)的 GTP-3 的規(guī)模(1750 億個(gè)參數(shù)),成為迄今為止最大規(guī)模的人工智能語(yǔ)言模型,比之前谷歌開(kāi)發(fā)過(guò)最大的語(yǔ)言模型 T5-XXL 的效率提高了 4 倍。
該語(yǔ)言模型使用 Switch Transformer 方法進(jìn)行大規(guī)模訓(xùn)練,這是一種“稀疏激活”技術(shù),它只使用模型權(quán)重的子集或在模型中轉(zhuǎn)換輸入數(shù)據(jù)的參數(shù),以有效降低計(jì)算密集度。
盡管在部分實(shí)驗(yàn)中,該模型相比規(guī)模更小的模型得到了較低分?jǐn)?shù)。但在相同的計(jì)算資源下,預(yù)訓(xùn)練速度提高了7倍。這些改進(jìn)擴(kuò)展到多語(yǔ)言設(shè)置中,我們?cè)谒?01種語(yǔ)言中測(cè)量mT5基本版本的增益。最后,我們通過(guò)在“巨大的干凈的爬蟲(chóng)語(yǔ)料庫(kù)”上預(yù)先訓(xùn)練多達(dá)萬(wàn)億個(gè)參數(shù)的模型,提高了語(yǔ)言模型的當(dāng)前規(guī)模,并實(shí)現(xiàn)了比T5-XXL模型4倍的加速。
研究人員認(rèn)為,稀疏性可以在未來(lái)賦予該模型在一系列不同媒體下多模態(tài)的優(yōu)勢(shì)。這也為人工智能語(yǔ)言模型的深入研究提供了更多方向的參考。
責(zé)任編輯:xj
-
AI
+關(guān)注
關(guān)注
87文章
31294瀏覽量
269647 -
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239239 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
533瀏覽量
10300
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論