已完本玄幻小说排行榜,豆豆小说阅读网,完美世界txt下载

谷歌Evolved Transformer通過AutoML技術(shù)進(jìn)行特定任務(wù)定制，在編碼器和解碼器模塊底部的卷積層以分支模式運(yùn)行，提高了語言建模的性能，目前在機(jī)器翻譯領(lǐng)域可以達(dá)到最先進(jìn)的結(jié)果。

Transformer是一種AI架構(gòu)，最早是在2017年Google的科學(xué)家合著的論文《Attention Is All You Need》中介紹的，它比較擅長撰寫散文和產(chǎn)品評論、合成聲音、以古典作曲家的風(fēng)格制作和聲。

但是，谷歌的一個研究小組認(rèn)為它可以更進(jìn)一步使用AutoML技術(shù)，根據(jù)特定任務(wù)進(jìn)行定制翻譯。在一篇新發(fā)表的論文和博客中，研究人員描述了工作成果：與原始的Transformer相比，現(xiàn)在的Transformer既達(dá)到了最先進(jìn)的翻譯結(jié)果，也提高了語言建模的性能。

目前，他們已經(jīng)發(fā)布了新的模型Evolved Transformer——開放源代碼的AI模型和數(shù)據(jù)集庫，來作為Tensor2Tensor（谷歌基于tensorflow新開源的深度學(xué)習(xí)庫，該庫將深度學(xué)習(xí)所需要的元素封裝成標(biāo)準(zhǔn)化的統(tǒng)一接口，在使用其做模型訓(xùn)練時可以更加的靈活）的一部分。

一般意義上，AutoML方法是從控制器訓(xùn)練和評估質(zhì)量的隨機(jī)模型庫開始，該過程重復(fù)數(shù)千次，每次都會產(chǎn)生新的經(jīng)過審查的機(jī)器學(xué)習(xí)架構(gòu)，控制器可以從中學(xué)習(xí)。最終，控制器開始為模型組件分配高概率，以便這些組件在驗(yàn)證數(shù)據(jù)集上更加準(zhǔn)確，而評分差的區(qū)域則獲得較低的概率。

研究人員稱，使用AutoML發(fā)現(xiàn)Evolved Transformer需要開發(fā)兩種新技術(shù)，因?yàn)橛糜谠u估每種架構(gòu)性能的任務(wù)WMT'14英德語翻譯的計(jì)算成本很高。

第一種是通過暖啟動（warm starting）的方式，將初始模型填充為Transformer架構(gòu)進(jìn)行播種，而不采用隨機(jī)模型，有助于實(shí)現(xiàn)搜索。第二種漸進(jìn)式動態(tài)障礙（PDH）則增強(qiáng)了搜索功能，以便將更多的資源分配給能力最強(qiáng)的候選對象，若模型“明顯不良”，PDH就會終止評估，重新分配資源。

通過這兩種技術(shù)，研究人員在機(jī)器翻譯上進(jìn)行大規(guī)模NAS，最終找到了Evolved Transformer。

（Evolved Transformer架構(gòu)）

那么Evolved Transformer有什么特別之處呢？

與所有深度神經(jīng)網(wǎng)絡(luò)一樣，Evolved Transformer包含神經(jīng)元（函數(shù)），這些神經(jīng)元從輸入數(shù)據(jù)中傳輸“信號，并緩慢調(diào)整每個連接的突觸強(qiáng)度（權(quán)重），這是模型提取特征和學(xué)習(xí)進(jìn)行預(yù)測的方式。此外，Evolved Transformer還能使每個輸出元件連接到每個輸入元件，并且動態(tài)地計(jì)算它們之間的權(quán)重。

與大多數(shù)序列到序列模型一樣，Evolved Transformer包含一個編碼器，它將輸入數(shù)據(jù)（翻譯任務(wù)中的句子）編碼為嵌入（數(shù)學(xué)表示）和一個解碼器，同時使用這些嵌入來構(gòu)造輸出（翻譯）。

但研究人員也指出，Evolved Transformer也有一些部分與傳統(tǒng)模型不同：在編碼器和解碼器模塊底部的卷積層以分支模式運(yùn)行，即在合并到一起時，輸入需要通過兩個單獨(dú)的的卷積層。

雖然最初的Transformer僅僅依賴于注意力，但Evolved Transformer是一種利用自我關(guān)注和廣泛卷積的優(yōu)勢的混合體。

（原始Transforme與Evolved Transformer的性能對比）

在測試中，研究人員將Evolved Transformer與原始Transformer在模型搜索期間使用的英德翻譯任務(wù)進(jìn)行了比較，發(fā)現(xiàn)前者在BLEU（評估機(jī)器翻譯文本質(zhì)量的算法）和Perplexity（衡量概率分布預(yù)測樣本的程度）上性能更好。

在較大的數(shù)據(jù)中，Evolved Transformer達(dá)到了最先進(jìn)的性能，BLEU得分為29.8分。在涉及不同語言對和語言建模的翻譯實(shí)驗(yàn)中，Evolved Transformer相比于原始Transformer的性能提升了兩個Perplexity。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴