好看的历史书籍推荐,完美世界txt下载,遮天辰东小说

目前的機(jī)器翻譯模型基于編碼器-解碼器系統(tǒng)結(jié)構(gòu)，本文提出了一種名為“普適注意力”的新翻譯模型，用2D卷積網(wǎng)絡(luò)做序列預(yù)測(cè)，無論長(zhǎng)句短句翻譯結(jié)果都更好，使用的參數(shù)也更少。實(shí)驗(yàn)表明，新模型的總體表現(xiàn)優(yōu)于目前最出色的解碼器-編碼器模型系統(tǒng)。

目前，最先進(jìn)的機(jī)器翻譯系統(tǒng)基于編碼器-解碼器架構(gòu)，首先對(duì)輸入序列進(jìn)行編碼，然后根據(jù)輸入編碼生成輸出序列。兩者都與注意機(jī)制接口有關(guān)，該機(jī)制基于解碼器狀態(tài)，對(duì)源令牌的固定編碼進(jìn)行重新組合。

本文提出了一種替代方法，該方法于跨兩個(gè)序列的單個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的每一層都根據(jù)當(dāng)前的輸出序列重新編碼源令牌。因此，類似注意力的屬性在整個(gè)網(wǎng)絡(luò)中普遍存在。我們的模型在實(shí)驗(yàn)中表現(xiàn)出色，優(yōu)于目前最先進(jìn)的編碼器-解碼器系統(tǒng)，同時(shí)在概念上更簡(jiǎn)單，參數(shù)更少。

“普適注意力”模型及原理

我們的模型中的卷積層使用隱性3×3濾波器，特征僅根據(jù)先前的輸出符號(hào)計(jì)算。圖為經(jīng)過一層（深藍(lán)色）和兩層（淺藍(lán)色）計(jì)算之后的感受野，以及正常3×3濾波器（灰色）的視野的隱藏部分。

上圖為具有兩個(gè)隱藏層的解碼器網(wǎng)絡(luò)拓?fù)涞膱D示，底部和頂部的節(jié)點(diǎn)分別表示輸入和輸出。水平方向連接用于RNN，對(duì)角線方向連接用于卷積網(wǎng)絡(luò)。在兩種情況下都會(huì)使用垂直方向的連接。參數(shù)跨時(shí)間步長(zhǎng)（水平方向）共享，但不跨層（垂直方向）共享。

塊級(jí)（頂部）和每個(gè)塊（底部）內(nèi)的DenseNet體系結(jié)構(gòu)

令牌嵌入大小、層數(shù)（L）和增長(zhǎng)率（g）的影響

無論是長(zhǎng)句、短句，翻譯結(jié)果都更好

與現(xiàn)有最佳技術(shù)的比較

我們將結(jié)果與表3中的現(xiàn)有技術(shù)進(jìn)行了比較，包括德-英翻譯（De-En）和英-德翻譯（En-De）。我們的模型名為Pervasive Attention。除非另有說明，我們使用最大似然估計(jì)（MLE）訓(xùn)練所有模型的參數(shù)。對(duì)于一些模型，我們會(huì)另外報(bào)告通過序列水平估計(jì)（SLE，如強(qiáng)化學(xué)習(xí)方法）獲得的結(jié)果，我們通常直接針對(duì)優(yōu)化BLEU量度，而不是正確翻譯的概率。

在不同句子序列長(zhǎng)度上的表現(xiàn)

在上圖中，我們將翻譯質(zhì)量視為句子長(zhǎng)度的函數(shù)，并將我們的模型與RNNsearch、ConvS2S和Transformer進(jìn)行比較。結(jié)果表明，我們的模型幾乎在所有句子長(zhǎng)度上都得到了最好的結(jié)果，ConvS2S和Transformer只在最長(zhǎng)的句子上表現(xiàn)更好。總的來說，我們的模型兼?zhèn)銻NNsearch在短句中的強(qiáng)大表現(xiàn)，同時(shí)也接近ConvS2S和Transformer在較長(zhǎng)句子上的良好表現(xiàn)。

隱性的句子對(duì)齊

上圖所示為最大池化運(yùn)算符在我們的模型中生成的隱式句子對(duì)齊。作為參考，我們還展示了我們的模型使用的“自我注意力”產(chǎn)生的對(duì)齊。可以看到，兩種模型都成功定性地模擬了隱性的句子對(duì)齊。

我們的模型（L = 24，g = 32，ds = dt = 128），具有不同的池化操作符，使用門控卷積單元

在不同的濾波器尺寸k和深度L下，我們的模型（g = 32，ds = dt = 128）的表現(xiàn)。

與IWSLT德語(yǔ)-英語(yǔ)翻譯模型的最新結(jié)果的比較。

（*）：使用我們的實(shí)現(xiàn)獲得的結(jié)果（**）：使用FairSeq獲得的結(jié)果。

脫離編碼器-解碼器范式，用DenseNet作機(jī)器翻譯

我們提出了一種新的神經(jīng)機(jī)器翻譯架構(gòu)，該架構(gòu)脫離了編碼器-解碼器范例。我們的模型將源序列和目標(biāo)序列聯(lián)合編碼為深度特征層次結(jié)構(gòu)，其中源令牌嵌入到部分目標(biāo)序列的上下文中。沿源維度對(duì)此聯(lián)合編碼進(jìn)行最大池化，將相關(guān)要素映射到下一個(gè)目標(biāo)令牌的預(yù)測(cè)。該模型實(shí)現(xiàn)基于DenseNet的2D CNN。

由于我們的模型會(huì)結(jié)合語(yǔ)境，對(duì)每一層當(dāng)前生成的目標(biāo)序列的輸入令牌重新編碼，因此該模型網(wǎng)絡(luò)構(gòu)造的每層中都具有“類似注意力”（attention-like）的屬性。

因此，添加明確的“自注意模塊”具有非常有限、但十分積極的效果。然而，我們模型中的最大池化運(yùn)算符生成的隱式句子對(duì)齊，在性質(zhì)上與注意力機(jī)制生成的對(duì)齊類似。我們?cè)贗WSLT'14數(shù)據(jù)集上評(píng)估了我們的模型，將德-英雙語(yǔ)互譯。

我們獲得的BLEU分?jǐn)?shù)與現(xiàn)有最佳方法相當(dāng)，我們的模型使用的參數(shù)更少，概念上也更簡(jiǎn)單。我們希望這一成果可以引發(fā)對(duì)編碼器-解碼器模型的替代方案的興趣。在未來，我們計(jì)劃研究混合方法，其中聯(lián)合編碼模型的輸入不是由嵌入向量提供的，而是1D源和目標(biāo)嵌入網(wǎng)絡(luò)的輸出。

未來我們還將研究如何該模型來跨多語(yǔ)種進(jìn)行翻譯。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

濾波器

濾波器

+關(guān)注

關(guān)注
161

文章
7853

瀏覽量
178504
編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3655

瀏覽量
134874
機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14917

原文標(biāo)題：機(jī)器翻譯新突破！“普適注意力”模型：概念簡(jiǎn)單參數(shù)少，性能大增

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割以及自然語(yǔ)言處理等領(lǐng)域。首先分析了典型卷積神經(jīng)網(wǎng)絡(luò)模型為提高其性能增加網(wǎng)絡(luò)深度以及寬度的

發(fā)表于 08-02 10:39

探索一種降低ViT模型訓(xùn)練成本的方法

對(duì)架構(gòu)的更改，以加快訓(xùn)練。（1）ViT architectureVanilla Transformer接收token嵌入的1D序列作為輸入。為了處理2D圖像，ViT模型將每個(gè)輸入圖像分

發(fā)表于 11-24 14:56

北大研究者創(chuàng)建了一種注意力生成對(duì)抗網(wǎng)絡(luò)

同時(shí)我們還將完整的GAN結(jié)構(gòu)和我們網(wǎng)絡(luò)的部分相對(duì)比：A表示只有自動(dòng)編碼器，沒有注意力地圖；A+D表示沒有注意力自動(dòng)編碼器，也沒有注意力判別器

發(fā)表于 08-11 09:22 ?4987次閱讀

一種新的神經(jīng)機(jī)器翻譯架構(gòu)，它脫離了編碼器-解碼器的范疇

為了解決這些局限，我們提出了一種基于深層2D卷積神經(jīng)網(wǎng)絡(luò)（CNN）的新方法。它和圖像、音頻生成模型的自回歸

發(fā)表于 08-23 09:14 ?3447次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力文本生成變換器編碼器序列表征

序列表征循環(huán)神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力文本生成變換器編碼器自注意力解碼器自

發(fā)表于 07-19 14:40 ?3286次閱讀

循環(huán)神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>卷積</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>注意力</b>文本生成變換器編碼器<b class='flag-5'>序列</b>表征

基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支，卷積神經(jīng)網(wǎng)絡(luò)（CNN）在文本情感分析方面取得了較好的效果，但其未充分提取文本信息中的關(guān)鍵情感信息。為此，建立一種基于

發(fā)表于 03-17 09:53 ?12次下載

基于<b class='flag-5'>注意力</b>機(jī)制的深度學(xué)習(xí)<b class='flag-5'>模型</b>AT-DPCNN

一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESIM

在自然語(yǔ)言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此，提出一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層

發(fā)表于 03-25 11:34 ?9次下載

<b class='flag-5'>一種</b><b class='flag-5'>注意力</b>增強(qiáng)的自然語(yǔ)言推理<b class='flag-5'>模型</b>aESIM

融合雙層多頭自注意力與CNN的回歸模型

針對(duì)現(xiàn)有文本情感分析方法存在的無法高效捕捉相關(guān)文本情感特征從而造成情感分析效果不佳的問題提出一種融合雙層多頭自注意力與卷積神經(jīng)網(wǎng)絡(luò)（CNN）的回歸模

發(fā)表于 03-25 15:16 ?6次下載

基于深度圖注意力卷積CNN的三維模型識(shí)別方法

針對(duì)現(xiàn)有基于深度學(xué)習(xí)的三維模型識(shí)別方法缺乏結(jié)合三維模型的上下文細(xì)粒度局部特征，可能造成幾何形狀極其相似，局部細(xì)節(jié)信息略有不同的類識(shí)別混淆的問題，提岀一種基于深度圖注意力

發(fā)表于 04-02 13:56 ?6次下載

基于多層CNN和注意力機(jī)制的文本摘要模型

。然而現(xiàn)有的模型在解碼時(shí)僅利用編碼器最后一層信息，而忽略編碼器其余層的特征。鑒于此，提出一種基于多層循環(huán)神經(jīng)網(wǎng)絡(luò)和層級(jí)交互注意力機(jī)制的摘要生

發(fā)表于 04-07 11:35 ?2次下載

基于循環(huán)卷積注意力模型的文本情感分類方法

和全局信息。文中針對(duì)單標(biāo)記和多標(biāo)記情感分類任務(wù)，提出一種循環(huán)卷積注意力模型（ LSTM-CNN-ATT，LCA）。該模型利用

發(fā)表于 04-14 14:39 ?10次下載

基于視覺注意力的全卷積網(wǎng)絡(luò)3D內(nèi)容生成方法

　由于在某些特殊場(chǎng)景中獲取深度線索的難度較高，使得已有3D內(nèi)容生成方法的應(yīng)用受到限制。為此，以顯著圖代替深度圖進(jìn)行2D-3D轉(zhuǎn)換，提出一種3D內(nèi)容生成方法。使用全

發(fā)表于 05-13 16:13 ?11次下載

基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型

基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型

發(fā)表于 06-07 15:12 ?14次下載

一種新的深度注意力算法

本文簡(jiǎn)介了一種新的深度注意力算法，即深度殘差收縮網(wǎng)絡(luò)（Deep Residual Shrinkage Network）。從功能上講，深度殘差收縮網(wǎng)絡(luò)是

發(fā)表于 05-24 16:28 ?0次下載

一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

機(jī)電系統(tǒng)中的故障檢測(cè)對(duì)其可維護(hù)性和安全性至關(guān)重要。然而，系統(tǒng)監(jiān)測(cè)變量往往具有復(fù)雜的聯(lián)系，很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)（HGCAN

發(fā)表于 11-12 09:52 ?330次閱讀