在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

電子工程師 ? 來源:fqj ? 2019-05-14 09:45 ? 次閱讀

自然語言推理 (Natural Language Inference, NLI) 是一個活躍的研究領域,許多基于循環神經網絡(RNNs),卷積神經網絡(CNNs),self-attention 網絡 (SANs) 的模型為此提出。盡管這些模型取得了不錯的表現,但是基于 RNNs 的模型難以并行訓練,基于 CNNs 的模型需要耗費大量的參數,基于 self-attention 的模型弱于捕獲文本中的局部依賴。為了克服這個問題,我們向 self-attention 機制中引入高斯先驗 (Gaussian prior) 來更好的建模句子的局部結構。接著,我們為 NLI 任務提出了一個高效的、不依賴循環或卷積的網絡結構,名為 Gaussian Transformer。它由用于建模局部和全局依賴的編碼模塊,用于收集多步推理的高階交互模塊,以及一個參數輕量的對比模塊組成。實驗結果表明,我們的模型在SNLI 和 MultiNLI 數據集上取得了當時最高的成績,同時大大減少了參數數量和訓練時間。此外,在 HardNLI 數據集上的實驗表明我們的方法較少受到標注的人工痕跡(Annotation artifacts) 影響。

1 引言

1.1 任務簡介

自然語言推理 (Natural Language Inference, NLI) ,又叫文本蘊含識別 (Recognizing Textual Entailment, RTE), 研究的是文本間的語義推理關系, 具體來講, 就是識別兩句話之間的蘊含關系,例如,蘊含、矛盾、中性。形式上是,NLI 是一個本文對分類問題。

1.2 動機

這里簡要介紹一下我們提出 Gaussian Self-attention 的動機。我們觀察到,在句子中,與當前詞的語義關聯比較大的詞往往出現在這個單詞的周圍, 但是普通的 Self-attention, 并沒有有效地體現這一點。如圖1所示,在句子 ”I bought a newbookyesterday with a new friend in New York. ” 中,共出現了三個 ”new”,但對于當前詞 book 來說,只有第一個new 才是有意義的。但是普通的 self-attention(在不使用 position-encoding 的情況下),卻給這三個 ”new” 分配了同樣大小的權重,如圖1(a)所示。我們的想法是,應當鼓勵 self-attention 給鄰近的詞更大的權重,為此,我們 在原始的權重上乘以一個按臨近位置分布的高斯先驗概率,如圖 1(b),改變 self-attention 的權重分布,如圖 1(c),從而更加有效地建模句子的局部結構。

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

圖 1. Gaussian self-attention 示例

事實上,RNNs 和 CNNs 能夠自然而然地賦予臨近的單詞更大的權重,例如,RNNs 會傾向忘記遠處的單詞,CNNs 會忽略所有不在當前窗口內的單詞。在這篇文章中,我們把 Gaussian self-attention 應用到了 Transformer 網絡上, 并在自然語言推理 (Natural language Inference)這一任務上進行了驗證,實驗表明我們所提出的基于 Gaussian self-attention 的 Gaussian Transformer 效果優于許多較強的基線方法。同時,該方法也保留了原始 Transformer 的并行訓練,參數較少的優點。

2 模型簡介

在實現上, 我們可以通過一系列化簡 (具體細節請參看我們的論文原文), 把 Gaussian self-attention 轉化為 Transformer 中的一次矩陣加法操作, 如圖 2 所示, 從而節省了運算量。 此外,我們發現,與使用原始的 Gaussian 分布作為先驗概率相比,適當的抑制到單詞自身的 attention可以對最終的實驗結果有少許的提升,如圖 3(b) 所示。

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

圖 2. Attention 示例: (a) 原始的 dot-product attention;(b)&(c) Gaussian self-attention 的兩種實現

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

圖 3. 先驗概率示例: (a) 原始的 Gaussian prior;(b) 抑制到自身的 Gaussian prior 變種

圖 4 展示了我們模型的整體框架。 如圖所示, 模型自底向上大致分為四個部分:Embedding模塊、編碼 (Encoding) 模塊、交互 (Interaction) 模塊和對比 (Comparison) 模塊。

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

圖 4. Gaussian Transformer 整體框架

Embedding 模塊的作用是把自然語言文本轉化為機器方便處理的向量化表示, 我們使用了單詞和字符級別的 Embedding,以及 Positional Encoding。

Encoding 模塊與原始的 Transformer 的 Encoder 非常類似,只是我們增加了前文引入的 Gaussian self-attention 以便更好的建模句子的局部結構。 但事實上, 句子中也存在長距離依賴, 僅僅建模句子的局部結構是不夠的。為了捕獲句子的全局信息,我們堆疊了 M 個 Encoding 模塊。這種方式類似于多層的 CNNs 網絡,層數較高的卷積層的 receptive ?eld 要大于底層的卷積。

Interaction 模塊用于捕獲兩個句子的交互信息。 這一部分與原始的 Transformer 的 Decoder 部分類似, 區別是我們去掉了 Positional Mask 和解碼的部分。 通過堆疊 N 個 Interaction 模塊,我們可以捕獲高階交互的信息。

Comparison 模塊主要負責對比兩個句子,分別從句子的 Encoding 和 Interaction 兩個角度對比,這里我們沒有使用以前模型中的復雜結構,從而節省了大量的參數。

3 實驗與分析

3.1 實驗結果

首先,我們驗證各個模塊的有效性,如圖 5 所示,采用多層的 Encoding 模塊和多層的 Interaction 模塊的效果要優于使用單層的模型,證明了前面所提到的全局信息和高階交互的有效性。其次,我們想要驗證一下 Gaussian prior 的有效性。如表 1 所示,我們發現 Gaussian prior 及其變種的性能要優于其他諸如 Zipf prior 等方法,也要優于原始的 Transformer。最后, 我們在 SNLI、MultiNLI 和 HardNLI 的測試集上與其他前人的方法進行了橫向比較。如表 2、 3、4、5 和 6 所示,我們的方法在 Accuracy、模型參數量、訓練與預測一輪同樣的數據的時間上都優于基線方法。

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

圖 5. MultiNLI 開發集上的 Accuracy 熱圖。

表1.MultiNLI 開發集上各 Gaussian transformer 變種的 Accuracy

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

表2.SNLI 測試集上 Gaussian Transformer 與其他模型的橫向比較

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

表3.MultiNLI 測試集上 Gaussian Transformer 與其他模型的橫向比較

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

表4.在 SNLI 數據集上訓練或預測一輪所需的時間對比

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

表5.當引入外部資源時,各個模型的性能比較

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

表6.HardNLI 上的對比結果

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

3.2 分析

Q:原始的 Transformer 中已經有了 Positional encoding,已經能夠捕獲單詞的位置信息,為什么還要用 Gaussian Prior ?

A:Positional Encoding 僅僅使模型具有了感知單詞位置的能力;而 Gaussian Prior 告訴模型哪些單詞更重要,即對于當前單詞來說,臨近的單詞比遙遠的單詞更重要,這一先驗來自于人的觀察。

Q:為什么 Gaussian Transformer 在時間和參數量上優于其他的方法?

A:Gaussian Transformer 沒有循環和卷積結構,從而能夠并行計算,同時我們在設計模型時,盡量保持模型簡化,摒棄了以往方法中的復雜結構 (例如,在 Comparison block 中的簡化),使我們的模型更加輕量。

4 結論

針對自然語言推理任務的前人工作的不足,我們提出了基于 Gaussian self-attention 的 Gaussian Transformer 模型。實驗表明所提出的模型在若干自然語言推理任務上取得了State-of-the-Art的實驗結果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100773

原文標題:AAAI 2019 Gaussian Transformer: 一種自然語言推理的輕量方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言自然語言(Natural Language )廣納了眾多技術,對自然或人類語言
    發表于 05-02 13:50

    自然語言處理的詞性標注方法

    自然語言處理——78 詞性標注方法
    發表于 04-21 11:38

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務有哪些?自然語言處理的方法是什么?
    發表于 09-08 06:51

    深度視頻自然語言描述方法

    針對計算機對視頻進行自動標注和描述準確率不高的問題,提出一種基于多特征融合的深度視頻自然語言描述的方法。該方法提取視頻幀序列的空間特征、運動特征、視頻特征,進行特征的融合,使用融合的特
    發表于 12-04 14:07 ?1次下載
    深度視頻<b class='flag-5'>自然語言</b>描述<b class='flag-5'>方法</b>

    什么是自然語言處理_自然語言處理常用方法舉例說明

    自然語言處理是計算機科學領域與人工智能領域中的個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法自然語言處理是
    發表于 12-28 16:56 ?1.8w次閱讀
    什么是<b class='flag-5'>自然語言</b>處理_<b class='flag-5'>自然語言</b>處理常用<b class='flag-5'>方法</b>舉例說明

    一種注意力增強的自然語言推理模型aESIM

    自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此,提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應方向權重層添加到ESIM模型的雙向LSTM網絡中,從而
    發表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b>注意力增強的<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>模型aESIM

    PyTorch教程16.4之自然語言推理和數據集

    電子發燒友網站提供《PyTorch教程16.4之自然語言推理和數據集.pdf》資料免費下載
    發表于 06-05 10:57 ?0次下載
    PyTorch教程16.4之<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>和數據集

    PyTorch教程16.5之自然語言推理:使用注意力

    電子發燒友網站提供《PyTorch教程16.5之自然語言推理:使用注意力.pdf》資料免費下載
    發表于 06-05 10:49 ?0次下載
    PyTorch教程16.5之<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:使用注意力

    PyTorch教程16.7之自然語言推理:微調BERT

    電子發燒友網站提供《PyTorch教程16.7之自然語言推理:微調BERT.pdf》資料免費下載
    發表于 06-05 10:52 ?0次下載
    PyTorch教程16.7之<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:微調BERT

    PyTorch教程-16.4。自然語言推理和數據集

    研究是否可以從前提中推斷出假設,其中兩者都是文本序列。換句話說,自然語言推理決定了對文本序列之間的邏輯關系。這種關系通常分為三類型: 蘊涵:假設可以
    的頭像 發表于 06-05 15:44 ?548次閱讀

    PyTorch教程-16.5。自然語言推理:使用注意力

    的基于注意力的方法(使用 MLP),如圖 16.5.1所示。 圖 16.5.1本節將預訓練的 GloVe 提供給基于注意力和 MLP 的架構以進行自然語言推理。? 16.5.1。該模型? 比保留前提和假設中標
    的頭像 發表于 06-05 15:44 ?569次閱讀
    PyTorch教程-16.5。<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:使用注意力

    自然語言處理的概念和應用 自然語言處理屬于人工智能嗎

      自然語言處理(Natural Language Processing)是一種人工智能技術,它是研究自然語言與計算機之間的交互和通信的門學科。
    發表于 08-23 17:31 ?1628次閱讀

    一種基于自然語言的軌跡修正方法

    本研究提出了ExTraCT框架,利用自然語言進行軌跡校正。該框架結合了大型語言模型(LLMs)用于自然語言理解和軌跡變形函數。ExTraCT能夠根據場景在線生成軌跡修改特征及其自然語言
    的頭像 發表于 01-19 10:45 ?453次閱讀
    <b class='flag-5'>一種</b>基于<b class='flag-5'>自然語言</b>的軌跡修正<b class='flag-5'>方法</b>

    自然語言處理是什么技術的一種應用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的個分支,它涉及到使用計算機技術來處理、分析和生成自然語言文本。
    的頭像 發表于 07-03 14:18 ?909次閱讀

    Transformer架構在自然語言處理中的應用

    隨著人工智能技術的飛速發展,自然語言處理(NLP)領域取得了顯著的進步。其中,Transformer架構的提出,為NLP領域帶來了革命性的變革。本文將深入探討Transformer架構的核心思想、組成部分以及在
    的頭像 發表于 07-09 11:42 ?788次閱讀
    主站蜘蛛池模板: www.亚洲一区| 亚洲色图图片| 天天综合射| 六月婷婷久久| 天天看片网站| 又粗又大又猛又爽免费视频| 性香港xxxxx免费视频播放| 好色999| 亚洲伊人久久网| 久久久噜噜噜久久| 国产免费人成在线看视频| 天天操操操操操操| 日本免费www| 亚州国产精品精华液| 国产亚洲婷婷香蕉久久精品 | 在线观看免费视频网站色| 亚洲情网| 国产成人经典三级在线观看| 爱看精品福利视频观看| 亚洲 欧美 丝袜 制服 在线| 国产三级精品播放| 亚洲欧美卡通 动漫 丝袜| 四虎欧美| 国产视频一二区| 49pao强力在线高清基地| 特级毛片aaaa级毛片免费| 亚洲第一永久在线观看| 婷婷久月| 激情五月亚洲色图| 亚洲啪啪网站| 青草悠悠视频在线观看| 美女大黄三级视频在线观看| 中文字幕在线天堂| 丁香狠狠色婷婷久久综合| 黄色在线视频网| 美女又爽又黄视频| aa在线免费观看| 日本wwwwww| 婷婷综合五月中文字幕欧美| 美女被强插| 农村女人的一级毛片|