在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種新型的雙流注意力增強型BERT來提高捕捉句子對中細微差異的能力

深度學習自然語言處理 ? 來源:克魯斯卡 ? 作者:吳彧zero ? 2022-11-11 16:04 ? 次閱讀

1. Abstract

這篇paper主要是針對于傳統的預訓練語言模型捕捉細微差異能力不足的問題,像添加和刪除單詞、修改句子等微小的噪音就可能會導致模型預測錯誤

因此,該論文提出一種新型的雙流注意力增強型bert(DABERT,Dual Attention Enhanced BERT ),用來提高捕捉句子對中細微差異的能力,包括兩個模塊,

(1)雙流注意力模塊,通過引入新的雙通道對齊機制來測量軟詞匹配,來建模相似注意力和差異注意力

(2)自適應融合模塊,使用注意力機制來學習差異和相似特征的聚合,并生成一個描述句對匹配細節的向量

2. Motivation

之前的研究提出的方法在區分字面上相似但語義不同的句子對方面表現不佳,這可能是因為self-attention機制是利用上下文來理解token的語義,但這樣忽略了句子對之間的語義差異,因此為了更好的整合句子對之間的更加細粒度的差別,將difference向量和affinity向量放在一起建模

difference vector為差異向量

affinity vector為相似向量,即普通的attention得到的向量表示

7badfadc-4b79-11ed-a3b6-dac502259ad0.png

字面意義相似但語義不同的例句,S1和S2是一對句子

2.1 Two questions

有了上面的思路之后,就自然而然的產生了兩個關鍵問題

Q1:如何使普通的注意力機制能夠對句子對之間細微差別的語義進行建模?

Vanilla attention,或稱為affinity attention,并不太關注句子對之間的細微差別,要提升這個能力,一個直觀的解決方案是在表示向量之間做減法,以捕獲它們的語義差異。論文中提出了一個雙注意力模塊,包括差異注意力和普通注意力。差異注意力使用基于減法的cross-attention來聚合詞和短語層面的交互差異。同時,為了充分利用差異信息,使用雙通道將差異信息注入Transformer中的multi-head attention,以獲得描述相似和差異的語義表示。

Q2:如何將兩類語義表示融合為一個統一的表示?

通過額外的結構對兩種信號進行硬融合可能會破壞預訓練模型的表示能力,如何將這些信息更柔和地注入到預訓練的模型中仍然是一個難題。論文中提出了一個自適應融合模塊,使用額外的注意力來學習差異和相似特征,以產生描述句子匹配細節的向量。

它首先通過不同的注意力將兩個信號相互對齊以捕獲語義交互,然后使用門控來自適應地融合差異特征。這些生成的向量通過另一個 fuse-gate 進一步縮放,以減少差異信息對預訓練模型的損害,輸出的最終向量可以更好地描述句子對的匹配細節。

3. Main contributions

明確地對句子對之間的細粒度差異語義進行建模,進而有效地提升句子語義匹配任務的效果,并且提出了一種基于BERT的新型雙流注意力增強機制

提出的DABERT模型使用雙流注意力來分別關注句子對中的相似性和差異性特征,并采用soft-integrated的調節機制來自適應地聚合這兩個特征,使得生成的向量可以更好地描述句子對的匹配細節

4. Semantic Sentence Matching

先介紹一下句子語義匹配任務(SSM, Semantic Sentence Matching),其目標是比較兩個句子并識別它們的語義關系

在轉述識別中,SSM用來確定兩個句子是否是轉述關系;在自然語言推理任務中,SSM用來判斷一個假設句是否可以從一個前提句中推斷出來;在QA任務中,SSM被用來評估問題-答案之間的相關性,并對所有候選回答進行排序。

處理句子語義匹配任務一般可分為兩個主要的研究方向:

利用句子編碼器將句子轉換為潛在空間中的低維向量,并應用參數化的函數來學習二者之間的匹配分數

采用注意力機制來計算兩個句子token之間的分數,然后將匹配分數匯總,做出句子級的決策

還有通過注入知識來解決該問題的嘗試,如SemBERT,UER-BERT,Syntax-BERT等

5. Model architecture

DABERT是對原始 Transformer結構的修改,其結構如下所示

7bc2d056-4b79-11ed-a3b6-dac502259ad0.png

The overall architecture of Dual Attention Enhanced BERT (DABERT). The left side is the Dual attention module, and the right side is the Adaptive Fusion module

在這個新結構中包括兩個子模塊

(1)雙注意力模塊,它在多頭注意力中使用雙通道機制來匹配兩個句子之間的單詞,每個通道使用不同的注意力頭,分別計算affinity 和 difference分數,得到兩個表征,分別測量相似 和 差異信息。

(2)自適應融合模塊,用于融合雙流注意力得到的表征,首先使用guide-attention來對齊兩個信號,然后使用多個門控模塊來融合這兩個信號,最終輸出一個包括更細粒度的匹配細節的向量

5.1 Dual Attention Module

在這個模塊中,使用兩個不同的注意力函數,即常規注意力和差異注意力,來比較兩個句子之間向量的相似度和差異度。雙重注意力模塊的輸入是的三要素,其中是潛在維度,是序列長度。

雙流注意力模塊通過兩個獨立的注意力機制計算K、Q和V之間的潛在關系,以測量它們的相似度和差異度。因此該模塊會產生兩組注意力表征,后續由自適應融合模塊處理。

7becf048-4b79-11ed-a3b6-dac502259ad0.png

雙流注意力模塊

5.1.1 Affinity Attention

相似注意力是雙流注意力的一部分,它是標準的點積注意力,按照Transformer的默認操作進行計算。該模塊的輸入包括query和維度為的key,以及維度為的value。

計算query與所有key的點積,將每個點積除以,并使用softmax函數來獲得數值的權重,將輸出的相似向量表示為

其中,表示描述由Transformer原始注意力模塊生成的相似表達的向量。

5.1.2 Difference Attention

雙流注意力的第二部分是差異注意力模塊,用于捕捉和聚合句子對之間的差異信息,采用基于減法的cross-attention機制,它允許模型通過element-wise的減法來捕獲句子對之間的差別,如

其中,是輸入序列長度,
表示差異注意力模塊所產生的表示。是一個Mask操作。相似注意力和差異注意力都被用來建模句子對之間的語義關系,并分別從相似和差異的角度獲得相同維度的表征,這種雙通道機制可以獲得描述句子匹配的更詳細的表征

5.2 Adaptive Fusion Module

使用自適應融合模塊來融合相似表示A和差異表示D,因為直接融合(即平均嵌入向量)可能會損害預訓練模型的原始表示能力

7c06ae48-4b79-11ed-a3b6-dac502259ad0.png

自適應融合模塊

融合過程包括三個步驟

通過affinity-guided attention和difference-guided attention,靈活地與這兩個表示進行互動和對齊

采用多個門控模塊來選擇性地提取交互語義信息

為了減輕差異表示對預訓練模型的損害,我們利用filter gates來自適應地過濾掉噪聲信息,最后生成更好描述句子匹配細節的向量

poYBAGNuAuSAI8xmAAG9dHdCw40842.jpg
pYYBAGNuAuuAWhkwAAE0dIetS7s373.jpg

6. Experimental and Results analysis

6.1 Datasets

作者主要做了語義匹配和模型魯棒性的實驗,用到的數據集分別如下

Semantic Matching

GLUE的6個句對數據集:MRPC、QQP、STS-B、MNLI、RTE、QNLI

其他4個流行的數據集:SNLI、SICK、TwitterURL、Scitail

Robustness Test

利用TextFlint對多個數據集(Quora、SNLI、MNLI-m/mm)進行轉化,包括特定任務的轉化(SwapAnt、NumWord、AddSent)和一般轉化(InsertAdv、Appendlrr、AddPunc、BackTrans、TwitterType、SwapNamedEnt、SwapSyn-WordNet)

TextFlint是一個自然語言處理模型的魯棒性評估平臺。它包括80多種模式來變形數據,包括插入標點符號,改變文本中的數字,替換同義詞,修改副詞,刪除單詞等,可以有效地評估模型的魯棒性和泛化性

6.2 Baselines

BERT、SemBERT、SyntaxBERT、URBERT和其他多個PLM

此外,還選擇了幾個沒有預訓練的競爭模型作為基線,如ESIM,Transformer等

在魯棒性實驗中,比較了多個預訓練模型和SemBERT,URBERT、Syntax-BERT

6.3 Results analysis

更具體的實驗結果這里就不羅列了,只看一下論文作者對于一些結果的解釋

模型表現優于SyntaxBERT,這是之前利用外部知識的最佳模型,基于BERT-large的平均相對改進為0.86%。在QQP數據集上,DABERT的準確性比SyntaxBERT明顯提高了2.4%。造成這種結果的主要原因有兩個

使用雙流注意力來增強DABERT捕捉差異特征的能力,這使得DABERT能夠獲得更精細的交互匹配特征

對于外部結構引入的潛在噪聲問題,自適應融合模塊可以有選擇地過濾掉不合適的信息,以抑制噪聲的傳播,而以前的工作似乎沒有對這個問題給予足夠的關注

SyntaxBERT仍在幾個數據集上取得了稍好的準確性,作者認為這是句法和依存知識的內在關聯性的結果

7c36196c-4b79-11ed-a3b6-dac502259ad0.png

The performance comparison of DABERT with other methods. Accuracy × 100 on 6 GLUE datasets. Methods with ? indicate the results from their papers, while methods with ? indicate our implementation

Robustness Test Performance

下表列出了DABERT和六個基線模型在三個數據集上的準確性。可以觀察到,

SwapAnt的性能表現最差,而DABERT在SwapAnt(QQP)上優于最佳模型SemBert近10%,這表明DABERT比基線模型更能處理反義詞引起的語義矛盾

NumWord轉換,BERT模型性能下降到56.96%,而DABERT優于BERT近6%,因為它要求模型捕捉細微的數字差異,以進行正確的語言推理

SwapSyn變換,UERBERT明顯優于其他基線模型,因為它明確使用同義詞相似性矩陣來校準注意力分布,而DABERT在不添加外部知識的情況下仍能達到與UERBERT相當的性能

TwitterType和AddPunc,注入句法樹的SyntaxBERT性能明顯下降,這可能是因為將文本轉換為twitter類型或添加標點符號破壞了句子的正常句法結構,而DABERT在這兩種轉換中仍然取得了不錯的的性能

在其他情況下,DABERT也取得了更好的性能,因為它捕捉到了句子對的細微差別。同時,ESIM的表現最差,結果反映出預訓練機制得益于豐富的外部資源,并提供了比從頭訓練的模型更好的泛化能力。

而改進后的預訓練模型SyntaxBERT比原來的BERT模型表現更好,這反映出足夠的預訓練語料和合適的外部知識融合策略有助于提高模型的泛化性能

7c6bc9ea-4b79-11ed-a3b6-dac502259ad0.png

Robustness Test Performance

6.4 Ablation Study

作者在QQP和QNLI數據集上進行了基于BERT的消融實驗

去掉相似注意力后,模型在兩個數據集上的性能分別下降了1.8%和0.7%。相似注意力可以捕捉到詞對之間的動態對齊關系,這對SSM任務至關重要

去掉差異注意力后,兩個數據集的性能分別下降了1.5%和0.6%。差異信息可以進一步描述詞與詞之間的相互作用,并且可以為預訓練的模型提供更精細的比較信息,從而使模型獲得更好的表現

上述實驗表明,去除子模塊后,性能急劇下降,這表明了雙流注意力模塊內部組件的有效性

自適應融合模塊中,作者也進行了幾次實驗來驗證相似和差異向量的融合效果。在QQP數據集上,

刪除引導注意力模塊(guide attention),性能下降到90.4%。因為引導注意力可以捕捉到兩種表示之間的相互作用,這種相互作用信息對于融合兩個不同的信息至關重要

去掉fusion gate后,只通過簡單的平均來整合兩個表示,準確率下降到91.4%,表明根據不同的權重動態地合并相似和差異向量可以提高模型的性能

移出filter gate后,準確率下降了0.4%,表明沒有filter gate,模型抑制噪聲的能力被削弱了

用簡單的平均代替整體聚合和調節模塊,性能急劇下降到89.4%。雖然差異信息對判斷句對關系至關重要,但將差異信息硬性整合到PLM中會破壞其預存的知識,而更柔和的聚合和處理可以更好地利用差異信息

總的來說,通過各個部分的有效組合,DABERT可以自適應地將差異特征融合到預訓練的模型中,并利用其強大的上下文表示法來更好地推斷語義

7c873cac-4b79-11ed-a3b6-dac502259ad0.png

Results of component ablation experiment

6.5 Case Study

為了直觀地了解DABERT的工作情況,作者使用下表中的三個案例進行定性分析。

在第一種情況下,非預訓練的語言模型ESIM很難捕捉到由差異詞引起的語義沖突。因此,ESIM在案例1中給出了錯誤的預測結果。

BERT在案例1中可以借助于上下文來識別語義差異,但在案例3中,BERT不能捕捉到數字 "12 "和 "24 "之間的差異,并給出了錯誤的預測。

SyntaxBERT通過引入句法樹來加強文本理解,由于案例2和案例3具有相同的句法結構,SyntaxBERT也給出了錯誤的預測

總的來說,這幾種不同的情況,上述三種模型都有其處理不了的原因,反觀DABERT在上述所有的情況下都做出了正確的預測。

由于DABERT通過差異注意力明確地關注句子對中的不同部分,并在自適應融合模塊中自適應地聚合相似和差異信息,它可以識別由句子對內的細微差異引起的語義差異

7cac64fa-4b79-11ed-a3b6-dac502259ad0.png

Example sentence pairs, Red and Blue are difference phrases in sentence pair.

Attention Distribution

為了驗證基于減法的注意力對差異信息的融合效果,作者還在下圖中展示了BERT和DABERT的權重分布并進行比較。

可以看出,雙流注意力得到的注意力矩陣分布變得更加合理,尤其是 "hardware "和 "software"之間的注意力權重明顯增加這表明DABERT給句子對的差異之處給予了更多的關注

7d337986-4b79-11ed-a3b6-dac502259ad0.png

Distribution of BERT (a) and DABERT (b)

7. Conclusion

總結一下,這篇論文是通過改變傳統Transformer中的注意力結構來達到優化注意力權重分布的效果,進而讓模型可以將句子對之間的向量表示有差別的地方凸顯出來,而相似的地方更加靠近。

在保持原始預訓練語言模型不被影響到情況下,增強模型的表示能力,并且做了大量的實驗來證明,比之前的工作得到了更好的效果。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ssm
    ssm
    +關注

    關注

    0

    文章

    21

    瀏覽量

    11407
  • MRPC
    +關注

    關注

    0

    文章

    2

    瀏覽量

    1270

原文標題:清華&美團提出:DABERT — 雙流注意力增強型BERT,自適應融合提升模型效果 | COLING'22

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種適用于SoC的瞬態增強型線性穩壓器_張琪

    一種適用于SoC的瞬態增強型線性穩壓器_張琪
    發表于 01-07 22:23 ?0次下載

    DeepMind為視覺問題回答提出了一種新的硬注意力機制

    然而,在基于梯度的學習框架(如深度學習)存在個關鍵的缺點:因為選擇要處理的信息的過程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機制支持基于梯度的優化。目前研究
    的頭像 發表于 08-10 08:44 ?6242次閱讀

    北大研究者創建了一種注意力生成對抗網絡

    同時我們還將完整的GAN結構和我們網絡的部分相對比:A表示只有自動編碼器,沒有注意力地圖;A+D表示沒有注意力自動編碼器,也沒有注意力判別器;A+AD表示沒有注意力自動編碼器,但是有
    的頭像 發表于 08-11 09:22 ?4987次閱讀

    一種通過引入硬注意力機制引導學習視覺回答任務的研究

    ),用于通過頂層正則化項選擇固定數量的特征向量。第二個版本我們稱之為自適應的硬注意力網絡 AdaHAN (Hard Hard Attention Network),這是基于輸入決定特征向量的可變數量的
    的頭像 發表于 10-04 09:23 ?5497次閱讀

    深度分析NLP注意力機制

    注意力機制越發頻繁的出現在文獻,因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機制做了較為全面的綜述。
    的頭像 發表于 02-17 09:18 ?3882次閱讀

    注意力機制的誕生、方法及幾種常見模型

    簡而言之,深度學習注意力機制可以被廣義地定義為個描述重要性的權重向量:通過這個權重向量為了預測或者推斷個元素,比如圖像的某個像素或
    的頭像 發表于 03-12 09:49 ?4.2w次閱讀

    一種自監督同變注意力機制,利用自監督方法彌補監督信號差異

    本文提出了一種自監督同變注意力機制(self-supervised equivariant attention mechanism,簡稱SEAM),利用自監督方法彌補監督信號差異。在
    的頭像 發表于 05-12 10:16 ?7855次閱讀
    <b class='flag-5'>一種</b>自監督同變<b class='flag-5'>注意力</b>機制,利用自監督方法<b class='flag-5'>來</b>彌補監督信號<b class='flag-5'>差異</b>

    一種全新的多階段注意力答案選取模型

    信息與問題關鍵信息的多階段注意力答案選取模型。該方法首先利用雙向LSTM模型分別對問題和候選答案進行語義表示;然后采用問題的關鍵信息,包括問題類型和問題中心詞,利用注意力機制對候選答案集合進行信息增強,篩選?opK個候
    發表于 03-24 11:17 ?8次下載
    <b class='flag-5'>一種</b>全新的多階段<b class='flag-5'>注意力</b>答案選取模型

    一種注意力增強的自然語言推理模型aESIM

    在自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此,提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應方向權重層
    發表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b><b class='flag-5'>注意力</b><b class='flag-5'>增強</b>的自然語言推理模型aESIM

    一種上下文感知與層級注意力網絡的文檔分類方法

    集中于當前所編碼的句子,并沒有有效地將文檔結構知識整合到體系結構。針對此問題,提出種上下文感知與層級注意力網絡的文檔分類方法( CAHAN)。該方法采用分層結構表示文檔的層次結構,
    發表于 04-02 14:02 ?3次下載
    <b class='flag-5'>一種</b>上下文感知與層級<b class='flag-5'>注意力</b>網絡的文檔分類方法

    增強型鉛塑封裝的應用注意事項

    增強型鉛塑封裝的應用注意事項
    發表于 05-14 14:34 ?5次下載
    熱<b class='flag-5'>增強型</b>鉛塑封裝的應用<b class='flag-5'>注意</b>事項

    如何用番茄鐘提高注意力

    電子發燒友網站提供《如何用番茄鐘提高注意力.zip》資料免費下載
    發表于 10-28 14:29 ?0次下載
    如何用番茄鐘<b class='flag-5'>提高</b><b class='flag-5'>注意力</b>

    計算機視覺注意力機制

    計算機視覺注意力機制 卷積神經網絡中常用的Attention 參考 注意力機制簡介與分類 注意力機制(Attention Mechanism) 是機器學習
    發表于 05-22 09:46 ?0次下載
    計算機視覺<b class='flag-5'>中</b>的<b class='flag-5'>注意力</b>機制

    一種新的深度注意力算法

    本文簡介了一種新的深度注意力算法,即深度殘差收縮網絡(Deep Residual Shrinkage Network)。從功能上講,深度殘差收縮網絡是一種面向強噪聲或者高度冗余數據的特征學習方法
    發表于 05-24 16:28 ?0次下載
    <b class='flag-5'>一種</b>新的深度<b class='flag-5'>注意力</b>算法

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統的故障檢測對其可維護性和安全性至關重要。然而,系統監測變量往往具有復雜的聯系,很難表征它們的關系并提取有效的特征。本文開發了一種基于因果路徑的層次圖卷積注意力網絡(HGCAN),以
    的頭像 發表于 11-12 09:52 ?328次閱讀
    <b class='flag-5'>一種</b>基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡
    主站蜘蛛池模板: 全部免费a级毛片| 国产主播在线播放| 一级毛片女人喷潮| 欧美综合一区二区三区| 日本国产在线观看| 欧美ww| 四虎午夜影院| 色综合天天综合网国产成人网 | 91在线色| 国产精品你懂的在线播放| 美女黄18| 日本三级日产三级国产三级| 欧美色视频日本片高清在线观看 | 牛牛精品| 成人国内精品久久久久影院| 国产一级特黄aa大片在线 | 一级特黄aa毛片免费观看| xxx久久| 轻点灬大ji巴太粗太大了小说| 正在播放久久| 日本黄大乳片免费观看| 国产亚洲欧美视频| 天天操天天操天天干| 手机看片福利1024| 日日做夜夜爽夜夜爽| 日本一本视频| 日本爱爱片| 欧美国产三级| 在线亚洲综合| 女性一级全黄生活片免费看| 99综合久久| 国产午夜亚洲精品| 免费大片看黄在观看| www日本免费| 日本一线a视频免费观看| 国产成人三级视频在线观看播放| 色橹橹| 男人午夜| 日本3级视频| 午夜视频精品| 67pao强力打造|