1. Abstract
這篇paper主要是針對于傳統的預訓練語言模型捕捉細微差異能力不足的問題,像添加和刪除單詞、修改句子等微小的噪音就可能會導致模型預測錯誤
因此,該論文提出一種新型的雙流注意力增強型bert(DABERT,Dual Attention Enhanced BERT ),用來提高捕捉句子對中細微差異的能力,包括兩個模塊,
(1)雙流注意力模塊,通過引入新的雙通道對齊機制來測量軟詞匹配,來建模相似注意力和差異注意力
(2)自適應融合模塊,使用注意力機制來學習差異和相似特征的聚合,并生成一個描述句對匹配細節的向量
2. Motivation
之前的研究提出的方法在區分字面上相似但語義不同的句子對方面表現不佳,這可能是因為self-attention機制是利用上下文來理解token的語義,但這樣忽略了句子對之間的語義差異,因此為了更好的整合句子對之間的更加細粒度的差別,將difference向量和affinity向量放在一起建模
difference vector為差異向量
affinity vector為相似向量,即普通的attention得到的向量表示
字面意義相似但語義不同的例句,S1和S2是一對句子
2.1 Two questions
有了上面的思路之后,就自然而然的產生了兩個關鍵問題
Q1:如何使普通的注意力機制能夠對句子對之間細微差別的語義進行建模?
Vanilla attention,或稱為affinity attention,并不太關注句子對之間的細微差別,要提升這個能力,一個直觀的解決方案是在表示向量之間做減法,以捕獲它們的語義差異。論文中提出了一個雙注意力模塊,包括差異注意力和普通注意力。差異注意力使用基于減法的cross-attention來聚合詞和短語層面的交互差異。同時,為了充分利用差異信息,使用雙通道將差異信息注入Transformer中的multi-head attention,以獲得描述相似和差異的語義表示。
Q2:如何將兩類語義表示融合為一個統一的表示?
通過額外的結構對兩種信號進行硬融合可能會破壞預訓練模型的表示能力,如何將這些信息更柔和地注入到預訓練的模型中仍然是一個難題。論文中提出了一個自適應融合模塊,使用額外的注意力來學習差異和相似特征,以產生描述句子匹配細節的向量。
它首先通過不同的注意力將兩個信號相互對齊以捕獲語義交互,然后使用門控來自適應地融合差異特征。這些生成的向量通過另一個 fuse-gate 進一步縮放,以減少差異信息對預訓練模型的損害,輸出的最終向量可以更好地描述句子對的匹配細節。
3. Main contributions
明確地對句子對之間的細粒度差異語義進行建模,進而有效地提升句子語義匹配任務的效果,并且提出了一種基于BERT的新型雙流注意力增強機制
提出的DABERT模型使用雙流注意力來分別關注句子對中的相似性和差異性特征,并采用soft-integrated的調節機制來自適應地聚合這兩個特征,使得生成的向量可以更好地描述句子對的匹配細節
4. Semantic Sentence Matching
先介紹一下句子語義匹配任務(SSM, Semantic Sentence Matching),其目標是比較兩個句子并識別它們的語義關系。
在轉述識別中,SSM用來確定兩個句子是否是轉述關系;在自然語言推理任務中,SSM用來判斷一個假設句是否可以從一個前提句中推斷出來;在QA任務中,SSM被用來評估問題-答案之間的相關性,并對所有候選回答進行排序。
處理句子語義匹配任務一般可分為兩個主要的研究方向:
利用句子編碼器將句子轉換為潛在空間中的低維向量,并應用參數化的函數來學習二者之間的匹配分數
采用注意力機制來計算兩個句子token之間的分數,然后將匹配分數匯總,做出句子級的決策
還有通過注入知識來解決該問題的嘗試,如SemBERT,UER-BERT,Syntax-BERT等
5. Model architecture
DABERT是對原始 Transformer結構的修改,其結構如下所示
The overall architecture of Dual Attention Enhanced BERT (DABERT). The left side is the Dual attention module, and the right side is the Adaptive Fusion module
在這個新結構中包括兩個子模塊
(1)雙注意力模塊,它在多頭注意力中使用雙通道機制來匹配兩個句子之間的單詞,每個通道使用不同的注意力頭,分別計算affinity 和 difference分數,得到兩個表征,分別測量相似 和 差異信息。
(2)自適應融合模塊,用于融合雙流注意力得到的表征,首先使用guide-attention來對齊兩個信號,然后使用多個門控模塊來融合這兩個信號,最終輸出一個包括更細粒度的匹配細節的向量
5.1 Dual Attention Module
在這個模塊中,使用兩個不同的注意力函數,即常規注意力和差異注意力,來比較兩個句子之間向量的相似度和差異度。雙重注意力模塊的輸入是的三要素,其中是潛在維度,是序列長度。
雙流注意力模塊通過兩個獨立的注意力機制計算K、Q和V之間的潛在關系,以測量它們的相似度和差異度。因此該模塊會產生兩組注意力表征,后續由自適應融合模塊處理。
雙流注意力模塊
5.1.1 Affinity Attention
相似注意力是雙流注意力的一部分,它是標準的點積注意力,按照Transformer的默認操作進行計算。該模塊的輸入包括query和維度為的key,以及維度為的value。
計算query與所有key的點積,將每個點積除以,并使用softmax函數來獲得數值的權重,將輸出的相似向量表示為
其中,表示描述由Transformer原始注意力模塊生成的相似表達的向量。
5.1.2 Difference Attention
雙流注意力的第二部分是差異注意力模塊,用于捕捉和聚合句子對之間的差異信息,采用基于減法的cross-attention機制,它允許模型通過element-wise的減法來捕獲句子對之間的差別,如
其中,是輸入序列長度,
表示差異注意力模塊所產生的表示。是一個Mask操作。相似注意力和差異注意力都被用來建模句子對之間的語義關系,并分別從相似和差異的角度獲得相同維度的表征,這種雙通道機制可以獲得描述句子匹配的更詳細的表征。
5.2 Adaptive Fusion Module
使用自適應融合模塊來融合相似表示A和差異表示D,因為直接融合(即平均嵌入向量)可能會損害預訓練模型的原始表示能力
自適應融合模塊
融合過程包括三個步驟
通過affinity-guided attention和difference-guided attention,靈活地與這兩個表示進行互動和對齊
采用多個門控模塊來選擇性地提取交互語義信息
為了減輕差異表示對預訓練模型的損害,我們利用filter gates來自適應地過濾掉噪聲信息,最后生成更好描述句子匹配細節的向量
6. Experimental and Results analysis
6.1 Datasets
作者主要做了語義匹配和模型魯棒性的實驗,用到的數據集分別如下
Semantic Matching
GLUE的6個句對數據集:MRPC、QQP、STS-B、MNLI、RTE、QNLI
其他4個流行的數據集:SNLI、SICK、TwitterURL、Scitail
Robustness Test
利用TextFlint對多個數據集(Quora、SNLI、MNLI-m/mm)進行轉化,包括特定任務的轉化(SwapAnt、NumWord、AddSent)和一般轉化(InsertAdv、Appendlrr、AddPunc、BackTrans、TwitterType、SwapNamedEnt、SwapSyn-WordNet)
TextFlint是一個自然語言處理模型的魯棒性評估平臺。它包括80多種模式來變形數據,包括插入標點符號,改變文本中的數字,替換同義詞,修改副詞,刪除單詞等,可以有效地評估模型的魯棒性和泛化性
6.2 Baselines
BERT、SemBERT、SyntaxBERT、URBERT和其他多個PLM
此外,還選擇了幾個沒有預訓練的競爭模型作為基線,如ESIM,Transformer等
在魯棒性實驗中,比較了多個預訓練模型和SemBERT,URBERT、Syntax-BERT
6.3 Results analysis
更具體的實驗結果這里就不羅列了,只看一下論文作者對于一些結果的解釋
模型表現優于SyntaxBERT,這是之前利用外部知識的最佳模型,基于BERT-large的平均相對改進為0.86%。在QQP數據集上,DABERT的準確性比SyntaxBERT明顯提高了2.4%。造成這種結果的主要原因有兩個
使用雙流注意力來增強DABERT捕捉差異特征的能力,這使得DABERT能夠獲得更精細的交互匹配特征
對于外部結構引入的潛在噪聲問題,自適應融合模塊可以有選擇地過濾掉不合適的信息,以抑制噪聲的傳播,而以前的工作似乎沒有對這個問題給予足夠的關注
SyntaxBERT仍在幾個數據集上取得了稍好的準確性,作者認為這是句法和依存知識的內在關聯性的結果
The performance comparison of DABERT with other methods. Accuracy × 100 on 6 GLUE datasets. Methods with ? indicate the results from their papers, while methods with ? indicate our implementation
Robustness Test Performance
下表列出了DABERT和六個基線模型在三個數據集上的準確性。可以觀察到,
SwapAnt的性能表現最差,而DABERT在SwapAnt(QQP)上優于最佳模型SemBert近10%,這表明DABERT比基線模型更能處理反義詞引起的語義矛盾
NumWord轉換,BERT模型性能下降到56.96%,而DABERT優于BERT近6%,因為它要求模型捕捉細微的數字差異,以進行正確的語言推理
SwapSyn變換,UERBERT明顯優于其他基線模型,因為它明確使用同義詞相似性矩陣來校準注意力分布,而DABERT在不添加外部知識的情況下仍能達到與UERBERT相當的性能
TwitterType和AddPunc,注入句法樹的SyntaxBERT性能明顯下降,這可能是因為將文本轉換為twitter類型或添加標點符號破壞了句子的正常句法結構,而DABERT在這兩種轉換中仍然取得了不錯的的性能
在其他情況下,DABERT也取得了更好的性能,因為它捕捉到了句子對的細微差別。同時,ESIM的表現最差,結果反映出預訓練機制得益于豐富的外部資源,并提供了比從頭訓練的模型更好的泛化能力。
而改進后的預訓練模型SyntaxBERT比原來的BERT模型表現更好,這反映出足夠的預訓練語料和合適的外部知識融合策略有助于提高模型的泛化性能。
Robustness Test Performance
6.4 Ablation Study
作者在QQP和QNLI數據集上進行了基于BERT的消融實驗
去掉相似注意力后,模型在兩個數據集上的性能分別下降了1.8%和0.7%。相似注意力可以捕捉到詞對之間的動態對齊關系,這對SSM任務至關重要
去掉差異注意力后,兩個數據集的性能分別下降了1.5%和0.6%。差異信息可以進一步描述詞與詞之間的相互作用,并且可以為預訓練的模型提供更精細的比較信息,從而使模型獲得更好的表現
上述實驗表明,去除子模塊后,性能急劇下降,這表明了雙流注意力模塊內部組件的有效性
自適應融合模塊中,作者也進行了幾次實驗來驗證相似和差異向量的融合效果。在QQP數據集上,
刪除引導注意力模塊(guide attention),性能下降到90.4%。因為引導注意力可以捕捉到兩種表示之間的相互作用,這種相互作用信息對于融合兩個不同的信息至關重要
去掉fusion gate后,只通過簡單的平均來整合兩個表示,準確率下降到91.4%,表明根據不同的權重動態地合并相似和差異向量可以提高模型的性能
移出filter gate后,準確率下降了0.4%,表明沒有filter gate,模型抑制噪聲的能力被削弱了
用簡單的平均代替整體聚合和調節模塊,性能急劇下降到89.4%。雖然差異信息對判斷句對關系至關重要,但將差異信息硬性整合到PLM中會破壞其預存的知識,而更柔和的聚合和處理可以更好地利用差異信息
總的來說,通過各個部分的有效組合,DABERT可以自適應地將差異特征融合到預訓練的模型中,并利用其強大的上下文表示法來更好地推斷語義
Results of component ablation experiment
6.5 Case Study
為了直觀地了解DABERT的工作情況,作者使用下表中的三個案例進行定性分析。
在第一種情況下,非預訓練的語言模型ESIM很難捕捉到由差異詞引起的語義沖突。因此,ESIM在案例1中給出了錯誤的預測結果。
BERT在案例1中可以借助于上下文來識別語義差異,但在案例3中,BERT不能捕捉到數字 "12 "和 "24 "之間的差異,并給出了錯誤的預測。
SyntaxBERT通過引入句法樹來加強文本理解,由于案例2和案例3具有相同的句法結構,SyntaxBERT也給出了錯誤的預測
總的來說,這幾種不同的情況,上述三種模型都有其處理不了的原因,反觀DABERT在上述所有的情況下都做出了正確的預測。
由于DABERT通過差異注意力明確地關注句子對中的不同部分,并在自適應融合模塊中自適應地聚合相似和差異信息,它可以識別由句子對內的細微差異引起的語義差異
Example sentence pairs, Red and Blue are difference phrases in sentence pair.
Attention Distribution
為了驗證基于減法的注意力對差異信息的融合效果,作者還在下圖中展示了BERT和DABERT的權重分布并進行比較。
可以看出,雙流注意力得到的注意力矩陣分布變得更加合理,尤其是 "hardware "和 "software"之間的注意力權重明顯增加,這表明DABERT給句子對的差異之處給予了更多的關注
Distribution of BERT (a) and DABERT (b)
7. Conclusion
總結一下,這篇論文是通過改變傳統Transformer中的注意力結構來達到優化注意力權重分布的效果,進而讓模型可以將句子對之間的向量表示有差別的地方凸顯出來,而相似的地方更加靠近。
在保持原始預訓練語言模型不被影響到情況下,增強模型的表示能力,并且做了大量的實驗來證明,比之前的工作得到了更好的效果。
審核編輯:劉清
-
ssm
+關注
關注
0文章
21瀏覽量
11407 -
MRPC
+關注
關注
0文章
2瀏覽量
1270
原文標題:清華&美團提出:DABERT — 雙流注意力增強型BERT,自適應融合提升模型效果 | COLING'22
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論