作者:阿里云云棲號
鏈接:https://my.oschina.net/yunqi/blog/10319964
近日,阿里云人工智能平臺 PAI 與華南理工大學(xué)朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議 EMNLP2023 上發(fā)表基于機器翻譯增加的跨語言機器閱讀理解算法 X-STA。通過利用一個注意力機制的教師來將源語言的答案轉(zhuǎn)移到目標(biāo)語言的答案輸出空間,從而進行深度級別的輔助以增強跨語言傳輸能力。同時,提出了一種改進的交叉注意力塊,稱為梯度解纏知識共享技術(shù)。此外,通過多個層次學(xué)習(xí)語義對齊,并利用教師指導(dǎo)來校準(zhǔn)模型輸出,增強跨語言傳輸性能。實驗結(jié)果顯示,我們的方法在三個多語言 MRC 數(shù)據(jù)集上表現(xiàn)出色,優(yōu)于現(xiàn)有的最先進方法。
背景
大規(guī)模預(yù)訓(xùn)練語言模型的廣泛應(yīng)用,促進了 NLP 各個下游任務(wù)準(zhǔn)確度大幅提升,然而,傳統(tǒng)的自然語言理解任務(wù)通常需要大量的標(biāo)注數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練語言模型。但低資源語言缺乏標(biāo)注數(shù)據(jù)集,難以獲取。大部分現(xiàn)有的 MRC 數(shù)據(jù)集都是英文的,這對于其他語言來說是一個困難。其次,不同語言之間存在語言和文化的差異,表現(xiàn)為不同的句子結(jié)構(gòu)、詞序和形態(tài)特征。例如,日語、中文、印地語和阿拉伯語等語言具有不同的文字系統(tǒng)和更復(fù)雜的語法系統(tǒng),這使得 MRC 模型難以理解這些語言的文本。
為了解決這些挑戰(zhàn),現(xiàn)有文獻中通常采用基于機器翻譯的數(shù)據(jù)增強方法,將源語言的數(shù)據(jù)集翻譯成目標(biāo)語言進行模型訓(xùn)練。然而,在 MRC 任務(wù)中,由于翻譯導(dǎo)致的答案跨度偏移,無法直接使用源語言的輸出分布來教導(dǎo)目標(biāo)語言。
因此,本文提出了一種名為 X-STA 的跨語言 MRC 方法,遵循三個原則:共享、教導(dǎo)和對齊。共享方面,提出了梯度分解的知識共享技術(shù),通過使用平行語言對作為模型輸入,從源語言中提取知識,增強對目標(biāo)語言的理解,同時避免源語言表示的退化。教導(dǎo)方面,本方法利用注意機制,在目標(biāo)語言的上下文中尋找與源語言輸出答案語義相似的答案跨度,用于校準(zhǔn)輸出答案。對齊方面,多層次的對齊被利用來進一步增強 MRC 模型的跨語言傳遞能力。通過知識共享、教導(dǎo)和多層次對齊,本方法可以增強模型對不同語言的語言理解能力。
算法概述
X-STA 模型框架圖如下所示:
具體流程如下:
先將源語言的目標(biāo)數(shù)據(jù)翻譯到各個目標(biāo)語言,目標(biāo)語言的測試數(shù)據(jù)也翻譯回源語言。
每項數(shù)據(jù)包含問題 Q 和上下文段落 C。
構(gòu)建并行語言對 ={源語言訓(xùn)練數(shù)據(jù),目標(biāo)語言訓(xùn)練數(shù)據(jù)} 送入模型并使用反向傳播進行模型訓(xùn)練。
將并行語言對 ={源語言測試數(shù)據(jù),目標(biāo)語言測試數(shù)據(jù)} 送入模型獲取答案的預(yù)測。
算法精度評測
為了驗證 X-STA 算法的有效性,我們在三個跨語言 MRC 數(shù)據(jù)集上進行了測試,效果證明 X-STA 對精度提升明顯:
我們也對算法的模塊進行了詳細(xì)有效性分析,我們可以發(fā)現(xiàn)各模塊均對模型有一定貢獻。
為了更好地服務(wù)開源社區(qū),這一算法的源代碼即將貢獻在自然語言處理算法框架 EasyNLP 中,歡迎 NLP 從業(yè)人員和研究者使用。
-
算法
+關(guān)注
關(guān)注
23文章
4612瀏覽量
92891 -
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238497 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24701 -
阿里云
+關(guān)注
關(guān)注
3文章
956瀏覽量
43039 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561
原文標(biāo)題:基于知識遷移的跨語言機器閱讀理解算法
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論