01
—
研究動機
近年來,神經機器翻譯(Neural Machine Translation, NMT)研究取得了重大的進展。從大規模平行數據中學習具有大規模參數的通用神經機器翻譯模型已經比較成熟。當需要處理特定場景中的翻譯任務時,人們廣泛采用領域自適應技術將一個通用領域的神經機器翻譯模型遷移到目標領域。
然而現有領域自適應研究考慮的領域仍比較粗糙,例如法律、醫療、科技、字幕等領域。事實上,在這些領域下還存在著非常多的細粒度領域。例如,科技領域下還包含著自動駕駛(Autonomous Vehicles, AV)、AI教育(AI Education, AIE)、實時網絡通信(Real-Time Networks, RTN)、智能手機(Smart Phone, SP)等等細粒度領域。即使這些領域都屬于科技領域,但是在這些領域中卻存在著不同的翻譯現象。在詞級別,以中文“卡”字為例,它在不同的細粒度科技領域中其實對應著不同的英文翻譯(表格1)。在句子級別,在科技領域(FGraDA)和通用領域(CWMT)的分布存在著較大的差異的同時(圖1的左圖),科技領域內部的細粒度領域的分布仍然存在著一定的差異(圖1的右圖)。
表格1中文“卡”在幾個科技細粒度領域對應的翻譯
圖1數據分布差異可視化分析
細粒度領域自適應問題是一個重要的實際應用問題。當研發人員需要為某個特定主題提供翻譯服務(比如為某個主題的會議提供翻譯)時,往往需要在特定的細粒度領域上取得更好的翻譯性能。在這些場景中,細粒度領域的專業性、研發部署的預算要求使得人們難以獲取大規模的細粒度領域平行數據,這進一步加大了建模細粒度領域的難度。當細粒度領域建模不準確時,NMT模型很容易出現翻譯錯誤,包括專有名詞錯誤、一詞多義錯誤、漏譯錯誤等(表格2)。為了精確建模細粒度領域、解決細粒度領域自適應問題,需要思考如何從多樣的非平行數據中挖掘有效的目標領域信息。
表格2三種典型翻譯錯誤及樣例
02
—
貢獻
本文構建了一份細粒度領域自適應的中英機器翻譯數據集(FGraDA)。該數據集并不是為特定領域的翻譯提供數據支持,而是展示了一個包含多個細粒度領域的實際場景,制作了評估領域翻譯效果的驗證集和測試集數據,并提供了實際應用中可能面臨的多種類型的數據資源。希望該數據集可以支持在細粒度領域自適應方向的研究。
在FGraDA數據集上,我們比較了現有的部分自適應方法,可以作為后續研究工作的實驗基準;也分析了現有方法在進行細粒度領域自適應時存在的一些缺陷,希望能為后續研究工作提供參考。
03
—
數據集構建
為了模擬真實場景,我們以四個有代表性的會議(CCF-GAIR, GIIS, RTC, Apple-Events)為基礎構建FGraDA數據集。這四個會議對應的領域分別是:自動駕駛、AI教育、實時網絡通信、智能手機,這些領域都屬于科技領域下的細分領域。我們為每個領域配備了詞典資源、wiki資源、驗證集、測試集(數據規模如表格3所示)。詞典資源和wiki資源作為獲取成本較低的非平行資源,包含著豐富的領域信息,用于細粒度領域建模及自適應。驗證集和測試集則用于評估自適應效果。下面將具體介紹這些資源的構建過程。
表格3FGraDA數據集各領域數據規模報告
詞典相比于平行句對是一種獲取成本更低的資源。與此同時,詞典資源可以提供領域詞語的翻譯信息,這對于處理細粒度領域翻譯任務是非常有幫助的。因此,我們為每個領域人工標注了一定規模的雙語詞典資源。表格4中展示了一些我們標注的詞典條目示例。標注完成后,我們請語言專家確認了詞典的準確性和可靠性。
表格4詞典條目示例
Wiki資源是機器翻譯研究中的一種重要的可利用資源。鑒于領域詞典中包含大量的領域詞語,我們利用這些英文領域詞語抽取細粒度領域相關的wiki頁面。具體來說,我們首先抽取標題中包含領域詞語的wiki頁面作為種子頁面(seed page)。這些種子頁面中的內容是與細粒度領域高度相關的,并且這些頁面中的部分內容還會鏈接到其他相關頁面(如圖2所示)。因此我們利用這種天然存在的鏈接關系,收集種子頁面所鏈接到的一跳頁面(one-hop-link page),進一步擴充wiki資源。最終,抽取出的種子頁面和一跳頁面共同構成了細粒度領域相關的wiki資源(數據規模如表格5所示)。該資源不僅包含了大量的單語文本,還包含了諸如鏈接關系的結構知識,具有非常大的利用價值。
圖2Wiki資源示例
表格5Wiki資源數據規模報告
最后,為了評估細粒度領域自適應效果,我們為各個細粒度領域標注了平行數據作為驗證集和測試集。我們從上面提到的四個會議上收集了70個小時的錄音,然后使用內部工具將其轉錄為文本。隨后我們進行了數據清洗和數據脫敏,去除了文本語料中領域無關的句子和涉及隱私的人名、公司名。最終,經過語言專家標注,一共在四個領域上得到了4767條中英平行句對。我們把每個領域的平行數據分為兩部分:200條作為驗證集,剩下的作為測試集。我們可以看到,僅僅是收集少量平行數據用于評估就需要花費大量的人力、物力代價。在這種情況下,期望收集更多的平行數據用于自適應學習是不現實的,因此本數據集也沒有提供這種資源。
04
—
基線結果
我們在FGraDA數據集上比較了部分現有自適應方法(實驗結果如表格6所示)。實驗結果表明現有方法能夠利用數據集中提供的資源取得一定的提升,并且綜合使用詞典資源和wiki資源取得的提升最多。但是,這些方法在部分領域上的翻譯性能仍然較弱。為了進一步對自適應效果進行分析,我們統計了表現最好的基線方法在測試集上的句子級別BLEU的分布情況(如圖3所示)。分布情況顯示自適應模型在大部分句子上的翻譯狀況還不理想(BLEU分數低于20),這也表明細粒度領域的翻譯效果仍然有待提升。
表格6基線方法在細粒度領域上的翻譯性能(BLEU)
圖3句子級別BLEU分布情況
05
—
有待解決的挑戰
在詞典資源方面,我們發現現有的領域自適應方法還無法充分利用這些詞語翻譯知識。我們在測試集上統計了領域詞典條目的翻譯準確率(實驗結果如表格7所示)。實驗結果表明,即使采用詞約束解碼算法Grid Beam Search(GBS),自適應模型也無法100%正確翻譯出領域詞典中的領域詞語。為了進一步分析在細粒度領域自適應中使用詞典資源的挑戰,我們嘗試了調節GBS算法中的權重超參數(實驗結果如圖4所示)。實驗結果表明盡管我們可以調節GBS算法中的權重超參數強制模型翻譯出更多領域詞語,但是翻譯結果的BLEU分數會大幅下降。這說明,簡單地通過詞約束解碼的方式并不能翻譯好領域詞語,如何更好地利用領域詞典仍然有待探索。
表格7領域詞典條目翻譯準確率(%)
圖4不同權重下詞典詞語翻譯準確率和BLEU分數的變化情況
在wiki資源方面,現有的領域自適應方法主要將wiki頁面中包含的文本作為單語數據使用,忽視了wiki頁面中包含的各種結構化知識。這些知識對于理解領域詞語語義可能會起到非常重要的作用。我們在這里列舉出兩種重要的結構化知識:(1)wiki頁面正文的第一句話通常是標題的定義。以圖2中的頁面標題“HDR”為例,正文的第一句話“High dynamic range (HDR) is a dynamic range higher than usual”,這是“HDR”的定義,可以幫助理解HDR的含義。(2)當前wiki頁面中鏈接到其他wiki頁面的詞語往往和當前wiki頁面的標題是高度相關的。同樣以圖2中的頁面標題“HDR”為例,該頁面中包含的“dynamic range”,“display devices”,“photography”等詞語都是和“HDR”高度相關的,也可以幫助理解“HDR”的含義。
在領域層級方面,現有的領域自適應方法只考慮使用目標領域對應的領域資源進行領域自適應,忽略了利用相近細粒度領域中的資源。為了量化細粒度領域之間的近似關系,我們評估了適應到各個領域的模型在另外三個領域的翻譯性能(實驗結果如表格8所示)。從翻譯性能的差異可以看出細粒度領域之間有的差距較大,有的差距較小。如何利用相近細粒度領域中的資源輔助當前目標細粒度領域建模,以及如何利用粗細粒度領域間的層級關系仍然是值得探究的問題。
表格8遷移到不同細粒度領域上的模型翻譯性能對比(BLEU)
06
—
總結
本文從實際問題出發,構建了細粒度領域自適應機器翻譯數據集FGraDA。我們在FGraDA 數據集對比了現有的部分領域自適應方法,發現細粒度領域的翻譯效果仍然有待提升。進一步的分析顯示FGraDA數據集中提供的多樣非平行資源中仍然存在著非常多有待挖掘的、對自適應有益的信息。如何從各種不同資源中挖掘、利用這些信息建模細粒度領域,實現細粒度領域自適應是一個有待研究的重要課題。
審核編輯 :李倩
-
機器翻譯
+關注
關注
0文章
139瀏覽量
14922 -
數據集
+關注
關注
4文章
1209瀏覽量
24780
原文標題:LREC'22 | 機器翻譯中細粒度領域自適應的數據集和基準實驗
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論