微軟昨天宣布其研發的機器翻譯系統首次在通用新聞的漢譯英上達到了人類專業水平,實現了自然語言處理的又一里程碑突破。
由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報道的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報道的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東博士表示,這是自然語言處理領域的一項里程碑式的成就。“這是我們的情懷,是非常有意義的工作,”黃學東告訴新智元:“消除語言障礙,讓人們能更好地溝通,非常有價值,值得我們多年來不斷為此付出努力?!?/p>
黃學東驕傲地說,2015年微軟率先在圖像識別ImageNet數據集達到人類水平,2016年在Switchboard對話語義識別達到人類水平,2017在斯坦福問答數據集SQuAD上達到人類水平,今天又在機器翻譯上達到人類水平,一路走來,微軟的進步激動人心,“這是我們共同的成就,我們是站在同行的肩膀上往上走”。
黃學東表示,微軟語音和NLP組在成立時,便立下了要在兩年后將機器翻譯做到人類專業水平的目標。如今,這一目標提前實現,“除了計算力的大幅提高,深度學習方法的提高,我們還結合了以前在Switchboard上取得的經驗,數據也做了很多整理,比如去除低質量的訓練數據,等等。”黃學東說。
“這既是技術上的突破,也是工程上的突破,是技術和工程的完美結合,只有把過程中的每一件事情都做好,才能得到這樣的結果。”
NLP里程碑式突破:首個媲美人類專業譯者的機器翻譯系統
這次微軟的翻譯系統是在數據集WMT-17的新聞數據集newstest2017上取得了上述成果。WMT是機器翻譯領域的國際頂級評測比賽之一。WMT數據集也是機器翻譯領域一個公認的主流數據集。其中,newstest2017新聞報道測試集由產業界和學術界的合作伙伴共同開發,包括來自新聞評論語料庫的約332K個句子對,來自聯合國平行語料庫的15.8M個句子對,以及來自CWMT語料庫的9M個句子對。
雖然研究人員只進行了漢譯英的測試,但黃學東表示,英譯漢結果也應該并無不同?!皬募夹g上說,漢譯英和英譯漢是相同的,只要有足夠的數據?!?/p>
為了確保翻譯結果準確且達到人類的翻譯水平,微軟研究團隊還邀請了雙語語言顧問,將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估(全部盲測)。黃學東告訴新智元:“當機器翻譯質量很差的時候,使用BLEU評分還行,但是當機器翻譯質量提高以后,就需要靠人類來評價?!?/p>
具體說,當100分是標準滿分時,微軟的系統得分69.9,專業譯者68.6,而眾包翻譯得分為67.6。
人類專家的評估結果(部分):其中,Reference-HT為純人工翻譯;Reference-PE為使用Google Translate加人工后期編輯的翻譯;Reference-WMT是WMT原始翻譯,包含錯誤;Online-A-1710是2017年10月16日收集的Microsoft翻譯商用系統(production system);Online-B-1710是2017年10月16日收集的谷歌翻譯商用系統;Sogou是搜狗NMT翻譯系統,這是在2017年WMT中英機器翻譯競賽的冠軍。
機器翻譯提前7年超越業余譯者,人工智能再下一城
機器翻譯是科研人員攻堅了數十年的研究領域,曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水平。
2017年中旬,牛津大學面向機器學習研究人員做了一次大規模調查,調查的內容是他們對 AI 進展的看法。這些研究人員預測,未來10年,AI 將在許多活動中超過人類,具體預測見下表:
微軟的這次突破,將機器翻譯超越人類業余譯者的時間,提前了整整7年,遠遠超出了眾多ML研究人員的預想。
雖然此次突破意義非凡,但微軟研究人員也提醒大家,這并不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。微軟亞洲研究院副院長、自然語言計算組負責人周明表示,在WMT17測試集上的翻譯結果達到人類水平很鼓舞人心,但仍有很多挑戰需要解決,比如在實時的新聞報道上測試系統等。
微軟機器翻譯團隊研究經理Arul Menezes表示,團隊想要證明的是:當一種語言對(比如中-英)擁有較多的訓練數據,且測試集中包含的是常見的大眾類新聞詞匯時,那么在人工智能技術的加持下,機器翻譯系統的表現可以與人類媲美。
突破當前神經機器翻譯范式局限,性能再上一個數量級
為了能夠取得中-英翻譯的里程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。
在這篇有24位作者的論文《機器翻譯:中英新聞翻譯方面達到與人類媲美的水平》(Achieving Human Parity on Automatic Chinese to English News Translation )中,微軟研究團隊描述了他們為新聞漢英翻譯任務在規模數據集上實現人類水平所作的努力。
在論文中,作者表示他們解決了當前NMT范式的一些局限。 他們的研究主要貢獻包括:
利用翻譯問題的對偶性(duality),使模型能夠從源語言到目標語言(Source to Target)和從目標語言到源語言(Target to Source)這兩個方向的翻譯中學習。同時,這讓我們能同時從有監督和無監督的源數據和目標數據中學習。具體而言,我們利用通用的對偶學習(dual learning)方法,并引入聯合訓練(Joint Training)算法,通過在一個統一的框架中反復提高從源語言到目標語言翻譯和從目標語言到源語言翻譯的模型,從而增強單語源和目標數據的效果。
NMT系統從左到右自動回歸解碼,這意味著在按順序生成輸出期間,之前的錯誤將被放大,并可能誤導后續生成的結果。這只能部分通過波束搜索(beam search)進行補救。我們提出了兩種方法來緩解這個問題:推敲網絡(Deliberation Networks),這是一種基于雙路解碼來優化翻譯的方法;以及在兩個Kullback-Leibler(KL)散度正則化項上的新訓練目標,鼓勵從左到右和從右到左的解碼結果變得一致。
由于NMT非常容易受到嘈雜訓練數據、數據中的罕見事件以及總體訓練數據質量的影響,論文還討論了數據選擇和過濾的方法,包括跨語言句子表示。
最后,我們發現我們的系統是完全互補的,因此可以從系統組合中獲益很多,最終實現了機器翻譯達到人類水平的目標。
四大技術加持,神經機器翻譯將成今后機器翻譯絕對主流
其中,微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習(Dual Learning)和推敲網絡(Deliberation Networks)應用在了此次取得突破的機器翻譯系統中。其中,對偶學習利用的是人工智能任務的天然對稱性。當我們把訓練集中的一個中文句子翻譯成英文之后,系統會將相應的英文結果再翻譯回中文,并與原始的中文句子進行比對,進而從這個比對結果中學習有用的反饋信息,對機器翻譯模型進行修正。
微軟亞洲研究院副院長、機器學習組負責人劉鐵巖
而推敲網絡則類似于人們寫文章時不斷推敲、修改的過程。通過多輪翻譯,不斷地檢查、完善翻譯的結果,從而使翻譯的質量得到大幅提升。“我們在深度學習和自然語言這兩者中間找到了一個平衡點,我們想通過對機器翻譯的研究,從自然語言的角度對機器學習做進一步的理解,找到一些直覺,再通過這個直覺反過來影響機器學習研究的路線,走出盲目嘗試的狀態?!蔽④泚喼扪芯吭焊痹洪L、機器學習組負責人劉鐵巖說。
那研究人員從推敲網絡中獲得的直覺是什么呢?他們發現,人在做翻譯的時候,在看見或聽完源語言后,腦子里會形成一個觀點,這其實就是編碼的過程。但是,我們真正把這句話當成目標語言講出來,實際上是三思而后行的。我們不會一個字一個字往出蹦,我們會先醞釀一下要怎么講,如果是文字翻譯,還可能不斷地修改,讓語句更加通順或者優美。
“我們常常說,人會做推敲的事情,是‘僧敲月下門’還是‘僧推月下門’,要琢磨琢磨,上下文關系用哪個字更好,如何在一個機器學習的模型中將這種推敲過程體現出來,就是推敲網絡所要去嘗試的一個點?!眲㈣F巖告訴新智元。
推敲,也就是在解碼器,或者說在文本生成的過程多做點文章,把人的一些直覺放進去?!霸谖覀兊腄eliberationNet里面,解碼器是有多層的,解碼器先做一遍,可能翻譯得不太好,但從頭到尾翻譯完了,這句翻譯會再扔給下一個解碼器再做一遍,這個過程可以不斷反復,不停地去修改之前翻譯的完整結果,這其實就在做推敲。我們發現,這樣推敲后的結果比只過一次要好很多,多過一次時間代價會增多,但是結果會更好?!?/p>
微軟亞洲研究院副院長、自然語言計算組負責人周明
周明帶領的自然語言計算組多年來一直致力于攻克機器翻譯,這一自然語言處理領域最具挑戰性的研究任務。周明表示,“由于翻譯沒有唯一的標準答案,它更像是一種藝術,因此需要更加復雜的算法和系統去應對。”
基于之前的研究積累,自然語言計算組在此次的系統模型中增加了另外兩項新技術:聯合訓練(Joint Training)和一致性規范(Agreement Regularization),以提高翻譯的準確性。聯合訓練可以理解為用迭代的方式去改進翻譯系統,用中英翻譯的句子對去補充反向翻譯系統的訓練數據集,同樣的過程也可以反向進行。一致性規范則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。
左邊是聯合訓練:從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y);右邊是一致性規范
這次使用的技術,從對偶學習(Dual Learning)、推敲網絡(Deliberation Network)到一致性規范(Agreement Regularization),都屬于神經機器翻譯(NMT)方法。而黃學東也認為,今后的機器翻譯領域,NMT也將成為絕對主流?!跋啾冉y計機器翻譯,神經機器翻譯有一個很大的提高,而這次我們新的系統,相比普通的神經機器翻譯,又有一個很大的提高?!?/p>
黃學東說:“我們這次的系統是把很多不同的機器翻譯系統組合到一起,這些系統每一個都能獨立工作,輸出結果,最終,我們再將這些結果綜合起來,輸出一個最好的結果?!?/p>
深度學習NLP掌握著實現強人工智能的鑰匙
對于語音識別等其它人工智能任務來說,判斷系統的表現是否可與人類媲美相當簡單,因為理想結果對人和機器來說完全相同,研究人員也將這種任務稱為模式識別任務。
然而,機器翻譯卻是另一種類型的人工智能任務,即使是兩位專業的翻譯人員對于完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不是錯的。那是因為表達同一個句子的“正確的”方法不止一種。 周明表示:“這也是為什么機器翻譯比純粹的模式識別任務復雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個更好。”
復雜性讓機器翻譯成為一個極有挑戰性的問題,但也是一個極有意義的問題。劉鐵巖認為,我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時,都能在“信、達、雅”等多個維度上達到專業翻譯人員的水準。不過,他對技術的進展表示樂觀,因為每年微軟的研究團隊以及整個學術界都會發明大量的新技術、新模型和新算法,“我們可以預測的是,新技術的應用一定會讓機器翻譯的結果日臻完善。”
研究團隊還表示,他們計劃將此次技術突破推廣到其他語言上面,同時應用到微軟的商用多語言翻譯系統產品中。
黃學東認為,神經機器翻譯,或者說深度學習,最激動人心的地方在于,它能夠學會自然語言內部的embedded feature,把語言的結構,語義結構和語義的表示學習出來,再反饋到系統,從而實現自然語言理解的突破。
“機器學習需要很多數據,NLP沒有很多標注的數據,把表示學習出來,還能推廣到其他系統。”黃學東說:“NLP掌握著今后實現強人工智能的鑰匙。”
-
AI
+關注
關注
87文章
31028瀏覽量
269381 -
機器翻譯
+關注
關注
0文章
139瀏覽量
14909 -
自然語言
+關注
關注
1文章
288瀏覽量
13358
原文標題:【AI再創紀錄】機器翻譯提前7年達到人類專業翻譯水平!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論