完结小说,如何发布网络小说,好看的小说

微軟昨天宣布其研發的機器翻譯系統首次在通用新聞的漢譯英上達到了人類專業水平，實現了自然語言處理的又一里程碑突破。

由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布，其研發的機器翻譯系統在通用新聞報道的中譯英測試集上，達到了人類專業譯者水平。這是首個在新聞報道的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。

微軟技術院士，負責微軟語音、自然語言和機器翻譯工作的黃學東博士表示，這是自然語言處理領域的一項里程碑式的成就。“這是我們的情懷，是非常有意義的工作，”黃學東告訴新智元：“消除語言障礙，讓人們能更好地溝通，非常有價值，值得我們多年來不斷為此付出努力?！?/p>

黃學東驕傲地說，2015年微軟率先在圖像識別ImageNet數據集達到人類水平，2016年在Switchboard對話語義識別達到人類水平，2017在斯坦福問答數據集SQuAD上達到人類水平，今天又在機器翻譯上達到人類水平，一路走來，微軟的進步激動人心，“這是我們共同的成就，我們是站在同行的肩膀上往上走”。

黃學東表示，微軟語音和NLP組在成立時，便立下了要在兩年后將機器翻譯做到人類專業水平的目標。如今，這一目標提前實現，“除了計算力的大幅提高，深度學習方法的提高，我們還結合了以前在Switchboard上取得的經驗，數據也做了很多整理，比如去除低質量的訓練數據，等等。”黃學東說。

“這既是技術上的突破，也是工程上的突破，是技術和工程的完美結合，只有把過程中的每一件事情都做好，才能得到這樣的結果。”

NLP里程碑式突破：首個媲美人類專業譯者的機器翻譯系統

這次微軟的翻譯系統是在數據集WMT-17的新聞數據集newstest2017上取得了上述成果。WMT是機器翻譯領域的國際頂級評測比賽之一。WMT數據集也是機器翻譯領域一個公認的主流數據集。其中，newstest2017新聞報道測試集由產業界和學術界的合作伙伴共同開發，包括來自新聞評論語料庫的約332K個句子對，來自聯合國平行語料庫的15.8M個句子對，以及來自CWMT語料庫的9M個句子對。

雖然研究人員只進行了漢譯英的測試，但黃學東表示，英譯漢結果也應該并無不同?！皬募夹g上說，漢譯英和英譯漢是相同的，只要有足夠的數據?！?/p>

為了確保翻譯結果準確且達到人類的翻譯水平，微軟研究團隊還邀請了雙語語言顧問，將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估（全部盲測）。黃學東告訴新智元：“當機器翻譯質量很差的時候，使用BLEU評分還行，但是當機器翻譯質量提高以后，就需要靠人類來評價?！?/p>

具體說，當100分是標準滿分時，微軟的系統得分69.9，專業譯者68.6，而眾包翻譯得分為67.6。

人類專家的評估結果（部分）：其中，Reference-HT為純人工翻譯；Reference-PE為使用Google Translate加人工后期編輯的翻譯；Reference-WMT是WMT原始翻譯，包含錯誤；Online-A-1710是2017年10月16日收集的Microsoft翻譯商用系統（production system）；Online-B-1710是2017年10月16日收集的谷歌翻譯商用系統；Sogou是搜狗NMT翻譯系統，這是在2017年WMT中英機器翻譯競賽的冠軍。

機器翻譯提前7年超越業余譯者，人工智能再下一城

機器翻譯是科研人員攻堅了數十年的研究領域，曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水平。

2017年中旬，牛津大學面向機器學習研究人員做了一次大規模調查，調查的內容是他們對 AI 進展的看法。這些研究人員預測，未來10年，AI 將在許多活動中超過人類，具體預測見下表：

微軟的這次突破，將機器翻譯超越人類業余譯者的時間，提前了整整7年，遠遠超出了眾多ML研究人員的預想。

雖然此次突破意義非凡，但微軟研究人員也提醒大家，這并不代表人類已經完全解決了機器翻譯的問題，只能說明我們離終極目標又更近了一步。微軟亞洲研究院副院長、自然語言計算組負責人周明表示，在WMT17測試集上的翻譯結果達到人類水平很鼓舞人心，但仍有很多挑戰需要解決，比如在實時的新聞報道上測試系統等。

微軟機器翻譯團隊研究經理Arul Menezes表示，團隊想要證明的是：當一種語言對（比如中-英）擁有較多的訓練數據，且測試集中包含的是常見的大眾類新聞詞匯時，那么在人工智能技術的加持下，機器翻譯系統的表現可以與人類媲美。

突破當前神經機器翻譯范式局限，性能再上一個數量級

為了能夠取得中-英翻譯的里程碑式突破，來自微軟亞洲研究院和雷德蒙研究院的三個研究組，進行了跨越中美時區、跨越研究領域的聯合創新。

在這篇有24位作者的論文《機器翻譯：中英新聞翻譯方面達到與人類媲美的水平》（Achieving Human Parity on Automatic Chinese to English News Translation ）中，微軟研究團隊描述了他們為新聞漢英翻譯任務在規模數據集上實現人類水平所作的努力。

在論文中，作者表示他們解決了當前NMT范式的一些局限。他們的研究主要貢獻包括：

利用翻譯問題的對偶性（duality），使模型能夠從源語言到目標語言（Source to Target）和從目標語言到源語言（Target to Source）這兩個方向的翻譯中學習。同時，這讓我們能同時從有監督和無監督的源數據和目標數據中學習。具體而言，我們利用通用的對偶學習（dual learning）方法，并引入聯合訓練（Joint Training）算法，通過在一個統一的框架中反復提高從源語言到目標語言翻譯和從目標語言到源語言翻譯的模型，從而增強單語源和目標數據的效果。

NMT系統從左到右自動回歸解碼，這意味著在按順序生成輸出期間，之前的錯誤將被放大，并可能誤導后續生成的結果。這只能部分通過波束搜索（beam search）進行補救。我們提出了兩種方法來緩解這個問題：推敲網絡（Deliberation Networks），這是一種基于雙路解碼來優化翻譯的方法；以及在兩個Kullback-Leibler（KL）散度正則化項上的新訓練目標，鼓勵從左到右和從右到左的解碼結果變得一致。

由于NMT非常容易受到嘈雜訓練數據、數據中的罕見事件以及總體訓練數據質量的影響，論文還討論了數據選擇和過濾的方法，包括跨語言句子表示。

最后，我們發現我們的系統是完全互補的，因此可以從系統組合中獲益很多，最終實現了機器翻譯達到人類水平的目標。

四大技術加持，神經機器翻譯將成今后機器翻譯絕對主流

其中，微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習（Dual Learning）和推敲網絡（Deliberation Networks）應用在了此次取得突破的機器翻譯系統中。其中，對偶學習利用的是人工智能任務的天然對稱性。當我們把訓練集中的一個中文句子翻譯成英文之后，系統會將相應的英文結果再翻譯回中文，并與原始的中文句子進行比對，進而從這個比對結果中學習有用的反饋信息，對機器翻譯模型進行修正。

微軟亞洲研究院副院長、機器學習組負責人劉鐵巖

而推敲網絡則類似于人們寫文章時不斷推敲、修改的過程。通過多輪翻譯，不斷地檢查、完善翻譯的結果，從而使翻譯的質量得到大幅提升。“我們在深度學習和自然語言這兩者中間找到了一個平衡點，我們想通過對機器翻譯的研究，從自然語言的角度對機器學習做進一步的理解，找到一些直覺，再通過這個直覺反過來影響機器學習研究的路線，走出盲目嘗試的狀態?！蔽④泚喼扪芯吭焊痹洪L、機器學習組負責人劉鐵巖說。

那研究人員從推敲網絡中獲得的直覺是什么呢？他們發現，人在做翻譯的時候，在看見或聽完源語言后，腦子里會形成一個觀點，這其實就是編碼的過程。但是，我們真正把這句話當成目標語言講出來，實際上是三思而后行的。我們不會一個字一個字往出蹦，我們會先醞釀一下要怎么講，如果是文字翻譯，還可能不斷地修改，讓語句更加通順或者優美。

“我們常常說，人會做推敲的事情，是‘僧敲月下門’還是‘僧推月下門’，要琢磨琢磨，上下文關系用哪個字更好，如何在一個機器學習的模型中將這種推敲過程體現出來，就是推敲網絡所要去嘗試的一個點?！眲㈣F巖告訴新智元。

推敲，也就是在解碼器，或者說在文本生成的過程多做點文章，把人的一些直覺放進去?！霸谖覀兊腄eliberationNet里面，解碼器是有多層的，解碼器先做一遍，可能翻譯得不太好，但從頭到尾翻譯完了，這句翻譯會再扔給下一個解碼器再做一遍，這個過程可以不斷反復，不停地去修改之前翻譯的完整結果，這其實就在做推敲。我們發現，這樣推敲后的結果比只過一次要好很多，多過一次時間代價會增多，但是結果會更好?！?/p>

微軟亞洲研究院副院長、自然語言計算組負責人周明

周明帶領的自然語言計算組多年來一直致力于攻克機器翻譯，這一自然語言處理領域最具挑戰性的研究任務。周明表示，“由于翻譯沒有唯一的標準答案，它更像是一種藝術，因此需要更加復雜的算法和系統去應對。”

基于之前的研究積累，自然語言計算組在此次的系統模型中增加了另外兩項新技術：聯合訓練（Joint Training）和一致性規范（Agreement Regularization），以提高翻譯的準確性。聯合訓練可以理解為用迭代的方式去改進翻譯系統，用中英翻譯的句子對去補充反向翻譯系統的訓練數據集，同樣的過程也可以反向進行。一致性規范則讓翻譯可以從左到右進行，也可以從右到左進行，最終讓兩個過程生成一致的翻譯結果。

左邊是聯合訓練：從源語言到目標語言翻譯（Source to Target）P(y|x) 與從目標語言到源語言翻譯（Target to Source）P(x|y)；右邊是一致性規范

這次使用的技術，從對偶學習（Dual Learning）、推敲網絡（Deliberation Network）到一致性規范（Agreement Regularization），都屬于神經機器翻譯（NMT）方法。而黃學東也認為，今后的機器翻譯領域，NMT也將成為絕對主流?！跋啾冉y計機器翻譯，神經機器翻譯有一個很大的提高，而這次我們新的系統，相比普通的神經機器翻譯，又有一個很大的提高?！?/p>

黃學東說：“我們這次的系統是把很多不同的機器翻譯系統組合到一起，這些系統每一個都能獨立工作，輸出結果，最終，我們再將這些結果綜合起來，輸出一個最好的結果?！?/p>

深度學習NLP掌握著實現強人工智能的鑰匙

對于語音識別等其它人工智能任務來說，判斷系統的表現是否可與人類媲美相當簡單，因為理想結果對人和機器來說完全相同，研究人員也將這種任務稱為模式識別任務。

然而，機器翻譯卻是另一種類型的人工智能任務，即使是兩位專業的翻譯人員對于完全相同的句子也會有略微不同的翻譯，而且兩個人的翻譯都不是錯的。那是因為表達同一個句子的“正確的”方法不止一種。周明表示：“這也是為什么機器翻譯比純粹的模式識別任務復雜得多，人們可能用不同的詞語來表達完全相同的意思，但未必能準確判斷哪一個更好。”

復雜性讓機器翻譯成為一個極有挑戰性的問題，但也是一個極有意義的問題。劉鐵巖認為，我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時，都能在“信、達、雅”等多個維度上達到專業翻譯人員的水準。不過，他對技術的進展表示樂觀，因為每年微軟的研究團隊以及整個學術界都會發明大量的新技術、新模型和新算法，“我們可以預測的是，新技術的應用一定會讓機器翻譯的結果日臻完善。”

研究團隊還表示，他們計劃將此次技術突破推廣到其他語言上面，同時應用到微軟的商用多語言翻譯系統產品中。

黃學東認為，神經機器翻譯，或者說深度學習，最激動人心的地方在于，它能夠學會自然語言內部的embedded feature，把語言的結構，語義結構和語義的表示學習出來，再反饋到系統，從而實現自然語言理解的突破。

“機器學習需要很多數據，NLP沒有很多標注的數據，把表示學習出來，還能推廣到其他系統。”黃學東說：“NLP掌握著今后實現強人工智能的鑰匙。”

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31028

瀏覽量
269381
機器翻譯

機器翻譯

+關注

關注
0

文章
139

瀏覽量
14909
自然語言

自然語言

+關注

關注
1

文章
288

瀏覽量
13358

原文標題：【AI再創紀錄】機器翻譯提前7年達到人類專業翻譯水平！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

破萬億！中國芯片出口迎來里程碑

在全球科技競爭日益激烈的今天，中國芯片產業的發展備受矚目。根據海關總署最新公布的數據，2023年前11個月，中國集成電路出口額首次突破1萬億元人民幣，同比增長20.3%，這一里程碑式的成就標志著中國

發表于 12-17 16:43 ?510次閱讀

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟

Learning，簡稱ML）是人工智能的一個核心領域，它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系，因為機

發表于 12-05 15:21 ?522次閱讀

自然語言處理與機器學習的區別

在人工智能的快速發展中，自然語言處理（NLP）和機器學習（ML）成為了兩個核心的研究領域。它們都致力于解決復雜的問題，但側重點和應用場景有所不同。 1. 自然語言

發表于 11-11 10:35 ?615次閱讀

使用LLM進行自然語言處理的優缺點

語言任務，如文本分類、情感分析、機器翻譯等。以下是使用LLM進行NLP的一些優缺點：優點強大的語言理解能力： LLM通過訓練學習了大量

發表于 11-08 09:27 ?519次閱讀

特斯拉里程碑達成:第1億顆4680電池震撼問世

特斯拉的4680電池技術再次跨越重要里程碑，公司于9月15日欣然宣布，其第1億顆創新性的4680電池已成功下線，這一成就標志著特斯拉在電池制造領域的飛速進展。特斯拉首席執行官埃隆·馬斯克通過社交媒體向辛勤工作的電池團隊致以熱烈祝賀，彰顯

發表于 09-18 15:30 ?1262次閱讀

DeepL推出新一代翻譯編輯大型語言模型

在人工智能與語言處理領域，DeepL再次以其創新實力引領潮流，宣布成功推出新一代面向翻譯與編輯應用的大型語言模型。這

發表于 07-19 15:56 ?690次閱讀

國產通信衛星新里程碑:亞太6E全電推衛星正式運營

中國航天科技集團于7月15日宣布了一項重大成就——國產首顆全電推通信衛星亞太6E，在經過一系列嚴格的在軌技術驗收評審后，于香港圓滿完成了所有測試流程，正式邁入運營階段。這一里程碑事件不

發表于 07-15 16:57 ?1238次閱讀

nlp自然語言處理基本概念及關鍵技術

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能領域的一個重要分支，它致力于使計算機能夠理解、解釋和生成人類語言。NLP技術在

發表于 07-09 10:32 ?643次閱讀

nlp自然語言處理的應用有哪些

的應用。以下是一些NLP的主要應用領域，以及它們在各個領域的具體應用。 機器翻譯 機器翻譯是NLP的一個重要應用領域。它利用計算機自動將一種

發表于 07-05 09:55 ?2674次閱讀

自然語言處理模式的優點

得到了廣泛的應用，如搜索引擎、語音助手、機器翻譯、情感分析等。 1. 提高信息獲取效率 自然語言處理技術能夠快速地從大量文本數據中提取關鍵信息，幫助用戶節省查找和篩選信息的時間。例如，搜索引擎通過NLP技術理解用戶的查詢意圖，提

發表于 07-03 14:24 ?809次閱讀

自然語言處理技術的核心是什么

，廣泛應用于機器翻譯、情感分析、語音識別、智能問答、文本摘要等眾多領域。 自然語言處理技術的發展可以追溯到20世紀50年代。1950年，圖靈提出了著名的圖靈測試，標志著自然語言

發表于 07-03 14:20 ?787次閱讀

自然語言處理是什么技術的一種應用

廣泛，包括機器翻譯、語音識別、情感分析、信息檢索、問答系統、文本摘要、聊天機器人等。一、自然語言處理

發表于 07-03 14:18 ?980次閱讀

自然語言處理包括哪些內容

，從而實現人機之間的自然交流。本文將詳細介紹NLP的主要內容，包括基本概念、關鍵技術、應用領域等。一、自然語言處理的基本概念

發表于 07-03 14:15 ?970次閱讀

什么是自然語言處理 (NLP)

自然語言處理（Natural Language Processing, NLP）是人工智能領域中的一個重要分支，它專注于構建能夠理解和生成人類語言的計算機

發表于 07-02 18:16 ?1214次閱讀

自然語言處理技術的原理的應用

自然語言處理（Natural Language Processing, NLP）作為人工智能（AI）領域的一個重要分支，旨在使計算機能夠理解和處理人類

發表于 07-02 12:50 ?542次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

機器翻譯系統實現了自然語言處理的又一里程碑突破

評論

破萬億！中國芯片出口迎來里程碑

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟

自然語言處理與機器學習的區別

使用LLM進行自然語言處理的優缺點

特斯拉里程碑達成:第1億顆4680電池震撼問世

DeepL推出新一代翻譯編輯大型語言模型

國產通信衛星新里程碑:亞太6E全電推衛星正式運營

nlp自然語言處理基本概念及關鍵技術

nlp自然語言處理的應用有哪些

自然語言處理模式的優點

自然語言處理技術的核心是什么

自然語言處理是什么技術的一種應用

自然語言處理包括哪些內容

什么是自然語言處理 (NLP)

自然語言處理技術的原理的應用