遮天辰东小说笔趣阁,魔天记忘语小说,完美世界小说下载

這個翻譯模型，不僅支持200+語言之間任意兩兩互譯，還是開源的。Meta AI在發布開源大型預訓練模型OPT之后，再次發布最新成果NLLB。

NLLB的全稱為No Language Left Behind，如果套用某著名電影，可以翻譯成“一個語言都不能少”。

這其中，中文分為簡體繁體和粵語三種，而除了中英法日語等常用語種外，還包括了許多小眾語言。

▲NLLB支持的部分語種截圖

由于這些語言之間都可以兩兩互譯，所以咱們能用NLLB把阿斯圖里亞語、盧甘達語、烏爾都語等地球上的小眾語言直接譯成中文了。

一位用粵語的靚仔看到這里直接喜大普奔。

要知道，此前的眾多語言模型，要么不支持這么多種語言，要么不能直接完成小眾語言之間的兩兩翻譯。

有了NLLB，世界各地的人都有機會以自己的母語訪問和分享網絡內容；并且無論他們的語言偏好如何，都可以與他人在任意地方溝通。

Meta稱，他們計劃先將這個技術應用于Facebook和Instagram，以提升這些平臺上小眾語言的計算機翻譯水平。

同時，這也是他們元宇宙計劃的一部分。而這項成果正式開源的消息，也受到廣受好評。

除了AI業內關心他們如何支持語料稀缺的冷門語言，以及如何在BLEU基準測試上提高7個點以外。也有來自西非的網友認為，語言障礙正是全球互聯網用戶數量進一步增長的關鍵。

在Hacker News論壇上，大家也對這個AI議論紛紛。一個前端開發者說，自己的母語就是非常小眾的那種，僅有約一百萬人使用。

這位開發者此前從未見過對這種語言好用的AI翻譯軟件，而NLLB給他帶來了希望。

不過他認為，連著名的谷歌AI在處理“德-英-德”這樣語料豐富的語言翻譯時，都常常會出問題，所以他暫且對這個聲稱能翻譯好小眾語言的新模型持保留態度。

有網友給這位開發者支招兒，告訴他Meta開放了有支持翻譯的兒童書籍，可以去看看翻譯效果。

還有人補充道，許多小眾語言有許多不同的自然變體，更偏于口語化，而沒有特定書面化標準，可以用多種文字書寫。所以，如何對小眾語言進行標準化是個棘手的問題。

怎么支持語料少的語言

這個掌握了200多種語言的AI模型是怎么訓練的？

據Meta AI介紹，他們的AI研究人員主要通過3個方面來解決一些語言語料少的問題。

其一是為語料少的語言自動構建高質量的數據集。研究者建立了一個多對多的多語言數據集Flores-200。專業的真人翻譯員和審稿人采用統一的標準，來保質保量地建立這個數據集。

首先，譯員們翻譯Flores-200的全部句子，并檢查；然后，獨立審查員小組開始審查翻譯質量，根據他們的評估將一些譯文送去進行后期編輯。

如果質量評估表明，質量在90%以上，則認為該語言可以被納入Flores-200中。

最終，Flores-200中包含了842篇不同文章的翻譯，共3001個句子。

其二，是對200種語言建模：研究者開發了一個語言識別系統LID（language identification systems），標記出某段文字是用哪種語言寫的。

用監督方式訓練的LID模型在看似流暢的句子上，可能難以識別處不正確語法和不完整的字符串。

此外，LID很容易學習到沒有意義的相關性。所以，在這個LID開發的不同階段，工程師們都和語言學家們保持著緊密合作來盡量規避這些問題。

為了對小眾語言進行較好的建模，研究者開發了一種“學生-教師挖掘法”（Student-Te acher Mining）該方法的內容是：讓一個大規模的多語言句子編碼器的教師模型，與幾個語料少的學生模型相互學習整合。

這樣能夠在不和多語料語言爭奪容量的情況下，豐富小眾語言的訓練數據，保持了多語言嵌入空間的兼容性，避免從頭開始重新訓練整個模型。

其三，是將一個人工翻譯的評估基準：FLORES的覆蓋范圍擴大2倍，來評估每一種語言的翻譯質量。雖然自動評分是推動該研究的重要工具，但人工評價對于翻譯質量的評估也是必不可少的。

通過整合AI自動評分和人工評估，能夠廣泛量化翻譯水平，便于提升整理的翻譯質量。

為了讓更多程序員和工程師們能夠使用或完善NLLB，Meta開放了所有的評估基準（FLORES-200、NLLB-MD、Toxicity-200）、LID模型和訓練代碼，以及最終的NLLB-200模型和其小型提煉版本等。

Meta AI已將這些內容開源，就在fariseq倉庫里面，感興趣的小伙伴們可以去看看。

論文地址：
https://research.facebook.com/publications/no-language-left-behind/
開源地址：
https://github.com/facebookresearch/fairseq/tree/nllb

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
536

瀏覽量
10311
機器翻譯

機器翻譯

+關注

關注
0

文章
139

瀏覽量
14922
數據集

數據集

+關注

關注
4

文章
1209

瀏覽量
24781

原文標題：機器翻譯做到頭了？Meta開源NLLB翻譯模型，支持200種語言互譯

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

神經機器翻譯的方法有哪些？

之間的翻譯，也就是通過只訓練一個模型就能夠支持在多個語言之間的翻譯。盡管目前最流行的Transformer

發表于 11-23 12:14

紫米電子推出ZMI旅行助手Z1，支持16種語言互譯，實現交流無障礙溝通

ZMI紫米旅行助手自帶的語音翻譯功能，可以支持中文和16種語言互譯，整合微軟人工智能翻譯和獵戶星

發表于 09-12 16:57 ?4701次閱讀

雙11霸榜硬貨全通路銷售冠軍訊飛翻譯機2.0神通何在

支持中文和全球33種語言的即時互譯，精準快速的翻譯功能，覆蓋各類全場景溝通需求；全新INMT翻譯

發表于 11-13 10:50 ?1789次閱讀

訊飛翻譯機2.0重磅升級，率先發布行業A.I.翻譯

國家出境需求第一，首發行業A.I.翻譯，首批上線醫療/金融/計算機三大行業A.I.翻譯官，解決專業領域翻譯難點；第二，語音翻譯從中文與33種

發表于 12-07 15:15 ?782次閱讀

小米米家翻譯機最新發布，4.1英寸屏+18種語言互譯

11月22日消息，今天小米發布了米家翻譯機，采用4.1英寸大屏，專利6麥克風陣列技術，支持18種語言互譯，售價1299元，將于11月26日1

發表于 11-22 16:43 ?5198次閱讀

谷歌翻譯新增五種語言支持全世界超7500萬人使用這五種語言

據外媒報道，在過去的4年時間里，Google沒有在谷歌翻譯中增加對新語言的支持。經過長時間的修整后，該家公司今日終于宣布，它將在谷歌翻譯中增加對五

發表于 02-27 17:20 ?3649次閱讀

微軟翻譯器新增五種印度語言的實時翻譯印度語言支持總數達到10種

微軟印度宣布，微軟翻譯器現在將提供古吉拉特語、馬拉地語、卡納達語、馬來語和旁遮普語五種語言的實時翻譯。微軟翻譯器允許用戶使用Windows、

發表于 04-17 10:29 ?3540次閱讀

Facebook的AI翻譯系統能翻譯100種語言！

質量的 100 分制中，該人工智能的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估，其準確率約為 90%。 Facebook 的研究人員在網上收集了 100

發表于 10-30 09:25 ?2942次閱讀

人工智能翻譯mRASP：可翻譯32種語言

利用計算機把一種自然語言轉變成另一種自然語言的過程就是機器翻譯。機器翻譯對于信息時代下海量信息

發表于 12-01 14:03 ?3256次閱讀

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該

發表于 01-17 14:29 ?980次閱讀

Meta發布開源大模型Code Llama 70B

近日，Meta宣布推出了一款新的開源大模型Code Llama 70B，這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型

發表于 01-31 09:24 ?994次閱讀

Meta發布CodeLlama70B開源大模型

Meta發布CodeLlama70B開源大模型 Meta發布了開源大模型CodeLlama70B

發表于 01-31 10:30 ?1452次閱讀

Meta推出最強開源模型Llama 3 要挑戰GPT

公司這次開源了Llama 3 8B與70B兩款不同規模的模型，開發者可以免費使用，而Meta公司還將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新

發表于 04-19 17:00 ?869次閱讀

高通支持Meta Llama 3大語言模型在驍龍旗艦平臺上實現終端側執行

高通和Meta合作優化Meta Llama 3大語言模型，支持在未來的驍龍旗艦平臺上實現終端側執行。

發表于 04-20 09:13 ?552次閱讀

Meta發布全新開源大模型Llama 3.1

科技巨頭Meta近期震撼發布了其最新的開源人工智能（AI）模型——Llama 3.1，這一舉措標志著Meta在AI領域的又一重大突破。Meta

發表于 07-24 18:25 ?1476次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

Meta開源NLLB翻譯模型，支持200種語言互譯

評論

神經機器翻譯的方法有哪些？

紫米電子推出ZMI旅行助手Z1，支持16種語言互譯，實現交流無障礙溝通

雙11霸榜硬貨全通路銷售冠軍訊飛翻譯機2.0神通何在

訊飛翻譯機2.0重磅升級，率先發布行業A.I.翻譯

小米米家翻譯機最新發布，4.1英寸屏+18種語言互譯

谷歌翻譯新增五種語言支持全世界超7500萬人使用這五種語言

微軟翻譯器新增五種印度語言的實時翻譯印度語言支持總數達到10種

Facebook的AI翻譯系統能翻譯100種語言！

人工智能翻譯mRASP：可翻譯32種語言

支持Python和Java的BigCode開源輕量級語言模型

Meta發布開源大模型Code Llama 70B

Meta發布CodeLlama70B開源大模型

Meta推出最強開源模型Llama 3 要挑戰GPT

高通支持Meta Llama 3大語言模型在驍龍旗艦平臺上實現終端側執行

Meta發布全新開源大模型Llama 3.1