在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于機器翻譯增加的跨語言機器閱讀理解算法

OSC開源社區(qū) ? 來源:OSCHINA 社區(qū) ? 2023-12-12 10:28 ? 次閱讀

作者:阿里云云棲號

鏈接:https://my.oschina.net/yunqi/blog/10319964

近日,阿里云人工智能平臺 PAI 與華南理工大學(xué)朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議 EMNLP2023 上發(fā)表基于機器翻譯增加的跨語言機器閱讀理解算法 X-STA。通過利用一個注意力機制的教師來將源語言的答案轉(zhuǎn)移到目標(biāo)語言的答案輸出空間,從而進行深度級別的輔助以增強跨語言傳輸能力。同時,提出了一種改進的交叉注意力塊,稱為梯度解纏知識共享技術(shù)。此外,通過多個層次學(xué)習(xí)語義對齊,并利用教師指導(dǎo)來校準(zhǔn)模型輸出,增強跨語言傳輸性能。實驗結(jié)果顯示,我們的方法在三個多語言 MRC 數(shù)據(jù)集上表現(xiàn)出色,優(yōu)于現(xiàn)有的最先進方法。

背景

大規(guī)模預(yù)訓(xùn)練語言模型的廣泛應(yīng)用,促進了 NLP 各個下游任務(wù)準(zhǔn)確度大幅提升,然而,傳統(tǒng)的自然語言理解任務(wù)通常需要大量的標(biāo)注數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練語言模型。但低資源語言缺乏標(biāo)注數(shù)據(jù)集,難以獲取。大部分現(xiàn)有的 MRC 數(shù)據(jù)集都是英文的,這對于其他語言來說是一個困難。其次,不同語言之間存在語言和文化的差異,表現(xiàn)為不同的句子結(jié)構(gòu)、詞序和形態(tài)特征。例如,日語、中文、印地語和阿拉伯語等語言具有不同的文字系統(tǒng)和更復(fù)雜的語法系統(tǒng),這使得 MRC 模型難以理解這些語言的文本。

為了解決這些挑戰(zhàn),現(xiàn)有文獻中通常采用基于機器翻譯的數(shù)據(jù)增強方法,將源語言的數(shù)據(jù)集翻譯成目標(biāo)語言進行模型訓(xùn)練。然而,在 MRC 任務(wù)中,由于翻譯導(dǎo)致的答案跨度偏移,無法直接使用源語言的輸出分布來教導(dǎo)目標(biāo)語言。

e745a39a-9816-11ee-8b88-92fbcf53809c.jpg

因此,本文提出了一種名為 X-STA 的跨語言 MRC 方法,遵循三個原則:共享、教導(dǎo)和對齊。共享方面,提出了梯度分解的知識共享技術(shù),通過使用平行語言對作為模型輸入,從源語言中提取知識,增強對目標(biāo)語言的理解,同時避免源語言表示的退化。教導(dǎo)方面,本方法利用注意機制,在目標(biāo)語言的上下文中尋找與源語言輸出答案語義相似的答案跨度,用于校準(zhǔn)輸出答案。對齊方面,多層次的對齊被利用來進一步增強 MRC 模型的跨語言傳遞能力。通過知識共享、教導(dǎo)和多層次對齊,本方法可以增強模型對不同語言的語言理解能力。

算法概述

X-STA 模型框架圖如下所示:

e749d762-9816-11ee-8b88-92fbcf53809c.jpg

e75a1514-9816-11ee-8b88-92fbcf53809c.jpg

具體流程如下:

先將源語言的目標(biāo)數(shù)據(jù)翻譯到各個目標(biāo)語言,目標(biāo)語言的測試數(shù)據(jù)也翻譯回源語言。

每項數(shù)據(jù)包含問題 Q 和上下文段落 C。

構(gòu)建并行語言對 ={源語言訓(xùn)練數(shù)據(jù),目標(biāo)語言訓(xùn)練數(shù)據(jù)} 送入模型并使用反向傳播進行模型訓(xùn)練。

將并行語言對 ={源語言測試數(shù)據(jù),目標(biāo)語言測試數(shù)據(jù)} 送入模型獲取答案的預(yù)測。

算法精度評測

為了驗證 X-STA 算法的有效性,我們在三個跨語言 MRC 數(shù)據(jù)集上進行了測試,效果證明 X-STA 對精度提升明顯:

e76a67de-9816-11ee-8b88-92fbcf53809c.jpg

我們也對算法的模塊進行了詳細(xì)有效性分析,我們可以發(fā)現(xiàn)各模塊均對模型有一定貢獻。

e76de5c6-9816-11ee-8b88-92fbcf53809c.jpg

為了更好地服務(wù)開源社區(qū),這一算法的源代碼即將貢獻在自然語言處理算法框架 EasyNLP 中,歡迎 NLP 從業(yè)人員和研究者使用。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4612

    瀏覽量

    92891
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47279

    瀏覽量

    238497
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24701
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    956

    瀏覽量

    43039
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    618

    瀏覽量

    13561

原文標(biāo)題:基于知識遷移的跨語言機器閱讀理解算法

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器翻譯三大核心技術(shù)原理 | AI知識科普

    、雞同鴨講,這一點機器翻譯還是可以做到的!01機器翻譯和巴別塔的傳說《圣經(jīng)》中記載了這樣一個故事:人類曾經(jīng)聯(lián)合起來興建能通往天堂的高塔——巴別塔,為了阻止人類的計劃,上帝讓人類說不同的語言,使人類
    發(fā)表于 07-06 10:30

    機器翻譯三大核心技術(shù)原理 | AI知識科普 2

    了額外的機制——注意力機制,來幫助我們進行調(diào)序。下面我們用一張示意圖來看一下,基于RNN的神經(jīng)機器翻譯的流程:首先我們通過分詞得到輸入源語言詞序列,接下來每個詞都用一個詞向量進行表示,得到相應(yīng)的詞向量序列
    發(fā)表于 07-06 10:46

    神經(jīng)機器翻譯的方法有哪些?

    目前,神經(jīng)機器翻譯(NMT)已經(jīng)成為在學(xué)術(shù)界和工業(yè)界最先進的機器翻譯方法。最初的這種基于編碼器-解碼器架構(gòu)的機器翻譯系統(tǒng)都針對單個語言對進行翻譯
    發(fā)表于 11-23 12:14

    阿里巴巴機器翻譯在跨境電商場景下的應(yīng)用和實踐

    摘要: ?本文將與大家分享機器翻譯相關(guān)背景知識,再深入介紹機器翻譯在阿里生態(tài)中的具體應(yīng)用實踐,介紹基于機器翻譯技術(shù)搭建的一套完善的電商多語言解決方案,最后將會從技術(shù)角度介紹阿里
    發(fā)表于 07-31 17:22 ?422次閱讀
    阿里巴巴<b class='flag-5'>機器翻譯</b>在跨境電商場景下的應(yīng)用和實踐

    換個角度來聊機器翻譯

    同時期國內(nèi)科技企業(yè)在機器翻譯上的進展也非常迅速,以語音和語義理解見長的科大訊飛在2014年國際口語翻譯大賽IWSLT上獲得中英和英中兩個翻譯方向的全球第一名,在2015年又在由美國國家
    的頭像 發(fā)表于 04-24 13:55 ?3493次閱讀
    換個角度來聊<b class='flag-5'>機器翻譯</b>

    科大訊飛機器翻譯首次達到專業(yè)譯員水平 機器閱讀超越人類平均水平

    機器翻譯首次達到專業(yè)譯員水平。去年11月,科大訊飛機器翻譯系統(tǒng)參加CATTI全國翻譯專業(yè)資格(水平)科研測試,達到英語二級《口譯實務(wù)(交替?zhèn)髯g類)》和三級《口譯實務(wù)》合格標(biāo)準(zhǔn),二級是專業(yè)譯員水平
    的頭像 發(fā)表于 05-24 08:41 ?8324次閱讀

    機器翻譯走紅的背后是什么

    未來需要新的算法和語義層面的綜合性突破,促進機器翻譯產(chǎn)品的迭代和產(chǎn)業(yè)全面升級。
    發(fā)表于 07-14 10:02 ?1022次閱讀

    MIT和谷歌開發(fā)失傳語言機器翻譯系統(tǒng)

    注釋數(shù)據(jù)庫和讓機器從中學(xué)習(xí)的技術(shù)讓語言學(xué)習(xí)發(fā)生了革命性變化,這使得機器翻譯變得越來越普遍。
    發(fā)表于 07-17 10:56 ?625次閱讀

    未來機器翻譯會取代人工翻譯

    所謂機器翻譯,就是利用計算機將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)的過程。它是計算語言
    的頭像 發(fā)表于 12-29 10:12 ?5032次閱讀

    語言翻譯新范式的工作:機器翻譯界的BERT

    思想就是打造“機器翻譯界的BERT”,通過預(yù)訓(xùn)練技術(shù)再在具體語種上微調(diào)即可達到領(lǐng)先的翻譯效果,其在32個語種上預(yù)訓(xùn)練出的統(tǒng)一模型在47個翻譯測試集上取得了全面顯著的提升。 目錄 機器翻譯
    的頭像 發(fā)表于 03-31 17:24 ?2991次閱讀
    多<b class='flag-5'>語言</b><b class='flag-5'>翻譯</b>新范式的工作:<b class='flag-5'>機器翻譯</b>界的BERT

    基于短語的漢語維吾爾語機器翻譯系統(tǒng)

    ,對詞級粒度、詞干級粒度、最大詞干級粒度、詞干詞綴級粒度、詞干-詞尾級粒度的漢維平行語料庫進行對比實驗,研究不同粒度的維吾爾語對漢維機器翻譯中的詞語對齊質(zhì)量和語言模型質(zhì)量的影響。實驗結(jié)果表明,在上述5種粒度的維
    發(fā)表于 05-11 15:34 ?9次下載

    基于DNN與規(guī)則學(xué)習(xí)的機器翻譯算法綜述

    基于DNN與規(guī)則學(xué)習(xí)的機器翻譯算法綜述
    發(fā)表于 06-29 15:44 ?33次下載

    借助機器翻譯來生成偽視覺-目標(biāo)語言對進行語言遷移

    然而之前的基于機器翻譯的CCR工作大多忽略了這個問題,它們通常使用大規(guī)模的預(yù)訓(xùn)練模型在通過機器翻譯得到的大規(guī)模多語言視覺-語言語料庫上進行大規(guī)模預(yù)訓(xùn)練,并且只關(guān)注于視覺-目標(biāo)
    的頭像 發(fā)表于 10-14 14:59 ?865次閱讀

    語言模型的多語言機器翻譯能力分析

    以ChatGPT為代表的大語言模型(Large Language Models, LLM)在機器翻譯(Machine Translation, MT)任務(wù)上展現(xiàn)出了驚人的潛力。
    的頭像 發(fā)表于 05-17 09:56 ?2037次閱讀
    大<b class='flag-5'>語言</b>模型的多<b class='flag-5'>語言</b><b class='flag-5'>機器翻譯</b>能力分析

    機器翻譯研究進展

    機器翻譯使用計算機將一種語言翻譯成另一種語言,具有低成本、高效率和高翻譯質(zhì)量等優(yōu)勢,在語音翻譯
    的頭像 發(fā)表于 07-06 11:19 ?811次閱讀
    <b class='flag-5'>機器翻譯</b>研究進展
    主站蜘蛛池模板: 日本不卡一区二区三区视频| 伊人久久精品成人网| 亚洲男人精品| 中文字幕亚洲一区二区v@在线 | 色综网| 一区二区三区高清在线| 色视频在线观看网站| a级精品九九九大片免费看| 网站在线观看视频| bt在线搜索| a看片| 五月天激激婷婷大综合丁香| 国产经典一区| 香蕉成人999视频| 四虎影院大全| 亚洲精品综合网在线8050影院| 深夜视频在线| 国产成人亚洲毛片| 久久成人性色生活片| 亚洲爱爱图| 女主播扒开内衣让粉丝看个够| 牛牛精品| 黄页网站在线| 色综合久久中文字幕网| 午夜影院在线看| 国语自产免费精品视频一区二区 | 狠狠色狠色综合曰曰| 国产黄mmd在线观看免费| 婷婷丁香色综合狠狠色| 午夜在线观看网站| 老师受不了了好硬好大| 九色综合久久综合欧美97| 成年片色大黄全免费| 狠狠乱| 国产三级视频在线播放| 在线黄视频网站| 日本人亚洲人成人| 好吊色37pao在线观看| 四虎永久在线精品国产| 福利天堂| 亚洲欧洲第一页|