在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于標簽數據提升語法錯誤糾正效果

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-09-23 15:44 ? 次閱讀

語法錯誤糾正 (GEC) 指的是試圖對語法和其他類型的寫作錯誤進行建模,并給出語法和拼寫建議,從而改善文檔、電子郵件、文章甚至非正式聊天中的書面輸出質量。在過去 15 年里,GEC 的質量有了很大提高,其中很大一部分原因是它將問題重塑為一項“翻譯”任務。例如,將這種方法引入 Google 文檔后,用戶采納的語法糾正建議數量顯著增加。

將問題重塑為一項“翻譯”任務

https://aclanthology.org/P06-1032/

但是,GEC 模型面臨的最大挑戰之一是數據稀少。不同于其他語音識別 (Speech recognition) 和機器翻譯 (Machine translation) 等自然語言處理 (NLP) 任務,即便是針對英語這樣的高資源語言,GEC 可用的訓練數據非常有限。對于這類問題,一個常見的補救措施是使用一系列技術來生成合成數據,其中包括啟發式隨機詞或字符級的損壞,以及基于模型的方法。然而,這些方法往往是簡化的,不能反映實際用戶錯誤類型的真實分布。

在 EACL 第 16 屆創新使用 NLP 構建教育應用研討會上發表的《使用有標簽損壞模型進行語法錯誤糾正的合成數據生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我們介紹了有標簽損壞模型。這種方法受到機器翻譯中流行的回譯數據合成技術啟發,能夠精確控制合成數據的生成,確保產生與實踐中錯誤分布更加一致的多樣化輸出。我們使用有標簽損壞模型來生成一個新的數據集(包含 2 億個句子)。目前這個數據集應發布,可供研究人員提供真實的 GEC 預訓練數據。通過將新的數據集整合到訓練流水線,我們能夠顯著改善 GEC 的基線。

使用有標簽損壞模型進行語法錯誤糾正的合成數據生成

https://aclanthology.org/2021.bea-1.4/

回譯

https://aclanthology.org/P16-1009/

數據集(包含 2 億個句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有標簽損壞模型

將傳統的損壞模型應用于 GEC,其背后的理念是,從一個語法正確的句子開始,然后通過添加錯誤“損壞”它。通過在現有 GEC 數據集中切換源句和目標句,可以輕松地訓練出損壞模型,之前的研究已經表明,這種方法對生成改進的 GEC 數據集非常有效。

提供干凈的輸入句(綠色)后,傳統損壞模型會生成一個不符合語法的句子(紅色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我們提出的有標簽損壞模型建立在這一理念的基礎之上,它將一個干凈的句子作為輸入,加上一個錯誤類型標簽,描述所要重現的錯誤類型。然后,它為輸入句生成一個包含指定錯誤類型的語法錯誤版本。與傳統的損壞模型相比,為不同句子選擇不同的錯誤類型增加了損壞的多樣性。

有標簽損壞模型會根據錯誤類型標簽,為干凈的輸入句(綠色)生成損壞(紅色)。限定詞錯誤可能會導致丟失限定詞 “a”,而名詞屈折變化錯誤可能導致錯誤的復數形式 “sheeps”

為使用此模型生成數據,我們首先從 C4 語料庫中隨機選擇了 2 億個干凈的句子,并為每個句子分配了一個錯誤類型標簽,令其相對頻率與小型開發集 BEA-dev 的錯誤類型標簽分布相匹配。由于 BEA-dev 是一個精心制作的集合,涵蓋各種英語水平,范圍很廣,我們預計其標簽分布能夠代表現實中出現的寫作錯誤。然后,我們用一個有標簽損壞模型來合成源句。

使用有標簽損壞模型生成合成數據。在合成的 GEC 訓練語料庫中,干凈的 C4 句子(綠色)與損壞的句子(紅色)配對。遵循開發集(條形圖)中錯誤類型的頻率,使用有標簽損壞模型生成損壞的句子

C4 語料庫

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

結果

在我們的實驗中,有標簽損壞模型在兩個標準開發集(CoNLL-13 和 BEA-dev)上表現優于無標簽損壞模型,比后者高出三個 F0.5-點(GEC 研究中的一個標準指標,結合了精確率和召回率 (Precision and recall),更注重精確率),并在兩個廣泛使用的學術測試集(CoNLL-14 和 BEA-test)上體現了最先進的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

標準指標

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有標簽損壞模型不僅能在標準的 GEC 測試集上獲得收益,還能夠讓 GEC 系統適應用戶的語言水平。這一點會十分有用,原因之一是英語母語寫作者的錯誤標簽分布往往與非英語母語寫作者的分布有很大不同。例如,英語母語者通常會犯更多標點符號和拼寫錯誤,而限定詞錯誤(例如缺少或多加冠詞,如 “a”、“an” 或 “the”)在非英語母語寫作者的文本中更為常見。

結論

眾所周知,神經序列模型對數據的需求非常大,但用于語法錯誤糾正的注釋訓練數據卻很少。新的 C4_200M 語料庫是一個包含各種語法錯誤的合成數據集,用于預訓練 GEC 系統時,它體現出了最先進的性能。通過發布該數據集,我們希望為 GEC 研究人員提供寶貴的資源來訓練強大的基線系統。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7119

    瀏覽量

    89346
  • 模型
    +關注

    關注

    1

    文章

    3287

    瀏覽量

    49018
收藏 人收藏

    評論

    相關推薦

    常見xgboost錯誤及解決方案

    的XGBoost錯誤及其解決方案: 1. 數據預處理錯誤 錯誤 :未對數據進行適當的預處理,如缺失值處理、特征編碼、特征縮放等。 解決方案
    的頭像 發表于 01-19 11:22 ?326次閱讀

    SSM開發中的常見問題及解決方案

    : 配置文件存在錯誤,如語法錯誤、路徑錯誤或格式錯誤,導致軟件系統無法正常運行。 解決方案 : 仔細檢查配置文件的語法、路徑和格式,確保其
    的頭像 發表于 12-17 09:16 ?520次閱讀

    電子電器氣密性檢測儀使用方法:操作中的常見錯誤糾正

    電子電器氣密性檢測儀是確保產品質量的關鍵設備,但在使用過程中,操作人員常犯一些錯誤,導致測試結果不準確或儀器損壞。以下是一些常見的操作錯誤及其糾正方法,旨在幫助操作人員正確使用氣密性檢測儀。常見
    的頭像 發表于 11-29 11:20 ?234次閱讀
    電子電器氣密性檢測儀使用方法:操作中的常見<b class='flag-5'>錯誤</b>與<b class='flag-5'>糾正</b>

    LLM在數據分析中的作用

    分析的游戲規則。 1. 數據預處理 數據預處理是數據分析的第一步,也是至關重要的一步。LLM在這一階段可以發揮重要作用。 文本清洗 :LLM可以幫助識別和糾正文本數據中的拼寫
    的頭像 發表于 11-19 15:35 ?380次閱讀

    SQL錯誤代碼及解決方案

    在SQL數據庫開發和管理中,常見的錯誤代碼及其解決方案可以歸納如下: 一、語法錯誤(Syntax Errors) 錯誤代碼 :無特定代碼,但通常會在
    的頭像 發表于 11-19 10:21 ?2559次閱讀

    SUMIF函數常見錯誤及解決方案

    SUMIF函數是Excel中一個非常實用的函數,用于根據給定條件對數據進行求和。然而,在使用過程中,用戶可能會遇到一些常見錯誤。 1. 錯誤:范圍不正確 錯誤描述: 用戶可能沒有正確設
    的頭像 發表于 11-11 09:10 ?2029次閱讀

    抗金屬RFID標簽如何提升資產管理效率

    抗金屬RFID標簽解決金屬環境下RFID信號干擾問題,提升資產管理效率,實現快速盤點和位置跟蹤,耐用性強,適合惡劣環境,助力企業數字化轉型,實現資產全生命周期管理。
    的頭像 發表于 09-14 16:32 ?320次閱讀

    服務器錯誤是怎么回事?常見錯誤原因及解決方法匯總

    服務器錯誤是怎么回事?最常見的原因分有六個,分別是:硬件問題、軟件問題、網絡問題、資源耗盡、數據庫、文件權限問題。可以根據以下具體錯誤原因進行辨別,并選擇適合的解決方法。關于常見服務器
    的頭像 發表于 08-12 10:11 ?1580次閱讀

    TINA-TI導入spice模型失敗,提示語法元素錯誤是哪里出了問題?

    在使用TINA-TI 導入器件的Spice模型時,提示錯誤語法元素錯誤,不能導入器件,其spice內容如下:煩請知道,非常感謝! * DRB501VM-40 D model * PKG: UMD2
    發表于 08-09 07:51

    請問OPA855在ads里如何仿真?

    我按照ads導入Netlist的方法導入了OPA855的PSpice模型,但是運行仿真提示語法錯誤,請問怎么解決?
    發表于 08-05 07:56

    rfid標簽具有哪些顯著的優點?

    ,需要人工操作,且對識別角度和距離有一定要求。而RFID標簽通過無線電波進行通信,無需人工干預,即可實現遠距離、快速、準確的識別。這種非接觸式識別方式不僅提高了工作效率,還降低了因人為因素導致的識別錯誤率。 其次,RFID標簽
    的頭像 發表于 07-09 10:30 ?609次閱讀

    如何在esp-idf的開發環境中編譯外部應用工程?

    ,所以有什么辦法能讓esp-idf的Makefile在make時調用外部工程的Makefile嗎? 我嘗試了在esp-idf根目錄下的Makefile的最后添加外部工程Makefile的內容,但在編譯時,外部工程(故意有語法錯誤) 感覺并沒有被編譯(沒有報語法錯誤)。
    發表于 06-21 10:42

    Aurix Development Studio來構建Autosar MCAL FW,構建\"IfxGtm_reg.h\" 時總是出錯怎么解決?

    我使用 Aurix Development Studio 來構建 Autosar MCAL FW,在構建\"IfxGtm_reg.h\" 時總是出錯。 \"- 語法錯誤
    發表于 05-29 07:34

    HarmonyOS開發案例:【待辦列表】

    使用ArkTS聲明式語法和基礎組件,實現簡易待辦列表。效果為點擊某一事項,替換標簽圖片、虛化文字。
    的頭像 發表于 05-06 15:22 ?1137次閱讀
    HarmonyOS開發案例:【待辦列表】

    基于糾正措施系統(FRACAS)的關鍵技術

    故障報告,分析和糾正措施系統是一種系統的方法,用于從一個或多個來源收集失效數據,針對根本原因對數據進行匯編和分析以及識別糾正措施。
    的頭像 發表于 02-20 10:34 ?1762次閱讀
    主站蜘蛛池模板: 下农村女人一级毛片| 婷婷综合激情网| 国内自拍欧美| 68日本xxxxxxxxx777| 黄色国产| 日本免费在线一区| 中文字幕在线播放不卡| 国产主播在线看| 美女中出视频| 国产精品视频色拍拍| 182福利视频| 天天操狠狠操| 国产精品国产午夜免费福利看| jiucao在线观看精品| 公开免费视频| 美女又黄又www| 欧美性狂猛bbbbbbxxxx| 中文字幕区| 欧美卡一卡二卡新区网站| 窝窝午夜在线观看免费观看 | 婷婷丁香激情| 亲女乱h文小兰第一次| 久久久免费视频观看| www.妖精视频| 欧美射射射| h网址在线观看| 中文字幕在线天堂| 三浦理惠子中文在| 黄 色 免 费 网站在线观看| 午夜性福| 日本xxxx69| h视频免费| 亚洲综合成人网在线观看| 日本黄色网页| 成人国产日本亚洲精品| 毛片福利| 亚洲免费视频一区| 国语自产免费精品视频一区二区| 亚洲成人伊人网| 久久精品高清| 男女啪视频大全1000|