在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種靈活有效的事件抽取數(shù)據(jù)增強(qiáng)框架-Mask-then-Fill

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP工作站 ? 2023-02-08 13:54 ? 次閱讀

寫(xiě)在前面

今天給大家?guī)?lái)一篇事件抽取數(shù)據(jù)增強(qiáng)方法,全名為《Mask-then-Fill: A Flexible and Effective Data Augmentation Framework for Event Extraction》,即一種靈活有效的事件抽取數(shù)據(jù)增強(qiáng)框架-Mask-then-Fill。

介紹

事件抽取,即從非機(jī)構(gòu)化文本中抽取指定的事件的觸發(fā)詞及其事件要素,為了減輕人工標(biāo)注,常采用數(shù)據(jù)增強(qiáng)方法,對(duì)原有數(shù)據(jù)進(jìn)行擴(kuò)充,在有限的數(shù)據(jù)內(nèi),盡可能提高模型的效果及泛化性。目前,自然語(yǔ)言處理的數(shù)據(jù)增強(qiáng)方法主要分為兩類(lèi):(1)修改原有訓(xùn)練數(shù)據(jù)樣本;(2)生成+采樣。而事件抽取任務(wù)需要在保持事件結(jié)構(gòu)(觸發(fā)器和參數(shù))不變的情況下增加訓(xùn)練數(shù)據(jù),因此“生成+采樣”的方法并不適用,本論文主要采用“修改原有訓(xùn)練數(shù)據(jù)樣本”方法進(jìn)行數(shù)據(jù)增強(qiáng)。

3033a324-a76b-11ed-bfe3-dac502259ad0.png

如圖1所示,現(xiàn)有對(duì)事件抽取進(jìn)行數(shù)據(jù)增強(qiáng)的方法主要包括:(1)回譯;(2)同義詞替換;(3)BERT換詞。但,同義詞替換和回譯方法缺乏語(yǔ)義多樣性,只能生成語(yǔ)義相似的樣本;而基于BERT的方法只能替換單詞,不能改變語(yǔ)法,不能生成包含各種表達(dá)式的樣本。

為了解決數(shù)據(jù)增強(qiáng)多樣性的問(wèn)題,該論文提出了“掩碼-填充”方法,在保持原事件結(jié)構(gòu)不變的情況下生成更多樣化的數(shù)據(jù)。首先定義兩種類(lèi)型文本片段:(1)事件相關(guān)片段(觸發(fā)詞和事件要素);(2)附加片段。然后隨機(jī)掩碼一個(gè)附件片段,最后采用微調(diào)后的T5模型進(jìn)行文本填充。

并且引入親和度(Affinity)和多樣性(Diversity)兩個(gè)指標(biāo)進(jìn)行進(jìn)一步研究,發(fā)現(xiàn)Mask-then-Fill方法增強(qiáng)的數(shù)據(jù)具有更好的多樣性和更少的分布變化,在多樣性和分布相似性之間實(shí)現(xiàn)了良好的平衡。

Mask-then-Fill Framework

掩碼-填充框架如圖2所示,文本主要包括事件相關(guān)片段(帶顏色內(nèi)容)和附加片段(帶下劃線內(nèi)容),框架的核心是在不引入新的事件前提下,重寫(xiě)整個(gè)附屬片段。

307220ae-a76b-11ed-bfe3-dac502259ad0.png

pYYBAGPjOXOADRWCAAHj4fhtt_8267.jpg

Experimental Setup

采用ACE2005數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),從訓(xùn)練集中隨機(jī)抽取1000、4000和8000個(gè)樣本來(lái)模擬低資源設(shè)置,創(chuàng)建小型、中型和大型訓(xùn)練集。并在數(shù)據(jù)增強(qiáng)時(shí),僅對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),開(kāi)發(fā)集和測(cè)試集保持不變。

Text2Event模型和Text2Event模型兩個(gè)具有代表性的事件抽取模型上進(jìn)行實(shí)驗(yàn),并對(duì)比與同義詞替換、回譯、BERT模型三種數(shù)據(jù)增強(qiáng)方法之間的差異。

Results and Analysis

如表1所示,整體上Mask-then-Fill方法最優(yōu)。308fd6da-a76b-11ed-bfe3-dac502259ad0.png

從表2可以看出,我Mask-then-Fill方法增強(qiáng)的數(shù)據(jù)具有更好的多樣性和更少的分布偏移,在多樣性和分布相似性之間取得了平衡。

30ad54da-a76b-11ed-bfe3-dac502259ad0.png

圖3展示了由不同的數(shù)據(jù)增強(qiáng)方法生成的示例。

30c3ed8a-a76b-11ed-bfe3-dac502259ad0.png

總結(jié)

該框架的主要優(yōu)點(diǎn)在于可以將文本中任意長(zhǎng)度的片段替換為可變長(zhǎng)度的片段,而現(xiàn)有的方法只能替換單個(gè)單詞或固定長(zhǎng)度的片段。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • J-BERT
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    7795
  • 觸發(fā)器
    +關(guān)注

    關(guān)注

    14

    文章

    2000

    瀏覽量

    61222
  • ACE
    ACE
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    10672
  • Fill
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2892

原文標(biāo)題:事件抽取數(shù)據(jù)增強(qiáng)方法-Mask-then-Fill

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    CIC抽取濾波器MATLAB仿真和FPGA實(shí)現(xiàn)

    文章主要講CIC理論基礎(chǔ),下個(gè)文章講FPGA實(shí)現(xiàn)。級(jí)聯(lián)積分梳狀濾波器又稱(chēng)CIC。這是多速率信號(hào)處理中一種結(jié)構(gòu)簡(jiǎn)單的濾波器,只需要加法器和寄存器即可實(shí)現(xiàn),可以靈活的設(shè)置抽取因子和插值因子,并且CIC是
    發(fā)表于 08-17 08:27

    怎樣去設(shè)計(jì)一種CIC抽取濾波器并對(duì)其進(jìn)行MATLAB仿真呢

    為什么要設(shè)計(jì)一種理想濾波器呢?CIC抽取濾波器是由哪些部分組成的?怎樣去設(shè)計(jì)一種CIC抽取濾波器并對(duì)其進(jìn)行MATLAB仿真呢?
    發(fā)表于 11-19 07:29

    如何去實(shí)現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計(jì)呢

    ThreadX內(nèi)核模板框架是怎樣去設(shè)計(jì)的?如何去實(shí)現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計(jì)呢?
    發(fā)表于 11-29 07:08

    怎樣去建立一種IIC數(shù)據(jù)采集USART串口通信框架

    I2C串行總線的硬件結(jié)構(gòu)是怎樣構(gòu)成的?怎樣去建立一種IIC數(shù)據(jù)采集USART串口通信框架呢?
    發(fā)表于 12-10 07:19

    一種較通用的界面切換框架分享,絕對(duì)實(shí)用

    一種較通用的界面切換框架分享,絕對(duì)實(shí)用
    發(fā)表于 12-27 06:02

    一種基于復(fù)用組件的WEB測(cè)控軟件框架設(shè)計(jì)

    運(yùn)用組件復(fù)用的思想,結(jié)合XML技術(shù),設(shè)計(jì)開(kāi)發(fā)了一種基于可復(fù)用的組件庫(kù)的Web測(cè)控軟件框架。通過(guò)使用該軟件框架中提供的豐富的組件庫(kù)和靈活的插件管理機(jī)制,大大地降低了基于WE
    發(fā)表于 06-06 14:51 ?17次下載

    一種基于XML的可復(fù)用Web圖表框架

    軟件復(fù)用是提高軟件開(kāi)發(fā)效率及產(chǎn)品質(zhì)量的條行之有效的途徑。本文采用工廠方法和迭代器設(shè)計(jì)模式設(shè)計(jì)了一種基于XML和JFreeChart的可復(fù)用Web圖表框架。該
    發(fā)表于 03-01 15:47 ?17次下載

    有限狀態(tài)機(jī)的一種實(shí)現(xiàn)框架

    通過(guò)引入良好的數(shù)據(jù)結(jié)構(gòu)和事件觸發(fā)機(jī)制提出了一種面向?qū)ο蟮母叨冉Y(jié)構(gòu)化的FSM 實(shí)現(xiàn)框架 并給出了事件觸發(fā)轉(zhuǎn)換的調(diào)度算法。新框架清晰地表達(dá)了FSM中的所有主要元素及它們之間的關(guān)系 并將行為
    發(fā)表于 03-22 15:24 ?1次下載

    一種基于時(shí)鐘抽取偏置電壓技術(shù)的存儲(chǔ)器位線_楊澤重

    一種基于時(shí)鐘抽取偏置電壓技術(shù)的存儲(chǔ)器位線_楊澤重
    發(fā)表于 01-07 21:45 ?0次下載

    一種成分取證的理論分析模式的分類(lèi)框架

    一種成分取證的理論分析模式的分類(lèi)框架
    發(fā)表于 03-20 11:04 ?0次下載

    一種新的DSA圖像增強(qiáng)算法

    DSA是一種重要的醫(yī)學(xué)診斷和介入治療的技術(shù),DSA圖像質(zhì)量對(duì)于醫(yī)生確定病情具有重要意義。現(xiàn)提出了一種新的DSA圖像增強(qiáng)算法來(lái)提高DSA圖像的質(zhì)量,即對(duì)圖像進(jìn)行前期去噪,后期增強(qiáng)的方法。
    發(fā)表于 11-15 15:50 ?22次下載
    <b class='flag-5'>一種</b>新的DSA圖像<b class='flag-5'>增強(qiáng)</b>算法

    一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法

    ? 本文首先介紹傳統(tǒng)的數(shù)據(jù)增強(qiáng)在NER任務(wù)中的表現(xiàn),然后介紹一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法,這種方法生成的
    的頭像 發(fā)表于 01-18 16:28 ?3117次閱讀

    一種基于框架特征的共指消解方法

    基于框架語(yǔ)義的推理是實(shí)現(xiàn)語(yǔ)篇理解、冋答系統(tǒng)等任務(wù)中語(yǔ)義理解的一種有效手段,框架語(yǔ)乂推理通過(guò)構(gòu)建漢語(yǔ)篇章句子框架之間的聯(lián)系尋找推理路徑,但
    發(fā)表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種用于交通流預(yù)測(cè)的深度學(xué)習(xí)框架

    學(xué)習(xí)框架方面,針對(duì)道路網(wǎng)絡(luò)非歐氏的空間關(guān)聯(lián)以及交通流時(shí)序數(shù)據(jù)的時(shí)間關(guān)聯(lián),設(shè)計(jì)了一種融合圖卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特征抽取子網(wǎng)絡(luò);另
    發(fā)表于 04-14 15:54 ?3次下載
    <b class='flag-5'>一種</b>用于交通流預(yù)測(cè)的深度學(xué)習(xí)<b class='flag-5'>框架</b>

    StarRC教程-如何基于Dummy/Metal Fill GDS抽取寄生RC文件

    Metal Fill或者說(shuō)Dummy Metal對(duì)Timing是有影響的,在比較老的工藝、規(guī)模比較小的Design中影響是比較小的,甚至不考慮它們對(duì)于Timing的影響去流片也不是說(shuō)定不行(當(dāng)然
    的頭像 發(fā)表于 12-08 10:00 ?6823次閱讀
    主站蜘蛛池模板: 欧美日韩无| 日本高清视频色wwwwww色| 色欧美视频| 天堂在线国产| 视频黄色免费| 欧美城天堂网| 国产小毛片| 一级黄色录像毛片| 奇米成人影视| a级午夜毛片免费一区二区| 免费看黄色片网站| 不卡一区在线观看| 天堂中文在线资源| 女毛片| 国产高清一区二区三区| 午夜影院入口| 国产美女亚洲精品久久久综合| 日本videosgratis教师69| 亚洲视频一区在线观看| 伊人久久综合成人亚洲| 日韩美女拍拍免费视频网站| 黄www色| 天天操夜夜操视频| 99插插插| 激激婷婷综合五| 色老头成人免费综合视频| 国产午夜精品一区二区理论影院| 天天综合天天做| aa级毛片| 欧美成人影院| 91在线免费看| 午夜色视频在线观看| 免费国产网站| 午夜在线视频免费| 2021精品综合久久久久| 黄网站视频观看免费| 日韩乱轮| 在线观看视频高清视频| 操一操日一日| 综合色久| 老司机深夜影院入口aaaa|