寫(xiě)在前面
今天給大家?guī)?lái)一篇事件抽取數(shù)據(jù)增強(qiáng)方法,全名為《Mask-then-Fill: A Flexible and Effective Data Augmentation Framework for Event Extraction》,即一種靈活有效的事件抽取數(shù)據(jù)增強(qiáng)框架-Mask-then-Fill。
介紹
事件抽取,即從非機(jī)構(gòu)化文本中抽取指定的事件的觸發(fā)詞及其事件要素,為了減輕人工標(biāo)注,常采用數(shù)據(jù)增強(qiáng)方法,對(duì)原有數(shù)據(jù)進(jìn)行擴(kuò)充,在有限的數(shù)據(jù)內(nèi),盡可能提高模型的效果及泛化性。目前,自然語(yǔ)言處理的數(shù)據(jù)增強(qiáng)方法主要分為兩類(lèi):(1)修改原有訓(xùn)練數(shù)據(jù)樣本;(2)生成+采樣。而事件抽取任務(wù)需要在保持事件結(jié)構(gòu)(觸發(fā)器和參數(shù))不變的情況下增加訓(xùn)練數(shù)據(jù),因此“生成+采樣”的方法并不適用,本論文主要采用“修改原有訓(xùn)練數(shù)據(jù)樣本”方法進(jìn)行數(shù)據(jù)增強(qiáng)。
如圖1所示,現(xiàn)有對(duì)事件抽取進(jìn)行數(shù)據(jù)增強(qiáng)的方法主要包括:(1)回譯;(2)同義詞替換;(3)BERT換詞。但,同義詞替換和回譯方法缺乏語(yǔ)義多樣性,只能生成語(yǔ)義相似的樣本;而基于BERT的方法只能替換單詞,不能改變語(yǔ)法,不能生成包含各種表達(dá)式的樣本。
為了解決數(shù)據(jù)增強(qiáng)多樣性的問(wèn)題,該論文提出了“掩碼-填充”方法,在保持原事件結(jié)構(gòu)不變的情況下生成更多樣化的數(shù)據(jù)。首先定義兩種類(lèi)型文本片段:(1)事件相關(guān)片段(觸發(fā)詞和事件要素);(2)附加片段。然后隨機(jī)掩碼一個(gè)附件片段,最后采用微調(diào)后的T5模型進(jìn)行文本填充。
并且引入親和度(Affinity)和多樣性(Diversity)兩個(gè)指標(biāo)進(jìn)行進(jìn)一步研究,發(fā)現(xiàn)Mask-then-Fill方法增強(qiáng)的數(shù)據(jù)具有更好的多樣性和更少的分布變化,在多樣性和分布相似性之間實(shí)現(xiàn)了良好的平衡。
Mask-then-Fill Framework
掩碼-填充框架如圖2所示,文本主要包括事件相關(guān)片段(帶顏色內(nèi)容)和附加片段(帶下劃線內(nèi)容),框架的核心是在不引入新的事件前提下,重寫(xiě)整個(gè)附屬片段。
Experimental Setup
采用ACE2005數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),從訓(xùn)練集中隨機(jī)抽取1000、4000和8000個(gè)樣本來(lái)模擬低資源設(shè)置,創(chuàng)建小型、中型和大型訓(xùn)練集。并在數(shù)據(jù)增強(qiáng)時(shí),僅對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),開(kāi)發(fā)集和測(cè)試集保持不變。
在Text2Event模型和Text2Event模型兩個(gè)具有代表性的事件抽取模型上進(jìn)行實(shí)驗(yàn),并對(duì)比與同義詞替換、回譯、BERT模型三種數(shù)據(jù)增強(qiáng)方法之間的差異。
Results and Analysis
如表1所示,整體上Mask-then-Fill方法最優(yōu)。
從表2可以看出,我Mask-then-Fill方法增強(qiáng)的數(shù)據(jù)具有更好的多樣性和更少的分布偏移,在多樣性和分布相似性之間取得了平衡。
圖3展示了由不同的數(shù)據(jù)增強(qiáng)方法生成的示例。
總結(jié)
該框架的主要優(yōu)點(diǎn)在于可以將文本中任意長(zhǎng)度的片段替換為可變長(zhǎng)度的片段,而現(xiàn)有的方法只能替換單個(gè)單詞或固定長(zhǎng)度的片段。
審核編輯:劉清
-
J-BERT
+關(guān)注
關(guān)注
0文章
5瀏覽量
7795 -
觸發(fā)器
+關(guān)注
關(guān)注
14文章
2000瀏覽量
61222 -
ACE
+關(guān)注
關(guān)注
0文章
21瀏覽量
10672 -
Fill
+關(guān)注
關(guān)注
0文章
4瀏覽量
2892
原文標(biāo)題:事件抽取數(shù)據(jù)增強(qiáng)方法-Mask-then-Fill
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論