寫在前面
本篇不具體談技術(shù),主要是匯總在事件抽取方向的相關(guān)廠商調(diào)研結(jié)果。
1. 事件抽取范疇、范式、技術(shù)棧
領(lǐng)域范疇:廠商無論是在特定領(lǐng)域(如:法律、金融),還是通用領(lǐng)域,廠商做的都是限定類型的事件抽取。
范式:除標(biāo)準(zhǔn)抽取外(即事件檢測和事件論元識(shí)別),還有:僅抽取觸發(fā)詞和論元;僅抽取事件類型和論元。在論元抽取上也各不相同,有的僅抽取主體,有的抽取通用屬性(如:時(shí)間/地點(diǎn),或者時(shí)間/地點(diǎn)/主體/客體)等。
技術(shù)棧:
預(yù)訓(xùn)練語言模型+(BiLSTM)+CRF
預(yù)訓(xùn)練語言模型+MRC
預(yù)訓(xùn)練語言模型+Biaffine
Bert+BiLSTM+Self-Attention+Pointer Network
預(yù)訓(xùn)練語言模型+指針結(jié)構(gòu)+CLN(ConditionalLayerNorm)等
2. 相關(guān)廠商匯總
2.1 華為云
領(lǐng)域范疇
華為云/自然語言處理服務(wù)接口說明/事件抽取[1]目前只支持金融公告中的會(huì)議召開、聘任、辭職、股票增持、股票減持5類事件以及相關(guān)要素的抽取。
范式(標(biāo)準(zhǔn)事件抽取)
包括事件檢測(觸發(fā)詞抽取事件類型判定) 事件論元識(shí)別(論元抽取論元角色判定)
技術(shù)棧
未找到直接描述,但找到了華為云作為CCKS 2020篇章事件要素抽取比賽冠軍的方案解析[2],但注意這個(gè)比賽不屬于標(biāo)準(zhǔn)的事件抽取。
上圖分別是他們的整體框架圖和子模型圖,他們將這個(gè)任務(wù)拆解了三個(gè)子任務(wù):事件類型預(yù)測,事件要素抽取,以及事件表格填充。
值得關(guān)注的是在論元提取(要素抽取)階段,除了CRF外,他們也嘗試了MRC(閱讀理解范式)、Biaffine。其中Biaffine思想來自論文Named Entity Recognition as Dependency Parsing[3]。
另外在最后表格填充時(shí),他們也采用了特殊處理。
2.2 百度
領(lǐng)域范疇
百度AI/知識(shí)圖譜/事件圖譜/事件屬性抽取[4]從資訊的標(biāo)題與正文中,抽取事件發(fā)生時(shí)間、地點(diǎn)、參與者、觸發(fā)詞等事件元素。應(yīng)該未限定領(lǐng)域范疇。
范式和技術(shù)棧
未找到直接描述,但可從其報(bào)告百度: 事件圖譜技術(shù)與應(yīng)用[5]分析:
通用屬性抽取針對(duì)時(shí)間、地點(diǎn)、參與者、觸發(fā)詞進(jìn)行抽取,采用的是實(shí)體識(shí)別常用的預(yù)訓(xùn)練語言模型(ERNIE)+BiLSTM+CRF;
自定義論元抽取采用MRC(閱讀理解)方式,將抽取轉(zhuǎn)換成問答形式,通過問題嵌入要抽取的目標(biāo),如某角色的論元,來解耦了模型與事件類型、角色類型的相關(guān)部分;
語義角色抽取和目前我實(shí)驗(yàn)所采用的范式一樣,都是層疊指針結(jié)構(gòu)。另外因?yàn)椴煌愋褪录懈髯缘恼撛巧绻拷5侥P椭校P蜁?huì)變得很復(fù)雜,所以百度將所有角色分門別類,如主體、客體等等(這里百度稱為語義角色),然后利用多層指針結(jié)構(gòu)同時(shí)抽取。
需要指出的是,通用屬性抽取的問題是無法靈活地泛化。MRC(閱讀理解方案)的問題則是效率,因?yàn)樾枰獙?duì)每一個(gè)角色都進(jìn)行單獨(dú)提問抽取。
2.3 科大訊飛
無,但科大訊飛有舉辦相關(guān)比賽,這里有一份參賽者的分享科大訊飛2020完整事件抽取系統(tǒng)[6]。
范式
非標(biāo)準(zhǔn)的事件抽取,任務(wù)包括:抽取觸發(fā)詞,主體/客體/時(shí)間/地點(diǎn),判定事件發(fā)生狀態(tài)的屬性,包括極性、時(shí)態(tài)。極性分為:肯定、否定、可能;時(shí)態(tài)分為:過去、現(xiàn)在、將來、其他。
技術(shù)棧(pipeline)
觸發(fā)詞抽取:Bert+指針結(jié)構(gòu);特征層面:利用遠(yuǎn)程監(jiān)督增加了已知的所有觸發(fā)詞的嵌入。
主體/客體/時(shí)間/地點(diǎn)抽取:Bert+conditionalLayerNorma+指針結(jié)構(gòu)。特征層面:trigger在文本中的位置、其他詞到trigger的位置。
2.4 深擎科技
在他們主頁上沒有找到相關(guān)接口,但是找到一篇他們分享的文章結(jié)合指針網(wǎng)絡(luò)的注意力機(jī)制(PAN模型)實(shí)現(xiàn)金融領(lǐng)域事件抽取[7]。這篇文章里主要提及了事件主體識(shí)別和事件類型判定:
事件類型判定:
金融事件的特征相對(duì)明顯,業(yè)務(wù)術(shù)語等很大程度上決定了分類的效果,他們直接采用Fasttext分類模型,在句子級(jí)的事件識(shí)別任務(wù)中達(dá)到了95.7%的準(zhǔn)確率。
事件主體識(shí)別:
采用了基于指針網(wǎng)絡(luò)帶注意力機(jī)制(PAN,Point Attention Network:Bert+BiLSTM+Self-Attention+Pointer Network)的事件主體識(shí)別模型,從文本中找出在事件中充當(dāng)?shù)闹黧w角色元素。
2.5 冪律智能
冪律智能-功能介紹
領(lǐng)域范疇
法律方向,分析對(duì)象主要為裁判文書、案件卷宗等法律描述文本
范式(非標(biāo)準(zhǔn)事件抽取)
主要抽取出獨(dú)立的包含時(shí)間、人物、地點(diǎn)、描述的子事件
技術(shù)棧
基于深度學(xué)習(xí)的序列標(biāo)注模型,從探測出的事件片段中預(yù)測出時(shí)間、地點(diǎn)、任務(wù)、描述信息
值得注意的是,他們還有一個(gè)時(shí)間線(類似于事件脈絡(luò)),主要是通過提取出的時(shí)間標(biāo)準(zhǔn)化比對(duì)。
冪律智能事件抽取展示頁面
2.6 云孚語義
有,而且已經(jīng)有了事件脈絡(luò)(原計(jì)劃將要做的,別人已經(jīng)有了),但是目前沒有看到云孚主頁[7]有演示接口,僅看到它的微信公眾號(hào)文章中的展示。
云孚語義-事件脈絡(luò)
3.總結(jié)
關(guān)于事件抽取方向的相關(guān)廠商調(diào)研內(nèi)容就到這里了,后續(xù)將會(huì)出事件抽取方向調(diào)研-技術(shù)棧篇等相關(guān)內(nèi)容。
審核編輯 :李倩
-
事件
+關(guān)注
關(guān)注
0文章
12瀏覽量
9944 -
語言模型
+關(guān)注
關(guān)注
0文章
527瀏覽量
10292
原文標(biāo)題:3.總結(jié)
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論