01 前情提要
關系抽取目前的算法大概可以分為以下幾種:
先抽實體,再判關系,比如陳丹琦大神的《A Frustratingly Easy Approach for Joint Entity and Relation Extraction 》
●Joint Entity and Realtion Extraction:
聯合模型,目前我看過的有這么幾種方式:
■將聯合任務看做是一個填表問題,比如:table sequence,TPlinker
■將聯合任務看做是一個序列標注問題,比如:ETL Span,PRGC
■將聯合任務看做是一個seq2seq問題,比如:SPN4RE
這篇論文:Parition Filter Network(PFN,分區過濾網絡)是一個聯合模型,他們把問題定義為一個填表問題。
他們在總結之前論文的encoding層的時候,把之前的論文的encoding層分成了兩類:
●sequential encoding:串行,先生成一個task的特征(一般都是NER),再生成另一個task的feature(一般就是關系抽取),而后面這個task的特征,是不會影響到前面那個task的特征的。
●parallel encoding:并行,兩個task的特征是并行生成的,互不影響,只在input層面共享信息。
他們認為task間的信息沒有得到很好的交互,(但其實Table sequence還是有交互的),其實現在很多算法里都在講交互,比如NLU里面的SF-ID/Bi-Model。同時,之前也有論文(比如Table sequence和陳丹琦那篇論文)發現了關系預測和實體抽取有可能有些特征是不共享的(Table sequence為了解決這個問題,直接用了倆encoder,陳丹琦大佬那一篇直接是pipeline方法,本身就是倆模型)。而這篇論文想在一個Encoder中完成兩個task的特征抽取,所以他們提出了一個分區和過濾的思路,找出“只與NER相關的特征”“只與關系預測相關的特征”和“與NER和關系預測都相關的特征”。
這里插一句,他們這篇論文效果是不錯的,同時也得出了一個結論,這里提前貼一下,雖然之前有些模型論證關系抽取的特征部分是對NER有害的,但他們發現關系Signal對NER是有益的(或者說是部分有益的,因為他們做了分區)。
廢話不多說了,下面介紹模型: 02 問題定義 給定一個文本,也就是一個輸入序列:,其中表示下標是i的單詞,L是句子的長度,目的是找到: ●找到所有的實體:,用token pairs的方式(填表),其中分別是這個實體的頭和尾字,e是實體類型 ●找到所有的關系:,依然是token pairs的方式(填表),其中分別是subject的首字和object的首字,r是關系類型。 03 模型——PFN
模型主要包含兩個部分:分區過濾編碼器(Paritition Filter Encoder, PFE) 和 兩個Task Unit (NER Unit 和 RE Unit),如下圖(圖中其實還有一個Global Feature,這個按照論文中的解釋可以算在Encoder里面)
模型整體結構和分區過濾編碼器內部結構 >>> 3.1分區過濾編碼器(PFE)
PFE是一個循環特征編碼器,類似于LSTM。在每一個time step,PFE都會把特征拆分成為三個分區:entity partition/ relation partition/ shared partition,其中entity partition是僅與實體抽取相關的分區,relation partition是僅與relation相關的分區,shared partition是與兩個任務都相關的分區。然后通過合并分區, 就會過濾走與特定task無關的特征(比如合并entity partition和shared partition,就可以過濾掉特征中僅與relation相關的特征)。
上面的流程會被拆分成兩個部分:
●分區(Partition) :拆分成三個分區
●過濾(Filter):合并分區
分區過濾編碼器
3.1.1 分區操作
如上圖所示,PFN中類似LSTM,也定義了cell state(這個是歷史信息)和 hidden state ,此外還定義了candidate cell state(就是候選分區的信息),relation gate,entity gate。 每個時間步t,分區操作流程如下: 首先計算candidate cell state:
然后計算relation gate和entity gate:
其中, 雖然這里只列了兩個式子,但實際看上面的圖就知道,這里的要生成兩層分區,我叫他們“候選分區層”(負責對candidate cell state進行分區)和“歷史分區層”(負責對 t-1 時間步的cell state進行分區),每層對應兩個gate,我叫他們“候選relation gate”“候選entity gate”以及“歷史relation gate”“歷史entity gate”。
然后再在每層利用剛剛計算到的兩個gate,生成三個分區(兩層就是6個分區):
圖中為t-1時間步的歷史分區,用t-1時間步的歷史gate生成,t時間步的候選分區一個道理 這張圖可以解釋一下上面這個分區,圖片來自官方代碼的git
最后根據 t-1 時間步的 歷史gate 和 歷史信息cell state,和 t 時間步的 候選gate 和 候選信息candidate cell state,生成 t 時間步的三個分區的information:
這部分看代碼可能更清晰:
? 到這里,如果類比LSTM的話,cell state 和 hidden state 怎么更新,我們還不知道,同時得到三個分區信息按理說是互不重疊的。所以接下來我們讓他們交互,同時看如果更新那兩個state。 ? ? ? ? ? ? 這里有一些問題,就是為什么有要用cummax操作,這是個什么玩意?? ? 這里主要是因為這篇論文在這里的gate設計上面參考了Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks中的設計。 ? 這里我參考這篇論文簡單說一下我的理解,需要對信息進行排序,切分,所以正好用一個二值gate??來描述,我們來計算這個gate。 ? 假設我們用一個??表示g中某個位置出現第一個1的概率,看起來像是幾何分布,但并不是,因為不是伯努利試驗,所以算起來比較麻煩。 ? 我們計算gate g中第k個位置是1的概率,就可以用累計分布函數:???。這樣的話,我們就可以表示二值gate g每個位置為1的概率了,而因為二值gate g每個位置都是離散的,也不好用,所以就用概率來代替它,可以作為它的期望。 ? 然后用這個概率去定義兩個gate,一個單調增的cummax,一個單調減的cummax,防止沖突。 ?
3.1.2 過濾操作
首先,根據上一步生成的三個分區的信息,交互得到生成三個memory,以達到過濾的效果:實體相關/關系相關/shared
這里就達到了過濾的效果,實體部分過濾掉了僅與relation相關的,relation部分過濾掉了僅與實體相關的,shared部分包含了task間的信息,可以認為是平衡兩個task 然后,三個memory分別過tanh得到相應的三個hidden state,直接從當前時間步的cell中輸出,當做是 NER-specific Feature/ Relation-specific Feature/ Shared Feature,用于下一階段的運算
最后,更新cell state 和 hidden state,三個memory拼接在一起過線性映射得到 t 時間步的 cell state,t 時間步的 cell state 過 tanh 得到 t 時間步的 hidden state
到這里,一個PFE 的 cell 就講完了。
>>> 3.2 Global Representation
上面的 PFE Cell 其實是一個單向編碼器,但一般嘛,大家都用雙向的編碼器,哪怕你用個BILSTM呢,也是雙向的呀,本文為了代替雙向編碼器中的后向編碼器,就提出了這個Global Representation。
具體來說就是獲得兩個task-specific全局的表征:分別用每個時間步的 entity-specific feature 和 relation-specific feature 拼接 shared feature,過線性映射和tanh,然后做個maxpooling over time,就獲得了兩個task-specific feature:
>>> 3.3Task Unit
Task Unit 包含兩個Unit:entity Unit 和 Relation Unit,分別是兩個填表任務
● Entity Unit
如果句子輸入長度是L,那么表格的長度是L*L,表格中的(i, j)位置表示以第i個位置開始和第j個位置結束的span的Entity-Sepcific 表征,這個表征的為拼接:第i個位置和第j個的entity-specific feature,以及entity-specific global representation,過Linear以及ELU激活函數
接下來就是輸出層:就是一個線性映射,映射到entity type數目的維數上,然后每維做sigmoid,判斷是不是其代表的entity type(之所以采用這種多標簽分類的方式,是為了解決overlapping問題)
● Relation Unit
如果一個句子長度是L,那么表格長度是L*L,表格中的 (i, j) 位置標示以第i個位置為首字的span,和以第j個位置為首字的span的 關系表征,這個表征的和Entity Unit差不多,拼接:第i個位置和第j個的relation-specific feature,以及relation-specific global representation,過Linear以及ELU激活函數
然后一樣做多標簽分類
>>> 3.4 訓練和推斷
●損失函數:兩個BCE
●推斷的時候有兩個超參數閾值:實體閾值和關系閾值,都設置為0.5
04 實驗 >>> 4.1 主要結果
可以看到,在使用同樣的預訓練模型的情況下,效果是要比TPLiner和Table Sequence要好的(Table Sequence是有一些交互的喲),同時這篇論文在WebNLG上的結果也比同時EMNLP2021論文的PRGC要好一點點(PFN-93.6, PRGC-93.0, TPLinker-91.9) >>> 4.2 消融實驗
他們的消融實驗主要進行了如下幾個:
●編碼器的層數實驗:1層效果就很好 ●雙向編碼器Vs單向編碼器:主要是為了證明他們的Global Representation的作用,結果發現效果真不戳,在他們的這一套里面,全局表征完全可以代替后向編碼器,甚至效果更好 ■前向+G>雙向+G>雙向>單向 ●編碼器的結果:他們換成了兩個LSTM,發現他們的效果好 ■對于并行模式:entity 和 relation 分別過一個LSTM,只在input級別共享 ■對于串行模式:先過第一個LSTM,hidden state 用于entity預測,同時 hidden state會被送到第二層LSTM中去,結果用于預測relation ●分區粒度:這個我覺得實驗設置一定是他們的好,沒必要單拎出來講 ●解碼策略:兩種,一種是relation只考慮entity prediction 結果的(解碼時級聯,relation不考慮所有單詞,僅考慮candidate set),一種是他們這種兩張表都填的(relation考慮所有單詞) ■他們發現后者效果更好,原因可能有二:a. 前一種有誤差傳遞;b. 第二種表中的負例多,有點對比學習的意思,因此學到的正例的表征更牛逼。
>>> 4.3 關系抽取的signal對NER的影響
之所以做這個實驗,是因為之前有論文認為關系抽取的特征對NER在Joint模型中是有害的,因為兩者需要的特征不同。他們只是部分同意這個觀點,也就是說,關系抽取的特征部分是對NER有害的,但也有一部分對NER有益的,他們這篇論文其實就是識別出來哪部分有益,哪部分有害,并對有益部分加以利用。
4.3.1 關系內和關系外的實體抽取的差別
在主要實驗中,ACE05里面他們的NER效果拉垮了,他們認為是關系外的實體很多,統計了一下有64%的實體都是關系外實體。
他們做了三個數據集上面的,關系內的實體識別效果F1都要好于關系外的。(SciERC中gap超大,因為SciERC中的實體專業程度更強,也更長,有關系效果更好),此外,precision的gap尤其大,證明失去了relation信息的,模型在entity上就會過擬合。
同時看到:關系外實體的占比 與 NER的效果是負相關的。這有可能是因為joint model的一個缺點:考慮到關系內和關系外的實體的推斷邏輯是不一樣的(一個有relation影響,一個沒有),那么joint model有可能對關系外的NER的效果是有害的。
但我這里弱弱的問一句,這是不是說對于類外實體,如果gate可以做的更好,就可以效果依然棒呢,其他兩個比它好的論文里面(Table Sequence也是交互的啊,PURE我還沒看,回頭看看)。
4.3.2 NER魯棒性分析
他們與純NER算法做對比,進行了魯棒性的分析,發現他們的NER的魯棒性還是不錯的,可能的原因就是relation signals對實體進行了約束,從而讓魯棒性更強。
所以通過上面兩部分,他們認為關系信息對NER效果是有幫助的。此外,提一嘴,他們反駁了陳丹琦大佬論文《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》關于關系信息對NER的幫助比較小的結論,認為那篇論文是在ACE2005上面做的實驗,類外實體太多了,所以效果不明顯。
-
編碼器
+關注
關注
45文章
3655瀏覽量
134894 -
模型
+關注
關注
1文章
3279瀏覽量
48976 -
代碼
+關注
關注
30文章
4809瀏覽量
68826
原文標題:復旦提出PFN: 關系抽取SOTA之分區過濾網絡
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論