在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PFN模型整體結構和分區過濾編碼器內部結構

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-08-10 10:03 ? 次閱讀

01 前情提要

關系抽取目前的算法大概可以分為以下幾種:

Pipeline approach:

先抽實體,再判關系,比如陳丹琦大神的《A Frustratingly Easy Approach for Joint Entity and Relation Extraction 》

●Joint Entity and Realtion Extraction:

聯合模型,目前我看過的有這么幾種方式:

■將聯合任務看做是一個填表問題,比如:table sequence,TPlinker

■將聯合任務看做是一個序列標注問題,比如:ETL Span,PRGC

■將聯合任務看做是一個seq2seq問題,比如:SPN4RE

這篇論文:Parition Filter Network(PFN,分區過濾網絡)是一個聯合模型,他們把問題定義為一個填表問題。

他們在總結之前論文的encoding層的時候,把之前的論文的encoding層分成了兩類:

●sequential encoding:串行,先生成一個task的特征(一般都是NER),再生成另一個task的feature(一般就是關系抽取),而后面這個task的特征,是不會影響到前面那個task的特征的。

●parallel encoding:并行,兩個task的特征是并行生成的,互不影響,只在input層面共享信息

他們認為task間的信息沒有得到很好的交互,(但其實Table sequence還是有交互的),其實現在很多算法里都在講交互,比如NLU里面的SF-ID/Bi-Model。同時,之前也有論文(比如Table sequence和陳丹琦那篇論文)發現了關系預測和實體抽取有可能有些特征是不共享的(Table sequence為了解決這個問題,直接用了倆encoder,陳丹琦大佬那一篇直接是pipeline方法,本身就是倆模型)。而這篇論文想在一個Encoder中完成兩個task的特征抽取,所以他們提出了一個分區和過濾的思路,找出“只與NER相關的特征”“只與關系預測相關的特征”和“與NER和關系預測都相關的特征”。

這里插一句,他們這篇論文效果是不錯的,同時也得出了一個結論,這里提前貼一下,雖然之前有些模型論證關系抽取的特征部分是對NER有害的,但他們發現關系Signal對NER是有益的(或者說是部分有益的,因為他們做了分區)。

廢話不多說了,下面介紹模型: 02 問題定義 給定一個文本,也就是一個輸入序列:,其中表示下標是i的單詞,L是句子的長度,目的是找到: ●找到所有的實體:,用token pairs的方式(填表),其中分別是這個實體的頭和尾字,e是實體類型 ●找到所有的關系:,依然是token pairs的方式(填表),其中分別是subject的首字和object的首字,r是關系類型。 03 模型——PFN

模型主要包含兩個部分:分區過濾編碼器(Paritition Filter Encoder, PFE) 和 兩個Task Unit (NER Unit 和 RE Unit),如下圖(圖中其實還有一個Global Feature,這個按照論文中的解釋可以算在Encoder里面)

e206cee4-17df-11ed-ba43-dac502259ad0.jpg

模型整體結構和分區過濾編碼器內部結構 >>> 3.1分區過濾編碼器(PFE)

PFE是一個循環特征編碼器,類似于LSTM。在每一個time step,PFE都會把特征拆分成為三個分區:entity partition/ relation partition/ shared partition,其中entity partition是僅與實體抽取相關的分區,relation partition是僅與relation相關的分區,shared partition是與兩個任務都相關的分區。然后通過合并分區, 就會過濾走與特定task無關的特征(比如合并entity partition和shared partition,就可以過濾掉特征中僅與relation相關的特征)。

上面的流程會被拆分成兩個部分:

●分區(Partition) :拆分成三個分區

●過濾(Filter):合并分區

e21af6c6-17df-11ed-ba43-dac502259ad0.jpg

分區過濾編碼器

3.1.1 分區操作

如上圖所示,PFN中類似LSTM,也定義了cell state(這個是歷史信息)和 hidden state ,此外還定義了candidate cell state(就是候選分區的信息),relation gate,entity gate。 每個時間步t,分區操作流程如下: 首先計算candidate cell state:

e22f739e-17df-11ed-ba43-dac502259ad0.png

然后計算relation gate和entity gate:

e238c30e-17df-11ed-ba43-dac502259ad0.png

其中, 雖然這里只列了兩個式子,但實際看上面的圖就知道,這里的要生成兩層分區,我叫他們“候選分區層”(負責對candidate cell state進行分區)和“歷史分區層”(負責對 t-1 時間步的cell state進行分區),每層對應兩個gate,我叫他們“候選relation gate”“候選entity gate”以及“歷史relation gate”“歷史entity gate”。

然后再在每層利用剛剛計算到的兩個gate,生成三個分區(兩層就是6個分區):e252df3c-17df-11ed-ba43-dac502259ad0.png

圖中為t-1時間步的歷史分區,用t-1時間步的歷史gate生成,t時間步的候選分區一個道理 e25fb93c-17df-11ed-ba43-dac502259ad0.jpg 這張圖可以解釋一下上面這個分區,圖片來自官方代碼的git

最后根據 t-1 時間步的 歷史gate 和 歷史信息cell state,和 t 時間步的 候選gate 和 候選信息candidate cell state,生成 t 時間步的三個分區的information:

e275af3a-17df-11ed-ba43-dac502259ad0.png

這部分看代碼可能更清晰:

e2861eec-17df-11ed-ba43-dac502259ad0.png ? 到這里,如果類比LSTM的話,cell state 和 hidden state 怎么更新,我們還不知道,同時得到三個分區信息按理說是互不重疊的。所以接下來我們讓他們交互,同時看如果更新那兩個state。 ? ? ? ? ? ? 這里有一些問題,就是為什么有要用cummax操作,這是個什么玩意?? ? 這里主要是因為這篇論文在這里的gate設計上面參考了Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks中的設計。 ? 這里我參考這篇論文簡單說一下我的理解,需要對信息進行排序,切分,所以正好用一個二值gate??來描述,我們來計算這個gate。 ? 假設我們用一個??表示g中某個位置出現第一個1的概率,看起來像是幾何分布,但并不是,因為不是伯努利試驗,所以算起來比較麻煩。 ? 我們計算gate g中第k個位置是1的概率,就可以用累計分布函數:???。這樣的話,我們就可以表示二值gate g每個位置為1的概率了,而因為二值gate g每個位置都是離散的,也不好用,所以就用概率來代替它,可以作為它的期望。 ? 然后用這個概率去定義兩個gate,一個單調增的cummax,一個單調減的cummax,防止沖突。 ?

3.1.2 過濾操作

首先,根據上一步生成的三個分區的信息,交互得到生成三個memory,以達到過濾的效果:實體相關/關系相關/shared

e2a06fb8-17df-11ed-ba43-dac502259ad0.png

這里就達到了過濾的效果,實體部分過濾掉了僅與relation相關的,relation部分過濾掉了僅與實體相關的,shared部分包含了task間的信息,可以認為是平衡兩個task 然后,三個memory分別過tanh得到相應的三個hidden state,直接從當前時間步的cell中輸出,當做是 NER-specific Feature/ Relation-specific Feature/ Shared Feature,用于下一階段的運算

e2ae4ba6-17df-11ed-ba43-dac502259ad0.png

最后,更新cell state 和 hidden state,三個memory拼接在一起過線性映射得到 t 時間步的 cell state,t 時間步的 cell state 過 tanh 得到 t 時間步的 hidden state

e2cc6f0a-17df-11ed-ba43-dac502259ad0.png

到這里,一個PFE 的 cell 就講完了。

>>> 3.2 Global Representation

上面的 PFE Cell 其實是一個單向編碼器,但一般嘛,大家都用雙向的編碼器,哪怕你用個BILSTM呢,也是雙向的呀,本文為了代替雙向編碼器中的后向編碼器,就提出了這個Global Representation。

具體來說就是獲得兩個task-specific全局的表征:分別用每個時間步的 entity-specific feature 和 relation-specific feature 拼接 shared feature,過線性映射和tanh,然后做個maxpooling over time,就獲得了兩個task-specific feature:

e2d8e212-17df-11ed-ba43-dac502259ad0.png

>>> 3.3Task Unit

Task Unit 包含兩個Unit:entity Unit 和 Relation Unit,分別是兩個填表任務

● Entity Unit

如果句子輸入長度是L,那么表格的長度是L*L,表格中的(i, j)位置表示以第i個位置開始和第j個位置結束的span的Entity-Sepcific 表征,這個表征的為拼接:第i個位置和第j個的entity-specific feature,以及entity-specific global representation,過Linear以及ELU激活函數

e2e7df88-17df-11ed-ba43-dac502259ad0.png

接下來就是輸出層:就是一個線性映射,映射到entity type數目的維數上,然后每維做sigmoid,判斷是不是其代表的entity type(之所以采用這種多標簽分類的方式,是為了解決overlapping問題)

e2f7b4a8-17df-11ed-ba43-dac502259ad0.png

● Relation Unit

如果一個句子長度是L,那么表格長度是L*L,表格中的 (i, j) 位置標示以第i個位置為首字的span,和以第j個位置為首字的span的 關系表征,這個表征的和Entity Unit差不多,拼接:第i個位置和第j個的relation-specific feature,以及relation-specific global representation,過Linear以及ELU激活函數

然后一樣做多標簽分類

e310ec2a-17df-11ed-ba43-dac502259ad0.png

>>> 3.4 訓練和推斷

●損失函數:兩個BCE

e32152cc-17df-11ed-ba43-dac502259ad0.png

推斷的時候有兩個超參數閾值:實體閾值和關系閾值,都設置為0.5

e3383a8c-17df-11ed-ba43-dac502259ad0.png

04 實驗 >>> 4.1 主要結果

e344810c-17df-11ed-ba43-dac502259ad0.jpg

e36d90f6-17df-11ed-ba43-dac502259ad0.jpg

可以看到,在使用同樣的預訓練模型的情況下,效果是要比TPLiner和Table Sequence要好的(Table Sequence是有一些交互的喲),同時這篇論文在WebNLG上的結果也比同時EMNLP2021論文的PRGC要好一點點(PFN-93.6, PRGC-93.0, TPLinker-91.9) >>> 4.2 消融實驗

e37ac58c-17df-11ed-ba43-dac502259ad0.png

他們的消融實驗主要進行了如下幾個:

●編碼器的層數實驗:1層效果就很好 ●雙向編碼器Vs單向編碼器:主要是為了證明他們的Global Representation的作用,結果發現效果真不戳,在他們的這一套里面,全局表征完全可以代替后向編碼器,甚至效果更好 ■前向+G>雙向+G>雙向>單向 ●編碼器的結果:他們換成了兩個LSTM,發現他們的效果好 ■對于并行模式:entity 和 relation 分別過一個LSTM,只在input級別共享 ■對于串行模式:先過第一個LSTM,hidden state 用于entity預測,同時 hidden state會被送到第二層LSTM中去,結果用于預測relation ●分區粒度:這個我覺得實驗設置一定是他們的好,沒必要單拎出來講 ●解碼策略:兩種,一種是relation只考慮entity prediction 結果的(解碼時級聯,relation不考慮所有單詞,僅考慮candidate set),一種是他們這種兩張表都填的(relation考慮所有單詞) ■他們發現后者效果更好,原因可能有二:a. 前一種有誤差傳遞;b. 第二種表中的負例多,有點對比學習的意思,因此學到的正例的表征更牛逼。

>>> 4.3 關系抽取的signal對NER的影響

之所以做這個實驗,是因為之前有論文認為關系抽取的特征對NER在Joint模型中是有害的,因為兩者需要的特征不同。他們只是部分同意這個觀點,也就是說,關系抽取的特征部分是對NER有害的,但也有一部分對NER有益的,他們這篇論文其實就是識別出來哪部分有益,哪部分有害,并對有益部分加以利用。

4.3.1 關系內和關系外的實體抽取的差別

在主要實驗中,ACE05里面他們的NER效果拉垮了,他們認為是關系外的實體很多,統計了一下有64%的實體都是關系外實體。

e38d1eb2-17df-11ed-ba43-dac502259ad0.png

他們做了三個數據集上面的,關系內的實體識別效果F1都要好于關系外的。(SciERC中gap超大,因為SciERC中的實體專業程度更強,也更長,有關系效果更好),此外,precision的gap尤其大,證明失去了relation信息的,模型在entity上就會過擬合。

同時看到:關系外實體的占比 與 NER的效果是負相關的。這有可能是因為joint model的一個缺點:考慮到關系內和關系外的實體的推斷邏輯是不一樣的(一個有relation影響,一個沒有),那么joint model有可能對關系外的NER的效果是有害的。

但我這里弱弱的問一句,這是不是說對于類外實體,如果gate可以做的更好,就可以效果依然棒呢,其他兩個比它好的論文里面(Table Sequence也是交互的啊,PURE我還沒看,回頭看看)。

4.3.2 NER魯棒性分析

他們與純NER算法做對比,進行了魯棒性的分析,發現他們的NER的魯棒性還是不錯的,可能的原因就是relation signals對實體進行了約束,從而讓魯棒性更強。

e39e1a78-17df-11ed-ba43-dac502259ad0.png

所以通過上面兩部分,他們認為關系信息對NER效果是有幫助的。此外,提一嘴,他們反駁了陳丹琦大佬論文《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》關于關系信息對NER的幫助比較小的結論,認為那篇論文是在ACE2005上面做的實驗,類外實體太多了,所以效果不明顯。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3655

    瀏覽量

    134894
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48976
  • 代碼
    +關注

    關注

    30

    文章

    4809

    瀏覽量

    68826

原文標題:復旦提出PFN: 關系抽取SOTA之分區過濾網絡

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    芯片封裝內部結構

    `芯片封裝內部結構經典封裝知識,內部結構完美呈現,分析芯片封裝的每一個知識點。[hide][/hide]`
    發表于 06-11 16:10

    [轉帖]光耦內部結構原理

    光耦內部結構原理光耦內部結構:  光耦合是以光形式傳遞信號的,內部電路是由光敏三極管和發光二極管組合成一個電子元件被封裝在個塑料殼內,接入電路后,輸入端的電信號
    發表于 06-19 10:45

    8051內部結構

    8051內部結構供大家參考。
    發表于 12-17 08:59

    變頻內部結構_變頻內部結構

    變頻內部結構_變頻內部結構圖 1.主控電路 主要功能如下:(1)接受各種信號 1)在功能預置階段,接受對各功能的預置信號: 2)接受從鍵盤或外接輸入端子輸入的給定信號; 3)接受
    發表于 09-05 10:49

    MAX782內部結構框圖

    MAX782內部結構框圖 內部框圖
    發表于 11-14 16:24 ?1002次閱讀
    MAX782<b class='flag-5'>內部結構</b>框圖

    光電編碼器原理結構

    光電編碼器原理結構圖 增量式光電旋轉編碼器???  所謂編碼器即是將某種物理量轉換為數字格式的裝置。運動控制系統中的編碼器
    發表于 03-08 15:24 ?1.6w次閱讀

    ABB變頻內部結構

    ABB ACS800內部結構,電路板識別、連線、作用。
    發表于 05-03 16:42 ?0次下載

    元件的內部結構

    元件的內部結構
    發表于 03-04 17:48 ?6次下載

    基于雙編碼器網絡結構的CGAtten-GRU模型

    為了解決序列到序列模型編碼器不能充分編碼源文本的問題,構建一種基于雙編碼器網絡結構的Cgatten-GRU
    發表于 04-01 15:10 ?12次下載
    基于雙<b class='flag-5'>編碼器</b>網絡<b class='flag-5'>結構</b>的CGAtten-GRU<b class='flag-5'>模型</b>

    AN-562:過濾ADV719x視頻編碼器內部濾波規范

    AN-562:過濾ADV719x視頻編碼器內部濾波規范
    發表于 04-21 10:23 ?8次下載
    AN-562:<b class='flag-5'>過濾</b>ADV719x視頻<b class='flag-5'>編碼器</b><b class='flag-5'>內部</b>濾波<b class='flag-5'>器</b>規范

    基于結構感知的雙編碼器解碼模型

    ,在常見端到端翻譯模型的基礎上,利用代碼抽象語法樹將源代碼的結構信息嵌入到編碼器解碼翻譯模型中,提出一種基于
    發表于 05-26 15:38 ?5次下載

    交叉導軌的內部結構

    交叉導軌的內部結構
    的頭像 發表于 08-16 17:52 ?1077次閱讀
    交叉導軌的<b class='flag-5'>內部結構</b>

    MOSFET和IGBT內部結構與應用

    MOSFET和IGBT內部結構不同,決定了其應用領域的不同。
    的頭像 發表于 11-03 14:53 ?1079次閱讀
    MOSFET和IGBT<b class='flag-5'>內部結構</b>與應用

    磁性編碼器結構及原理

    磁性編碼器結構及原理,磁性編碼器結構:磁性編碼器由兩個主要組合而成,讀頭和標尺。標尺是一個含有磁性條紋的輪子或桿,而讀頭則固定在機械裝置上
    的頭像 發表于 01-22 11:24 ?1545次閱讀
    磁性<b class='flag-5'>編碼器</b><b class='flag-5'>結構</b>及原理

    觸發內部結構是什么

    觸發內部結構因類型和設計而異,但通常包括一些基本的組成部分,如存儲元件、控制門電路和反饋電路。以邊沿觸發為例,其內部結構相對復雜,但可以通過分解其關鍵組成部分來詳細闡述。
    的頭像 發表于 08-12 14:43 ?780次閱讀
    主站蜘蛛池模板: 四虎影午夜成年免费精品| 亚洲成人看片| 免费啪啪网站| 日本亚洲成人| 四虎欧美在线观看免费| 四虎亚洲精品| 日本黄色的视频| 萌白酱香蕉白丝护士服喷浆| 免费四影虎ww4hu10| 激情婷婷网| www.欧美色图| 天天舔天天射天天干| 理论在线看| 日本xxxxxxxx69| 亚洲乱码卡一卡二卡三| 在线观看视频播放| 黄色在线网站视频| 久久99国产精品久久99| 一级特黄aaa大片免色| 四虎永久在线精品国产免费| 日本动漫免费看| 国模视频一区| 午夜黄色一级片| 国产精品超清大白屁股| 全免费午夜一级毛片真人| 久热福利| 亚洲天堂视频在线播放| 亚洲男人精品| 欧美日韩国产在线一区| 丁香婷婷久久| 末发育娇小性色xxxxx视频| 欧美系列在线| 欧美猛交xxxx乱大交| 女生扒开尿口让男生舔| 午夜精品在线免费观看| 免费看污视频软件| 一级骚片超级骚在线观看| 国产在线操| 久久久久国产一级毛片高清版 | japan高清视频乱xxxxx| 人日人操|