寫在前面
最近剛開始調研實體消歧方面的相關工作,這里先開一個頭吧。希望大家可以通過這篇簡要的文章對實體消歧任務本身有一個基本的認識。
1. 背景:詞義消歧與實體消歧
1.1 詞義消歧
自然語言文本中存在著大量的多義詞,而多義詞的存在也會影響人對文本的語義理解,讓人對文本的意思產生混淆。
詞義消岐(Word Sense Disambiguation,簡稱WSD) 是NLP中一個非常基本的任務,旨在確定多義詞在具體語境中的確切意義。
在詞義消歧中,同一詞語的不同義項會作為候選詞。我們需要在所有候選詞中找到與文本中目標詞語最接近的那個義項。這里“義項”指的是詞是詞典中的某個具體表示。
如上圖所示,「蘋果」在百度百科中共有25個義項,單說「蘋果」我們可能并不知道說的是「蘋果公司」還是「水果里的蘋果」。但結合具體的上下文語境,我們就可以很好地對「蘋果」消歧,從而明確「蘋果」的具體含義:
1.2 實體消歧
實體鏈指/實體鏈接(Entity Linking,簡稱 EL) 在知識圖譜構建、信息檢索和問答系統等領域具有廣泛的應用價值。
實體鏈指的主要目標是識別上下文中的實體指稱具體指代現實世界中的哪一個實體,也就是將實體指稱項映射到知識庫中的相應實體上去。
具體而言,實體鏈指一般包括實體識別、候選實體獲取、實體消歧這三個主要環節。之所以需要實體消歧,而不是直接將實體識別的結果放入知識圖譜的原因主要有兩方面:
多樣性(即多詞同義):同一實體在文本中會有不同的指稱。比如:甜瓜、安東尼、和瓜哥都指美國職業籃球運動員卡梅隆·凱恩·安東尼。
歧義性(即一詞多義):相同的實體指稱在不同的上下文中可以指不同的實體。比如:邁克爾·喬丹可能指美國籃球運動員,也可能指愛爾蘭政治家等。
1.3 總結
從以上說明來看,其實詞義消歧與實體消歧具有一定相似性, 二者的目的都是處理文本中詞匯歧義的問題. 主要區別在于:
在詞義消歧中的詞義通常是固定的, 可根據目標詞在詞典中的義項來列舉;
在實體消歧中, 實體詞義無法列舉,所以需要前序步驟候選實體獲取;
此外,實體詞的詞義數目大于普通詞,這個主要還是跟知識庫的量級相關。
2. 相關論文
這里我們主要給大家推薦兩篇近期發表的論文:
詞義消歧:《ESC: Redesigning WSD with Extractive Sense Comprehension》
實體消歧:《ExtEnD: Extractive Entity Disambiguation》
兩篇論文的模型都非常簡單,個人覺得關鍵或者說亮點主要在于他們對問題的轉換。其實,從這兩篇論文的名字就能看出端倪:都是將消歧問題轉換成了抽取式問題。
2.1 EXTENE 實體消歧
論文名稱:《ExtEnD: Extractive Entity Disambiguation》
論文鏈接:https://aclanthology.org/2022.acl-long.177.pdf
代碼地址:https://github.com/SapienzaNLP/extend.
如上圖所示,EXTEND將實體消歧任務轉換為了抽取式任務,或者說MRC類任務。具體地:
將含有目標實體指稱項的文本當作Query;
將知識庫中對應的所有候選實體及其描述當作Context;
二者拼接然后預測Answer的Span(startend prediction,start-end matching),這里的Answer就是在知識庫中目標實體指稱實際關聯的實體。
好了,這就是EXTEND論文的核心思想。是不是感覺模型已經躍然紙上了,整體上應該和我們之前在 一文詳解關系抽取模型 CasRel、實體識別LEAR論文閱讀筆記、 實體識別BERT-MRC論文閱讀筆記中介紹過的模型類似。
2.2 ESC 詞義消歧
論文名稱:《ESC: Redesigning WSD with Extractive Sense Comprehension》
論文鏈接:https://aclanthology.org/2021.naacl-main.371.pdf
代碼地址:https://github.com/SapienzaNLP/esc
ESC的模型架構和EXTEND是相似的。整體上首先將輸入的上下文和目標詞的所有義項拼接,模型的輸出則是目標詞真正義項的起始和終止位置。
2.3 總結
論文的具體細節就不在本文里贅述了,大家可根據鏈接下載原文閱讀。此外,兩篇論文都公布了源碼,大家也可以快速利用源碼在一些開源數據上進行實驗。
當然也有一些相關比賽,比如百度:實體鏈指[1]目前就還在進行中:
我目前看到的幾個還是比較一致的做法,打分排序:
比如實體鏈指比賽方案分享[2]:
CCKS&百度 2019中文短文本的實體鏈指 第一名解決方案[3]:
大家可以將論文的模型適配到中文場景下,然后嘗試在這個比賽的實體消歧環節使用,看看效果如何。
還是一樣,如果本文對你有幫助的話,歡迎點贊&在看&分享,這對我繼續分享&創作優質文章非常重要。感謝!
[1]
百度:實體鏈指: https://aistudio.baidu.com/aistudio/competition/detail/83/0/introduction
[2]
實體鏈指比賽方案分享: https://aistudio.baidu.com/aistudio/projectdetail/1331020?channelType=0&channel=0
[3]
CCKS&百度 2019中文短文本的實體鏈指 第一名解決方案: https://github.com/panchunguang/ccks_baidu_entity_link
審核編輯 :李倩
-
文本
+關注
關注
0文章
118瀏覽量
17098 -
nlp
+關注
關注
1文章
489瀏覽量
22064
原文標題:一文簡要了解詞義消歧與實體消歧
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論