在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜:基于實體的層次化概念體系的屬性自動獲取方法

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:佘琪星、姜天文、 ? 2020-11-05 09:23 ? 次閱讀

摘要:屬性是實體的重要組成部分,因此如何自動獲取實體的屬性一直為知識圖譜領域的研究者所關注。由哈爾濱工業大學社會計算與信息檢索研究中心推出的開放域中文知識圖譜《大詞林》是通過從文本中自動挖掘實體及實體間的關系而構建而成,因此如何自動為實體添加屬性也必然成為構建《大詞林》所必須研究的問題之一。本文通過學習《大詞林》中實體的概念層次結構和屬性的表示,提出了一種基于注意力機制的屬性自動獲取方案。其想法可簡述為,實體的屬性可以通過檢查它的概念類別來獲得,因為實體可以作為它的概念類別的實例并繼承它們的屬性。實驗結果顯示,我們的方法能夠為《大詞林》中的實體自動添加屬性,最終可以使大詞林中實體屬性的覆蓋率達到95%以上。

1. 簡介

屬性在知識圖譜的構建中起著至關重要的作用,屬性不僅能夠豐富實體的概念、揭示實體的特性,并且在知識庫中連接了不同的實體(例如:“director”是概念類“film”的屬性,它也連接了類“film”和“person”的實體)。圖1是《大詞林》中實體“蘋果”的概念層次路徑和該概念路徑下“蘋果”的屬性。事實上,我們可以合理的作此假設:一個實體具有何種屬性通常是由其概念決定的,而不是由其本身決定。例如“蘋果”和“鴨梨”均具有顏色的屬性,是由其二者均具有“水果/植物/生物/物”這一概念路徑決定的,而與“蘋果”和“鴨梨”本身的標簽無太多關系。因此,可以認為實體是它的概念的實例,實體的屬性可以通過檢查它的概念體系(或路徑)來獲得。

在本文中,我們提出一種基于實體的層次化概念體系的屬性自動獲取方法,以自動獲取實體的屬性提高知識庫的構建效率。與僅僅使用一個詞代表實體的概念相比(例如“university”表示實體是一所高等教育的學校),用具有層次結構的概念路徑(幾個表示概念的單詞連接為一條路徑,例如“institute/school/university”,前者是后者的上位詞)更為明確和可靠。例如,“university”也可能指大學的教師和學生的主體,在“institute”和“school”的幫助下,實體是一所大學的意義得到細化。因此,我們使用概念路徑來表示實體概念的層次結構,而不是僅僅使用一個單詞。假設我們已經具有一個屬性的集合(此集合可以通過已有知識庫中的屬性構建而成),受近期知識圖譜表示學習的啟發[1][2][3][4],我們考慮將《大詞林》所具有的層次化的概念體系和屬性集合中的屬性映射到連續的向量空間,從而將屬性獲取問題轉化為預測任務,即從屬性集合中為《大詞林》中的實體預測合適的屬性。

圖1《大詞林》中“蘋果”的層次化概念體系

傳統方法大多直接將屬性分配給實體,這給多角色實體帶來了諸多不便。在《大詞林》中,每個實體平均有兩個概念。例如,實體“蘋果”既可以指“水果”,也可以指“公司”,甚至可以指“電影”。然而,屬性不像屬性值一樣具體,其更具有一般性。比如對于蘋果的屬性-“顏色”,其屬性值是“綠色”,而其他水果的“顏色”不一定是綠色,但是其他水果也擁有“顏色”這一屬性。對于屬于同一概念的實體,它們幾乎共享相同的屬性集。這意味著與將屬性分配給實體相比,將屬性分配給其概念似乎更有意義。

多角色實體在概念和屬性之間產生的屬性分配歧義問題是我們工作的主要挑戰。舉例來說,通過已有的知識庫(例如百度百科或維基百科),我們很容易能夠得知“蘋果”有一個“導演”的屬性,但很難獲取與這個屬性相關聯的概念。而事實上,實體的屬性又是由其概念決定的,例如在“蘋果”具有的多種含義中,如“水果”、“電影”或“公司”等,直接與屬性“導演”相關的概念是“電影”。為此,我們提出了一種基于注意力模型的層次化概念體系表示方法,來對實體的概念體系和屬性之間的映射進行學習,以解決此問題。

本文以百度百科的屬性數據為基礎構建屬性集合,并利用百度百科中的屬性向《大詞林》中的實體添加屬性。我們隨機抽取了《大詞林》中687392個實體,有395327個實體具有至少一個屬性,余下292065個實體沒有任何屬性。,如果單純依靠百度百科向《大詞林》中的實體提供屬性,那么屬性對實體的覆蓋率為57.51%。但是如果考慮到具有相同概念的實體共享類似的屬性,并依此進行補全,那么屬性的覆蓋率可提高至 98.48%。

圖2 屬性推薦圖例

以圖2為例,如果依靠百度百科,只有部分實體擁有完整的屬性,但是由于缺失屬性的實體和已有屬性的實體共享相同的概念,因此可以將已知的屬性推薦給缺少屬性的實體。圖3顯示了《大詞林》中“止痛片”概念下的部分實體,其中“玄胡止痛片”和“祛止痛片”不具有任何屬性,通過概念補全后這兩個實體擁有了相應的屬性,結果如圖4所示。

圖3 “止痛片”概念下的部分實體和其屬性

圖4 通過概念補全后的實體屬性

2. 模型介紹

本文中涉及的屬性獲取任務是通過給定{E,C,A,R1,R2}來預測R3,并通過R3來完成根據實體的概念路徑將屬性集合中的屬性推薦給實體的任務。E代表《大詞林》中的實體集合,C代表《大詞林》中的概念集合(也稱為上位詞),A代表屬性集合(由百度百科獲取),R1代表每個實體的上位詞路徑(也稱為概念路徑),R2代表每個實體具有的屬性(通過百度百科直接映射得到),R3是實體的概念路徑與屬性的對應關系,整個過程如圖5所示。

圖5 用符號表示的任務定義

2.1 通過LSTM實現概念路徑的表示學習

本文使用LSTM[5]來學習概念路徑的表示。圖4顯示了一個使用LSTM建模概念路徑的方法。其中LSTM-cell[6]由淺灰色框標出,序列模型的最終輸出由深灰色框標出,LSTM應用于概念路徑“/抽象事物/機構/教育機構/學校/大學”上,最終輸出為概念路徑的向量表示。

圖6 用于概念路徑表示的LSTM網絡

2.2 利用注意力模型完成概念路徑的疊加嵌入表示

如前所述,我們可以將百度百科中的屬性添加到《大詞林》與百度百科同現的實體上而完成屬性的初步填充,但是經過抽樣統計發現這種方法僅僅能夠為《大詞林》不到60%的實體添加上屬性。基于屬性初步填充的結果,我們可以得到一組(Pe, a)形式的元組,其中Pe是給定實體e的概念路徑集合,a是實體的屬性,然而我們并不知道Pe中的哪一條路徑具有屬性a。為了確定實體的概念路徑和屬性的映射關系,進而將屬性映射到對應的實體上,我們提出一種解決方法,它由三部分組成:

概念路徑的表示學習(圖5介紹);

概念路徑上的選擇注意力機制以確定概念路徑和屬性的對應關系;

基于翻譯的嵌入模型預測實體的屬性。整體結構如圖7所示。

圖7 屬性預測整體解決方案

與傳統的基于翻譯的嵌入方法專注于實體-關系-實體三元組(h, r, t)[1]不同,我們所期望獲得的是由實體不同的概念路徑及其對應屬性形成的二元元組(p, a)。因此,不像三元組(h, r, t)中有r這樣的顯式算子,我們為每個屬性構造一個映射矩陣,其映射過程為pMa = a,其中p,a,Ma分別是概念路徑、屬性及映射矩陣的嵌入向量。

因為已知的僅僅是某個實體具有哪些屬性,這樣必須退而求其次通過LSTM學習每個實體的所有概念別路徑的表示,顯然的不同的概念路徑對某一實體是否具有某個屬性的影響是不一樣的。例如,“水果”這一概念能夠確定實體“蘋果”可以具有屬性“顏色”,而“電影”這一概念能夠確定實體“蘋果”應該具有“制片人”這一屬性。這樣,我們就不能對每個概念路徑一視同仁。由圖7所示,我們用選擇注意力模型去建模概念路徑和屬性的對應關系,以盡可能降低訓練中產生的噪聲。通過計算每一條概念路徑和要預測屬性的匹配度來為每條路徑分配權重。最終使用學習到的權重和每條路徑的表示結果加權求和來確定最終的這個實體的路徑表示pe。

2.3 訓練方法

根據上文的描述,我們希望當概念路徑p擁有a這一屬性時,pMa和要預測的屬性a的距離最短;相反,當p不具有屬性a時,則距離較長。為實現此目標,我們使用L1或者L2范數來度量兩者之間的距離,記為d(pMa,a)。利用元組(Pe, a)的集合作為訓練集?,Pe是對于一個給定實體e的概念路徑集合,a是實體e的屬性。然后我們在訓練集上最小化邊界距離來共同學習概念路徑和屬性的表示:

γ> 0是一個邊界超參數,a和a’分別代表實體屬性的正例與負例。

3. 實驗結果

3.1 數據集介紹

實驗數據由《大詞林》中抽樣得到,具體方法如下:

隨機抽取20000個實體及其概念路徑。

利用百度百科向這些實體填充屬性。

對屬性進行低頻過濾,保留至少出現在20個實體中的屬性。

隨機選取3000個實體作為測試集驗證“基于實體預測屬性”這一任務的效果,同時隨機選取240條概念路徑作為測試集驗證“基于概念路徑預測屬性”這一任務的效果。數據集的統計如表1所示,APE和APC分別代表基于實體和基于概念路徑的屬性預測任務。

表1 數據集統計結果

3.2 實體屬性預測(APE)

從實體的角度來看,預測其屬性無疑是必要和重要的。因此,我們提出了實體屬性預測任務(APE),以預測給定實體的屬性。當然由于實體可能具有多重含義,因此我們也希望能夠將屬性和其對應的概念路徑聯系起來(APC任務)。

由于實體被視為其概念的實例,因此僅通過檢查實體的概念就可以獲得實體的屬性集。在APE中,對于給定的實體,我們首先獲取其概念路徑集合,然后使用它們來預測實體的屬性。Hits@k評價方法適用于APE任務,因為可以過濾掉某些同義的屬性,比如“中文名(中文名字)”,“外文名(英文名字)”,等等,結果如表2所示。

表2 APE任務的Hit@k值

除了在全部實體上檢查Hits@k之外,實驗中還考慮了不同概念類別的實體(即,“物”、“抽象”、“人”)。表2括號中的數字為對應不同類別的實體的數量。結果表明,近76%的實體在前20個預測屬性中至少獲得了一個正確的屬性。對于“人”類型的實體,Hits@k的結果除Hits@1外均超過80%。另外兩類的結果與整體評價相比較差。

事實上,表2中的結果是從以百度百科中的屬性數據為基礎向《大詞林》做映射而構建的測試集上得到的,但是由于百度百科中的實體過多依賴于人工眾包而《大詞林》中的實體則完全由文本中自動抽取得到,因此兩者存在不對等,從而引入了大量的噪聲而影響了評測的準確率。當然,更加有效的方法是人工構建測試集,但是這樣太費時費力了。

由于實體具有多重含義,因此我們更加關心我們的模型是否能夠通過預測屬性來區分實體的多重含義。這里我們僅僅通過抽樣的方式構建了實體“蘋果”和“利華”的屬性預測結果,如圖8所示。沿箭頭方向,我們給出了實體不同的概念路徑對應的屬性預測結果,以“蘋果”為例,其在《大詞林》中具有“水果”、“電影”、“公司”三種含義,而左側的“科”、“拉丁學名”等則代表“蘋果”的部分屬性。圖中的顏色代表根據注意力機制對不同概念路徑的預測屬性的注意程度,單元格顏色越深表示權重越大。

從注意力矩陣可以看出,屬性大多出現在其對應的概念路徑上,在不相關的概念路徑上權重幾乎為零。如概念路徑“/抽象事物/電影”引起了屬性“片長、出品公司、制片人”的注意。但是,也有一些錯誤的理解,例如屬性“中文名”和“外文名”只出現在“人物”或“公司”對應的概念路徑中的一條上,這是不準確的,因為從常識上來說這兩個屬性都應該被這兩條概念路徑分別包含。幸運的是,這種錯誤可以被APC任務所掩蓋,因為APC從實體的角度來預測屬性。

圖8 多角色實體屬性預測結果

3.3 概念路徑屬性預測(APC)

從概念路徑的角度出發,我們提出了概念路徑屬性預測任務,以評估模型將概念路徑映射到屬性的能力。在這個任務的預測過程中,我們使用了沒有針對概念路徑的選擇性注意力模型,因為任務APC中只涉及一個唯一的概念路徑,因此不需要注意力機制。

由于中文缺乏標準的“概念類別-屬性”對評測數據集,我們手動標注結果的正確性:top-k預測屬性。手動標注原則如下:

過濾不準確的概念路徑。

過濾掉過于抽象的概念路徑,例如:“/抽象事物/能力/競爭力”。

經過篩選,在P@k評估中包含了240條待測試的概念路徑中的184條(見表1)。最終結果如表3所示,括號中的數字為具有過濾后的概念路徑的實體的數量。由結果可知,可以利用學習到的路徑表示來準確預測概念路徑對應的屬性,全局結果的P@1的準確率超過75%,不同實體類別中P@10的準確率接近70%。事實上,這些給定的概念路徑在訓練階段是看不到的,但是由結果顯示屬性可以準確的映射到相對應的概念路徑上,這表明《大詞林》的構建是動態的。我們還從表3的預測結果中列出了一些例子,并在表4中標注了中文和英文。注意,這些例子對應的概念屬于不同的領域,但是我們的模型可以準確地預測與這些領域相關的屬性。

表3 APC任務的P@k值

表4 不同領域的概念路徑屬性映射情況

4.結論

屬性是實體的重要組成部分,屬性添加一直為知識圖譜研究領域的學者所關注。本文圍繞《大詞林》研究了如何為知識圖譜自動添加屬性這一問題。通過聯合學習《大詞林》中實體的概念層次結構表示和屬性的表示,可以獲得實體概念至屬性的映射,自動地為實體添加合適的屬性。在實驗階段,我們設計了兩種不同的屬性獲取任務以驗證本文提出的屬性獲取方法的準確性,包括給定實體預測隸屬于實體的屬性以及給定實體的某個概念預測屬于該概念下的屬性。實驗結果表明,本文提出的屬性獲取方法能夠將屬性準確地映射到實體對應的某個概念下,能夠實現自動的屬性獲取,提高了知識庫的可擴展性和提升了知識庫的構建效率。

參考文獻

[1] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data. In Advances in neural information processing systems, pages 2787–2795.

[2] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In AAAI, pages 2181–2187.

[3] ZhenWang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge graph embedding by translating on hyperplanes. In AAAI, pages 1112–1119.

[4] Han Xiao, Minlie Huang, and Xiaoyan Zhu. 2015. From one point to a manifold: Knowledge graph embedding for precise link prediction. arXiv preprint arXiv:1512.04792.

[5] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780.

[6] Alex Graves and Jürgen Schmidhuber. 2005. Framewise phoneme classification with bidirectional lstm and other neural network architectures. Neural Networks, 18(5):602–610.

責任編輯:xj

原文標題:【賽爾原創】如何自動地向知識圖譜中添加屬性?

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5508

    瀏覽量

    121306
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7718

原文標題:【賽爾原創】如何自動地向知識圖譜中添加屬性?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    利智方:驅動企業知識管理與AI創新加速的平臺

    利智方致力于深度整合企業知識資產,全面打通知識生命周期的各個環節。通過構建強大的知識庫和精準的知識圖譜,支持快速定制和部署各類AI應用,為企業創新發展提供堅實的技術支撐。可多維度提升企
    的頭像 發表于 12-30 11:07 ?296次閱讀

    層次設計中的注意事項

    “ ?通常來說 KiCad 更建議使用層次的設計,因為這樣結構更清晰,也方便設計復用。?對于簡單的系統,扁平設計也很容易實現;但將復雜的系統設計成扁平卻并不那么容易。 ” 標簽類
    的頭像 發表于 11-13 18:07 ?196次閱讀
    <b class='flag-5'>層次</b><b class='flag-5'>化</b>設計中的注意事項

    三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監Kim Dae-hyun近日透露,公司正致力于自主研發知識圖譜技術,旨在進一步優化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發表于 11-07 15:19 ?657次閱讀

    三星電子將收購英國知識圖譜技術初創企業

    在人工智能技術日新月異的今天,三星電子公司再次展現了其前瞻性的戰略布局與技術創新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創企業Oxford Semantic Technologies的收購,此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發表于 07-18 14:46 ?547次閱讀

    鴻蒙開發:Universal Keystore Kit 密鑰管理服務 獲取密鑰屬性ArkTS

    HUKS提供了接口供業務獲取指定密鑰的相關屬性。在獲取指定密鑰屬性前,需要確保已在HUKS中生成或導入持久存儲的密鑰。
    的頭像 發表于 07-17 10:46 ?319次閱讀

    鴻蒙開發:Universal Keystore Kit 密鑰管理服務 獲取密鑰屬性C C++

    HUKS提供了接口供業務獲取指定密鑰的相關屬性。在獲取指定密鑰屬性前,需要確保已在HUKS中生成或導入持久存儲的密鑰。
    的頭像 發表于 07-17 09:47 ?380次閱讀
    鴻蒙開發:Universal Keystore Kit 密鑰管理服務 <b class='flag-5'>獲取</b>密鑰<b class='flag-5'>屬性</b>C C++

    如何學習智能家居?8:Text文本實體使用方法

    內容到設備當中。可以理解成一個文本輸入框,我們可以輸入任意文字,然后發給設備。 也可以利用自動化,更新文本,例如
    的頭像 發表于 07-15 14:06 ?1616次閱讀
    如何學習智能家居?8:Text文本<b class='flag-5'>實體</b>使用<b class='flag-5'>方法</b>

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優勢和應用場景,同時又相互補充,共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大模型之間的關系。
    的頭像 發表于 07-10 11:39 ?1113次閱讀

    nlp邏輯層次模型的特點

    層次是NLP邏輯層次模型的最底層,主要關注單個詞匯的意義和用法。在這個層次上,模型需要識別和理解詞匯的基本屬性,如詞性、詞義、詞形變化等。詞匯層次
    的頭像 發表于 07-09 10:39 ?417次閱讀

    如何實現PLC的自動化控制邏輯

    地提高了生產效率和設備運行的穩定性。本文將詳細介紹如何實現PLC的自動化控制邏輯,包括PLC的基本概念、編程工具、邏輯實現方法以及實際應用案例。
    的頭像 發表于 06-15 16:44 ?1229次閱讀

    自動控制原理需要哪些基礎知識

    基礎數學知識是學習自動控制原理的前提。這些數學知識包括: 線性代數:矩陣運算、特征值和特征向量、線性空間等概念。 微積分:導數、積分、微分方程等基本
    的頭像 發表于 06-11 11:08 ?3167次閱讀

    基于結構微流體創新的譜系細胞單克隆自動化獲取策略

    近期,中國科學院廣州健康院張驍研究員團隊提出一種基于結構微流體創新的譜系細胞單克隆自動化獲取策略,
    的頭像 發表于 04-22 17:13 ?659次閱讀
    基于結構微流體創新的譜系細胞單克隆<b class='flag-5'>自動化</b><b class='flag-5'>獲取</b>策略

    mapgis如何給區屬性賦值

    地進行數據分析和可視。 在MapGIS中給區屬性賦值有多種方法,下面將詳細介紹其中的幾種常用方法。 1.手動賦值 手動賦值是最直接和簡單的方法
    的頭像 發表于 02-23 17:49 ?2334次閱讀

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優于向量數據庫。知識圖譜提供更準確、多樣、有趣、邏輯和一致的信息,減少了LLM中出現幻覺的可能性。
    的頭像 發表于 02-22 14:13 ?1239次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術構建大模型驅動的RAG系統(下)

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(上)

    向量數據庫是一組高維向量的集合,用于表示實體概念,例如單詞、短語或文檔。向量數據庫可以根據實體概念的向量表示來度量它們之間的相似性或關聯性。
    的頭像 發表于 02-22 14:07 ?1177次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術構建大模型驅動的RAG系統(上)
    主站蜘蛛池模板: 日本在线亚洲| 免费一级毛片清高播放| 在线免费成人网| 99精品视频免费| 美女天天色| 色天网站| 国产精品久久自在自2021| 国内啪啪| 视频在线观看免费网址| 欧美黄色免费| 天天舔天天干天天操| 成年看片免费高清观看| 黄色毛片大全| 免费网站直接看| 青草91视频免费观看| 四虎a456tncom| 午夜免费福利片| 亚洲综合精品香蕉久久网97| 美女扒开尿囗给男人玩的动图 | 天天看片中文字幕| 一品毛片| 中文字幕天堂网| 美女视频黄a全部免费看小说| 第四色亚洲| 色网站在线看| 青草视频在线观看国产| 激情六月婷婷开心丁香开心| 国内精品一区二区在线观看| 久久香蕉国产精品一区二区三| 美女网色站| 91黄色影院| 五月天亚洲综合| 未满十八18周岁禁止免费国产| 欧美日日日| 91三级视频| 日本不卡一区二区三区在线观看| 中国成熟xxx视频| 欧美色视频日本片高清在线观看| 欧美白人极品性喷潮| 女色专区| 国产一区二区在线观看免费|