基于位置的知識(shí)圖譜鏈接預(yù)測(cè)
人工智能技術(shù)與咨詢(xún)?
本文來(lái)自《中文信息學(xué)報(bào)》,作者張寧豫等
摘?要: 鏈接預(yù)測(cè)是知識(shí)圖譜的補(bǔ)全和分析的基礎(chǔ)。由于位置相關(guān)的實(shí)體和關(guān)系本身?yè)碛胸S富的位置特征,該文提出了一種基于位置的知識(shí)圖譜鏈接預(yù)測(cè)方法。該方法首先通過(guò)分析實(shí)體和關(guān)系的語(yǔ)義特征對(duì)關(guān)系進(jìn)行分類(lèi),然后提出了一種基于位置的實(shí)體和關(guān)系位置特征和規(guī)則的挖掘方法;其次,通過(guò)挖掘出的實(shí)體位置特征和規(guī)則,對(duì)實(shí)體和關(guān)系的向量化方法預(yù)測(cè)結(jié)果進(jìn)行約束,得到最終的結(jié)果。該文通過(guò)對(duì)WikiData、FB和WN數(shù)據(jù)集的實(shí)驗(yàn),證明該方法針對(duì)基于位置的關(guān)系和實(shí)體鏈接預(yù)測(cè)擁有較好的效果。
關(guān)鍵詞: 位置特征;知識(shí)圖譜;鏈接預(yù)測(cè)
0 引言
知識(shí)圖譜例如FreeBase、Yago等是很多人工智能應(yīng)用的重要數(shù)據(jù)來(lái)源。它包含了海量的實(shí)體和關(guān)系并以三元組的形式進(jìn)行存儲(chǔ)。然而,大多數(shù)知識(shí)庫(kù)的數(shù)據(jù)都是缺失的。所以知識(shí)庫(kù)補(bǔ)全,也就是對(duì)現(xiàn)有的知識(shí)庫(kù)進(jìn)行鏈接,預(yù)測(cè)新的關(guān)系和實(shí)體是一項(xiàng)重要的工作。
現(xiàn)有的知識(shí)圖譜鏈接預(yù)測(cè)方法大多都是直接利用實(shí)體、關(guān)系本身或圖的特征來(lái)進(jìn)行鏈接預(yù)測(cè)。對(duì)于給定的知識(shí)圖譜,實(shí)體和關(guān)系通常會(huì)被映射成低維的向量。通過(guò)定義一個(gè)打分函數(shù)來(lái)對(duì)每一對(duì)實(shí)體和關(guān)系的三元組進(jìn)行預(yù)測(cè)。實(shí)體和關(guān)系的向量可以通過(guò)最大化已知正確三元組的打分函數(shù)來(lái)訓(xùn)練獲得。
然而,在訓(xùn)練實(shí)體、關(guān)系向量與打分函數(shù)的過(guò)程中,這類(lèi)方法并沒(méi)有利用實(shí)體和關(guān)系本身隱藏的位置特征。此外,由于實(shí)體和關(guān)系向量化方法數(shù)據(jù)驅(qū)動(dòng)特點(diǎn),如果訓(xùn)練結(jié)果中某一類(lèi)關(guān)系或者實(shí)體數(shù)據(jù)量很小,訓(xùn)練出的這一關(guān)系或?qū)嶓w的向量針對(duì)打分函數(shù)可能會(huì)導(dǎo)致過(guò)擬合等問(wèn)題。
事實(shí)上,現(xiàn)有的知識(shí)庫(kù)中儲(chǔ)存著海量的位置相關(guān)的實(shí)體和關(guān)系。例如,在三元組(魯迅,WasBornIn,紹興)中,實(shí)體“紹興”有明確的位置特征。利用實(shí)體“紹興”的屬性可以獲得位置特征,進(jìn)而可以推測(cè)實(shí)體“魯迅”隱含的位置特征,利用位置的隱含特征構(gòu)造規(guī)則約束。例如,在判斷三元組(魯迅,WasBornIn, 浙江)是否成立時(shí),利用實(shí)體“魯迅”的位置特征和空間位置的規(guī)則判斷,可以約束判斷的最終結(jié)果。
在本文中, 我們提出了一種針對(duì)位置關(guān)系的基于向量化和規(guī)則的鏈接預(yù)測(cè)方法。位置相關(guān)的關(guān)系指的是三元組中至少含有一個(gè)實(shí)體,其屬性或者本身含義帶有位置的特點(diǎn)。例如,至少有一個(gè)實(shí)體是一個(gè)地名、一個(gè)區(qū)域名稱(chēng)、一個(gè)興趣點(diǎn)名稱(chēng)等。
首先,針對(duì)基于位置的三元組,我們根據(jù)其特點(diǎn)把基于位置的關(guān)系分成了三類(lèi): 包含關(guān)系、相鄰關(guān)系和相交關(guān)系。包含關(guān)系是兩個(gè)實(shí)體本身的地理坐標(biāo)范圍是相互包含的,例如LoactedIn。相鄰關(guān)系是指兩個(gè)實(shí)體本身的地理坐標(biāo)范圍是相互分離的,但在一定距離內(nèi),例如NearBy。相交關(guān)系是指兩個(gè)實(shí)體本身的地理坐標(biāo)范圍是相互交叉的,例如HasSameHometown。針對(duì)不同的實(shí)體,我們提取出不同的隱藏位置特征。針對(duì)不同的關(guān)系類(lèi)型,我們提取不同的規(guī)則。實(shí)體的隱藏位置特征主要由實(shí)體本身的位置(如經(jīng)緯度或地名)和它的輻射范圍組成。規(guī)則主要分成兩類(lèi): 一類(lèi)是通用規(guī)則。例如,兩個(gè)實(shí)體間擁有NearBy 關(guān)系必然會(huì)存在HasNeighbour 關(guān)系,同時(shí)NearBy 關(guān)系的實(shí)體必須是屬于Location 類(lèi)型的。另一類(lèi)是位置規(guī)則。例如,實(shí)體h和實(shí)體t的隱藏位置特征是后者包含前者,則兩個(gè)實(shí)體間有可能存在包含這類(lèi)的關(guān)系。最后,我們利用規(guī)則對(duì)向量化方法結(jié)果進(jìn)行約束,得到最終的結(jié)果。
我們的方法有以下優(yōu)點(diǎn): (1)規(guī)則的使用降低了計(jì)算空間并提高了準(zhǔn)確度;(2)保留了向量化方法的優(yōu)點(diǎn),同時(shí)加入了隱藏的位置信息;(3)它是一個(gè)通用的框架,能夠適用各種通用的向量化方法和規(guī)則。
綜上所述,本文的貢獻(xiàn)如下:
(1) 針對(duì)基于位置的三元組,我們提出了挖掘?qū)嶓w和關(guān)系位置特征的方法。
(2) 提出了一種針對(duì)位置關(guān)系的基于向量化和規(guī)則的鏈接預(yù)測(cè)方法。
(3) 利用WikiData、FB和WN的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明針對(duì)位置相關(guān)的鏈接預(yù)測(cè),本方法比其他方法準(zhǔn)確度有所提高。
1 相關(guān)工作
知識(shí)圖譜的鏈接預(yù)測(cè)通常是指給定一組三元組,預(yù)測(cè)其成立的可能性。根據(jù)Nickel Maximilian[1]的研究,知識(shí)圖譜鏈接預(yù)測(cè)通常分為三大類(lèi): (1)通過(guò)實(shí)體和關(guān)系的隱含特征將其轉(zhuǎn)換成低維向量的方法[2-3];(2)基于圖特征的方法[4-5];(3) 基于馬爾科夫概率圖利用一階謂詞邏輯[6]或者軟邏輯(probabilistic soft logic)[7]來(lái)預(yù)測(cè)。
基于向量化的知識(shí)圖譜鏈接預(yù)測(cè)方法的核心是用向量來(lái)表達(dá)實(shí)體和關(guān)系隱藏的特征。RESCAL[2]和TransE[8]是兩個(gè)典型的方法。它們通過(guò)最小化結(jié)構(gòu)風(fēng)險(xiǎn)或邊界誤差來(lái)學(xué)習(xí)隱藏的向量。然而,在學(xué)習(xí)和預(yù)測(cè)的過(guò)程中,這類(lèi)方法都沒(méi)有利用潛在的位置特征和應(yīng)用規(guī)則。
TRESCAL[9]將規(guī)則和RESCAL整合在了一起,但它僅能使用單一規(guī)則(例如某種關(guān)系的實(shí)體必須是特定的類(lèi)型)。Rockt?schel等[10]提出了將一階謂詞邏輯映射成低維向量。但是他們的方法中規(guī)則并沒(méi)有直接起到鏈接預(yù)測(cè)的作用,也沒(méi)有降低預(yù)測(cè)的復(fù)雜度。
Wang Q等[11]提出了一種基于整數(shù)線性規(guī)劃(ILP)的方法,將向量化結(jié)果和規(guī)則整合起來(lái)進(jìn)行鏈接預(yù)測(cè),但是他們并沒(méi)有利用潛在的位置特征和基于位置的規(guī)則。基于圖的方法核心是挖掘知識(shí)圖譜圖結(jié)構(gòu)所有的特征。Lü Lin[12]挖掘節(jié)點(diǎn)之間的相似度來(lái)進(jìn)行鏈接預(yù)測(cè)。
Path ranking algorithm(PRA)[13]是利用節(jié)點(diǎn)之間不同通路包含的特征來(lái)進(jìn)行預(yù)測(cè),也可以提煉出規(guī)則來(lái)約束結(jié)果。但是,基于圖特征的方法通常適合局部的鏈接預(yù)測(cè),不一定能挖掘出全局的隱藏特征。我們方法的不同點(diǎn)在于提供了一個(gè)通用的利用位置特征和規(guī)則的預(yù)測(cè)框架,可以整合各種向量化方法和規(guī)則。
在馬爾科夫網(wǎng)絡(luò)中,規(guī)則已經(jīng)被大量使用,代表性的研究有利用一階謂詞邏輯[6]和軟邏輯(probabilistic soft logic)[7]。本文利用規(guī)則來(lái)約束向量化方法的結(jié)果,將整合問(wèn)題變成一個(gè)整數(shù)規(guī)劃問(wèn)題。此外,我們挖掘出了隱藏的位置特征,構(gòu)造了位置特征的規(guī)則。
2 方法
2.1 定義
定義1(實(shí)體位置特征) 如果實(shí)體e能夠在當(dāng)前知識(shí)庫(kù)或外部數(shù)據(jù)庫(kù)如Yago、GeoNames、 LinkedGeoData和WikiData中匹配到相應(yīng)的位置(經(jīng)緯度)和大致范圍或所屬上級(jí)的范圍,則e有位置特征fe=[lng,lat,D],lng是經(jīng)度,lat是緯度,D是一個(gè)描述實(shí)體包含范圍的數(shù)值,通常情況由實(shí)體本身的行政地域半徑或上級(jí)所屬區(qū)域半徑最小值確定。
定義2(位置相關(guān)三元組) 三元組(h,?r,?t)的實(shí)體h、t中至少有一個(gè)實(shí)體含有位置特征。
定義3(包含關(guān)系) 實(shí)體h和t的位置特征存在
?
,則兩者存在包含關(guān)系HasContain(h,t)。
定義4(相鄰關(guān)系) 實(shí)體h?和t的位置特征存在
?
≥|hD+tD|,則兩者存在相鄰關(guān)系HasAdjacent(h,t)。
定義5(相交關(guān)系) 實(shí)體h和t的位置特征存在|hD-tD|≤
?
,則兩者存在相交關(guān)系HasIntersect(h,t)。
2.2 框架
如圖2所示,我們的系統(tǒng)由兩部分組成:(1)位置特征和規(guī)則挖掘。首先對(duì)三元組中實(shí)體進(jìn)行位置特征提取,然后對(duì)基于位置的三元組的關(guān)系進(jìn)行自動(dòng)識(shí)別或者人工標(biāo)注分類(lèi),最后提取出其他可能存在的位置特征和規(guī)則。(2)基于向量化和規(guī)則的鏈接預(yù)測(cè)。首先對(duì)三元組利用向量化方法進(jìn)行訓(xùn)練,然后利用規(guī)則對(duì)結(jié)果進(jìn)行約束。
?
圖2 框架系統(tǒng)的組成
2.3 隱含的位置特征和規(guī)則挖掘
給定一個(gè)基于位置的三元組(h,r,t), 首先我們需要提取出三元組中實(shí)體可以直接獲得的位置特征。例如,三元組(魯迅,WasBornIn, 紹興)中,通過(guò)對(duì)實(shí)體“魯迅”和“紹興”的類(lèi)型和本地?cái)?shù)據(jù)庫(kù)以及外部數(shù)據(jù)庫(kù)Yago、GeoName、LinkedGeoData和WikiData的匹配得到,實(shí)體“紹興”是一個(gè)地名。
我們可以獲得該實(shí)體的經(jīng)緯度、面積、相鄰城市等信息。通過(guò)近似計(jì)算(利用面積或相鄰區(qū)域經(jīng)緯度),我們可以獲得實(shí)體“紹興”的位置特征。然后我們需要獲得關(guān)系“WasBornIn”的類(lèi)別,即它屬于包含、相鄰、相交哪一類(lèi)。一般地說(shuō),有兩種做法:(1)自動(dòng)識(shí)別。
遍歷所有三元組中兩個(gè)實(shí)體都含有位置特征的三元組,通過(guò)反向計(jì)算實(shí)體位置特征的差異,推導(dǎo)出此三元組擁有的關(guān)系,對(duì)常見(jiàn)的如LocatedIn、Nearby等關(guān)系,此方法可以方便地判別;(2)人工標(biāo)注。事實(shí)上,基于位置的關(guān)系總數(shù)并不多,再者,通常整個(gè)知識(shí)圖譜需要預(yù)測(cè)的關(guān)系數(shù)量級(jí)也不是很大,遠(yuǎn)小于實(shí)體個(gè)數(shù)數(shù)量級(jí)。所以可以采取人工標(biāo)注的方法來(lái)解決額外的關(guān)系分類(lèi)問(wèn)題。最后,我們通過(guò)已經(jīng)獲得的關(guān)系“WasBornIn”屬于包含關(guān)系,判斷實(shí)體“魯迅”隱藏位置特征,該特征和實(shí)體“紹興”的位置特征存在包含關(guān)系。這個(gè)知識(shí)可以作為規(guī)則,為后續(xù)的未知鏈接預(yù)測(cè)做約束。
具體地說(shuō), 對(duì)于任意三元組(h,r,t), 如果只有實(shí)體t可以直接獲得位置特征ft=[tlng,tlat,tD],根據(jù)關(guān)系r我們可以推測(cè)實(shí)體h隱含的位置特征。如果r屬于包含關(guān)系,則h可能`存在隱含位置特征[tlng,tlat,tD-μ],其中0<μ
。如果r屬于相交關(guān)系,則h可能存在隱含位置特征>?
?
|hD+tD|,也就說(shuō)是h位于一個(gè)環(huán)狀區(qū)域范圍內(nèi)。如果r屬于相鄰關(guān)系,則h可能存在隱含位置特征 [hlng,hlat,hD], 其中以上變量滿(mǎn)足條件
?
≥|hD+tD|。反之,如果實(shí)體h含有隱藏位置特征,以此來(lái)推導(dǎo)t,也是如此。事實(shí)上,對(duì)于相交和相鄰關(guān)系,大多數(shù)三元組的兩個(gè)實(shí)體本身都可以直接獲取位置關(guān)系。以上的隱藏特征都是近似特征。
由此,我們可以獲得海量的實(shí)體隱藏位置特征和規(guī)則。事實(shí)上,可以獲得以下規(guī)則:
規(guī)則1(實(shí)體類(lèi)型匹配) 特定的關(guān)系擁有特定類(lèi)型的實(shí)體。例如,關(guān)系LocatedIn擁有的兩個(gè)實(shí)體一定是Location 類(lèi)型的;關(guān)系WasBornIn擁有的兩個(gè)實(shí)體一定是一個(gè)是Person類(lèi)型,一個(gè)是Location類(lèi)型。
規(guī)則2(參數(shù)個(gè)數(shù)匹配) 一對(duì)多和多對(duì)一的關(guān)系中特定實(shí)體的數(shù)目有一定限制。例如CityLocatedInCountry是一個(gè)多對(duì)一的關(guān)系。給定一個(gè)城市實(shí)體,在知識(shí)圖譜中最多存在一個(gè)國(guó)家實(shí)體與之對(duì)應(yīng)。
規(guī)則3(相似關(guān)系匹配) 如果關(guān)系r1和r2存在一定的牽連或同屬于同一個(gè)類(lèi)型(同是包含類(lèi)型),在不違背規(guī)則1、2的前提下,則擁有r1?關(guān)系的實(shí)體可能存在r2關(guān)系。例如, CityCapitalOfCountry->CityLocatedInCountry。
規(guī)則4(位置包含關(guān)系) 如果兩個(gè)實(shí)體的位置特征存在包含關(guān)系,則兩個(gè)實(shí)體可能存在包含關(guān)系。例如,實(shí)體“魯迅”和實(shí)體“浙江”的位置關(guān)系存在包含關(guān)系,則兩個(gè)實(shí)體很大程度上存在包含關(guān)系。
規(guī)則5(位置相鄰關(guān)系) 如果兩個(gè)實(shí)體的位置特征存在相鄰關(guān)系,則兩個(gè)實(shí)體可能存在相鄰關(guān)系。例如,實(shí)體“西湖”和實(shí)體“浙江大學(xué)”的位置關(guān)系存在相鄰關(guān)系,則兩個(gè)實(shí)體很大程度上存在相鄰關(guān)系。
規(guī)則6(位置相交關(guān)系) 如果兩個(gè)實(shí)體的位置特征存在相交關(guān)系,則兩個(gè)實(shí)體可能存在相交關(guān)系。例如,實(shí)體“金庸”和實(shí)體“徐志摩”的潛在的位置特征存在相交關(guān)系,則兩個(gè)實(shí)體可能存在相交關(guān)系。
規(guī)則7(位置包含傳導(dǎo)) 如果實(shí)體e2的位置特征包含實(shí)體e1的位置特征,實(shí)體e3的位置特征包含實(shí)體e2的位置特征,則實(shí)體e3和e1存在包含關(guān)系。包含關(guān)系可以一直連續(xù)傳遞,相鄰和相交關(guān)系不能傳遞。例如,實(shí)體“魯迅”和實(shí)體“浙江”存在包含關(guān)系,實(shí)體“浙江”和實(shí)體“中國(guó)”存在包含關(guān)系,則實(shí)體“魯迅”和實(shí)體“中國(guó)”存在包含關(guān)系。
此外,如果未知的一對(duì)一關(guān)系的三元組中,其中一個(gè)實(shí)體和關(guān)系存在于已知三元組正樣本中,那這個(gè)三元組很可能是不成立的。對(duì)于一些特殊的實(shí)體,可以通過(guò)幾重的關(guān)系鏈傳遞估計(jì)出位置特征的信息。例如,三元組(魯迅,說(shuō),中文),實(shí)體“中文”的位置特征可以通過(guò)關(guān)系如“中國(guó)人說(shuō)中文”、“中國(guó)人出生在中國(guó)”、“紹興位于浙江”、“浙江位于中國(guó)”和“紹興位于中國(guó)”等估計(jì)得到,其位置特征大致和實(shí)體“中國(guó)”的位置特征接近,從而估計(jì)出實(shí)體“中文”的位置特征。
2.4 基于向量化和規(guī)則的鏈接預(yù)測(cè)
給定一個(gè)知識(shí)圖譜,其包含n個(gè)實(shí)體,m個(gè)關(guān)系。我們可以獲得三元組集合O={h,r,t}。向量化方法的目的在于: (1)通過(guò)隱含的特征把實(shí)體和關(guān)系映射到一個(gè)向量;(2)利用訓(xùn)練好的向量來(lái)預(yù)測(cè)新三元組成立的可能性。本文中我們利用了三種成熟的向量化方法: RESCAL、TRESCAL、 TransE。
RESCAL將每個(gè)實(shí)體ei當(dāng)成一個(gè)向量ei∈Rd,每個(gè)關(guān)系rk都是一個(gè)矩陣Rk∈Rd×d。給定一個(gè)三元組(ei,rk,ej),它的打分函數(shù)如式(1)所示。
f(ei,rk,
?
(1)
{e}和{rk}是通過(guò)最小化下面的結(jié)構(gòu)損失函數(shù)來(lái)獲得的,如式(2)所示。
?
,rk,ej))2+λR
(2)
其中,如果三元組(ei,rk,ej)成立,則
?
等于1,反之為0。R是正則項(xiàng)。λ是正則化參數(shù),控制正則化和損失函數(shù)之間的平衡。
TRESCAL是RESCAL算法的一個(gè)擴(kuò)展,需要對(duì)給定關(guān)系的實(shí)體類(lèi)型進(jìn)行約束。例如,給定關(guān)系rk和分別包含特定類(lèi)型的實(shí)體集合Hk,Tk,則問(wèn)題變成優(yōu)化問(wèn)題,如式(3)所示。
?
∑i∈
?
,rk,ej))2+λR
(3)
TransE將三元組(ei,rk,ej)映射成以下的三個(gè)向量ei,rk,ej∈Rd,它使用以下的打分函數(shù)來(lái)計(jì)算三元組成立的可能性,如式(4)所示。
f(ei,rk,ej)=||ei+rk-ej||
(4)
其中{ei}、{rk} 是通過(guò)優(yōu)化式(5)的邊緣損失函數(shù)(正確樣本得到更高的得分,錯(cuò)誤樣本得分更低)來(lái)得到:
?
γ-f(ei,rk,
?
,rk,
?
(5)
其中t+是正樣本,O是正樣本的集合,t-是負(fù)樣本,N是負(fù)樣本的集合。在替換過(guò)程中我們未采用隨機(jī)替換,而是替換之后確保新的三元組在原始的數(shù)據(jù)集中存在確定的關(guān)系,但關(guān)系不是rk, 這很大程度上確保了樣本是負(fù)樣本。我們利用隨機(jī)梯度下降的方法來(lái)求解優(yōu)化問(wèn)題。
利用上述方法,對(duì)未知的三元組,打分高的一般情況下成立的可能性較高,反之較低。我們將向量化方法得分的輸出記為
?
,rk,ej),每個(gè)實(shí)體的位置特征記為fi、fj,標(biāo)記相交關(guān)系集合Rintersect含三元組s?對(duì),相鄰關(guān)系集合Radjacent含三元組p?對(duì),包含關(guān)系集合Rcontain含三元組q?對(duì),標(biāo)記一對(duì)多、多對(duì)一、一對(duì)一關(guān)系集合R1-M,RM-1,R1-1, 標(biāo)記特定關(guān)系所屬實(shí)體種類(lèi)的集合Hk、Tk。用邏輯變量
?
來(lái)標(biāo)記這個(gè)三元組成立的最終可能。根據(jù)文獻(xiàn)[11]我們把規(guī)則約束向量化結(jié)果的問(wèn)題定義為一個(gè)整數(shù)規(guī)劃的問(wèn)題如式(6)所示①。
?
(6)
其中
?
∈{0,1},?i,j,k,O是正樣本集合。通過(guò)解答上述問(wèn)題求得最終的得分
?
我們的方法優(yōu)勢(shì)如下: (1) 在向量化方法的前提下,利用位置和通用規(guī)則,使含有顯性和隱性位置特征的三元組鏈接預(yù)測(cè)準(zhǔn)確率有明顯的提高;(2)這是一個(gè)通用的框架,向量化方法和規(guī)則都可以靈活變化。
3 實(shí)驗(yàn)
實(shí)驗(yàn)的具體流程如下: (1)位置特征和規(guī)則挖掘;(2)基于向量化和規(guī)則的鏈接預(yù)測(cè);(3)分析位置特征和規(guī)則對(duì)結(jié)果的影響。
3.1 數(shù)據(jù)集
在實(shí)驗(yàn)中我們使用了三個(gè)數(shù)據(jù)集: WikiData-500K、WN-100K、FB-500K,分別從WikiData[14]、WordNet[15]、FreeBase[16]?獲取。WikiData是目前較大的一個(gè)開(kāi)放的知識(shí)圖譜。WikiData包含有human、taxon、administrative territorial、architectural structure、event、chemical compound、film、thoroughfare、astronomical object等類(lèi)型的實(shí)體組成的三元組信息。據(jù)我們統(tǒng)計(jì)有至少19.8%的三元組中至少有一個(gè)實(shí)體含有位置信息(事件、行政區(qū)劃、地點(diǎn)等)*,可以直接通過(guò)API獲取。我們由此構(gòu)建了WikiData-500K數(shù)據(jù)集。WN-100K和FB-500K都是由不同學(xué)者發(fā)布出的三元組數(shù)據(jù)集。我們從WN-100K、FB-500K篩選出位置相關(guān)的三元組來(lái)進(jìn)行訓(xùn)練。具體地說(shuō),在完整知識(shí)庫(kù)中至少30%的三元組都滿(mǎn)足條件要求。此外,我們還利用Yago*、GeoNames*、LinkedGeoData*和WikiData對(duì)所有數(shù)據(jù)中的實(shí)體進(jìn)行位置信息匹配,以獲得實(shí)體本身的位置特征。我們過(guò)濾了數(shù)據(jù)集中出現(xiàn)次數(shù)少于三次的實(shí)體,并采用了文獻(xiàn)[8]的方法來(lái)判斷實(shí)體的關(guān)系是一對(duì)多還是多對(duì)一來(lái)制定規(guī)則。此外,我們制定了一些同類(lèi)匹配的規(guī)則。實(shí)驗(yàn)數(shù)據(jù)集如表1所示。
?
3.2 特征和規(guī)則挖掘
我們的任務(wù)是提取出實(shí)體隱含的位置特征。首先,對(duì)數(shù)據(jù)集中所有的實(shí)體進(jìn)行位置信息匹配。利用外部數(shù)據(jù)集擁有的準(zhǔn)確地理位置信息匹配數(shù)據(jù)集中實(shí)體,大約40%的實(shí)體能匹配到準(zhǔn)確的位置特征。然后,我們對(duì)數(shù)據(jù)集中擁有的關(guān)系進(jìn)行分類(lèi)。
利用自動(dòng)分類(lèi)方法標(biāo)記了約63%的關(guān)系,剩下的關(guān)系采用人工標(biāo)記。事實(shí)上,有約5%的關(guān)系是有歧義的,我們將它們默認(rèn)歸到包含關(guān)系類(lèi)。最后利用位置特征和關(guān)系類(lèi)型挖掘剩下的實(shí)體隱藏位置特征。
3.3 鏈接預(yù)測(cè)
我們的任務(wù)是補(bǔ)全位置相關(guān)的三元組(h,r,t),也就是說(shuō),給定h和t預(yù)測(cè)r或者給定h和r預(yù)測(cè)t,或者給定r和t預(yù)測(cè)h。本節(jié)中測(cè)試了RESCAL、TRESCAL、TransE,并把利用基于位置的規(guī)則來(lái)約束向量化結(jié)果的方法命名成l-RESCAL、l-TRESCAL、l-TransE。
對(duì)每個(gè)數(shù)據(jù)集,我們把基于位置的三元組按照4∶1的比例劃分成訓(xùn)練集和測(cè)試集。對(duì)每一個(gè)實(shí)體我們都獲得其所屬類(lèi)型。對(duì)于測(cè)試三元組,通過(guò)計(jì)算命中@10(正確命中結(jié)果排前十所占的比例)來(lái)衡量。在具體實(shí)驗(yàn)中,RESCAL、TRESCAL的正則化參數(shù)λ=0.1,我們迭代訓(xùn)練了十次。在向量化訓(xùn)練過(guò)程中,我們將維度分別設(shè)置成10,20,50,100來(lái)選擇最優(yōu)的參數(shù)。然后利用集成學(xué)習(xí)的方法獲得三種向量化方法的最優(yōu)結(jié)果。在規(guī)則約束的過(guò)程中,δ1=0.7,δ2=0.6,δ3=0.4,我們使用lp solve*來(lái)解整數(shù)規(guī)劃問(wèn)題。我們對(duì)規(guī)則約束重復(fù)進(jìn)行了20 次取平均值,以獲得最優(yōu)的結(jié)果。
表2展示了不同數(shù)據(jù)集下不同關(guān)系進(jìn)行關(guān)系預(yù)測(cè)的結(jié)果。可以看出,利用基于位置的規(guī)則方法對(duì)特定的關(guān)系有顯著的提高。RESCAL和TRESCAL的提升幅度比TransE要高。
?
3.4 位置特征和規(guī)則分析
我們還對(duì)不同關(guān)系類(lèi)型和不同實(shí)體進(jìn)行了結(jié)果的比較,如表3所示。從結(jié)果可以看出,對(duì)我們的方法,包含關(guān)系獲得的提升程度 較 高,其 次 是 相鄰關(guān)系和相交關(guān)系。事實(shí)上,包含關(guān)系的位置隱含特征區(qū)域較為狹小,因此對(duì)關(guān)系的確定限制較大,可以獲得較好的結(jié)果;而相鄰關(guān)系和相交關(guān)系(實(shí)體都可以直接獲得位置特征除外)獲取的隱藏位置區(qū)域較大,因此限制較為不準(zhǔn)確。對(duì)實(shí)體而言,兩個(gè)實(shí)體都可以直接獲得位置關(guān)系的預(yù)測(cè)結(jié)果提升幅度最大,其次是單一實(shí)體的結(jié)果。有趣的是,對(duì)于兩個(gè)都不能直接獲得位置信息的實(shí)體,本方法仍能獲得少量的提升。事實(shí)上,例如判斷三元組(徐志摩,HasSameHometown,金庸)時(shí),實(shí)體“徐志摩”和“金庸”的隱藏位置特征是可以獲得的, 利用人工標(biāo)記關(guān)系“HasSameHometown”為相交關(guān)系,使用我們的方法可以獲得準(zhǔn)確度的提升。
表3?不同類(lèi)型關(guān)系命中@10結(jié)果/%
?
4 結(jié)論
本文提出了一種針對(duì)位置關(guān)系的基于向量化和規(guī)則的鏈接預(yù)測(cè)方法。實(shí)體位置特征和規(guī)則的使用降低了計(jì)算空間,提高了基于位置鏈接預(yù)測(cè)的準(zhǔn)確度。我們還對(duì)位置特征和規(guī)則進(jìn)行了實(shí)驗(yàn)分析。
實(shí)驗(yàn)結(jié)果證明,對(duì)于特定類(lèi)型的關(guān)系,位置特征和規(guī)則的利用可以使鏈接預(yù)測(cè)的準(zhǔn)確度得到一定程度的提高。將來(lái),我們計(jì)劃:(1)分布式我們的方法,使得它能夠適用于更大的數(shù)據(jù)集;(2)加入更加復(fù)雜的空間規(guī)則;(3)嘗試在向量化訓(xùn)練的同時(shí)直接利用規(guī)則,以提高準(zhǔn)確度。
審核編輯:金巧
?
?
評(píng)論
查看更多