導(dǎo)讀:發(fā)展是平臺永恒的話題,以電商平臺為例,在基于用戶身份、歷史行為挖掘偏好,以實現(xiàn)精準(zhǔn)搜索和推薦結(jié)果展示之外,為了激勵用戶在平臺進(jìn)行更多采購,需要專門構(gòu)建強化采購激勵、拓寬采購品類的場景。本文以知識圖譜為切入點,重點講解了阿里巴巴B2B在電商結(jié)構(gòu)化信息挖掘和場景應(yīng)用等方面的經(jīng)驗。
知識圖譜并不是一個全新的概念,它經(jīng)歷了知識工程、專家系統(tǒng)、語義網(wǎng)絡(luò)等多種形式。
01
知識工程與專家系統(tǒng)
在1977年第五屆國際人工智能會議上,美國斯坦福大學(xué)計算機(jī)科學(xué)家Edward A. Felgenbaum發(fā)表的文章The art of artificial intelligence. 1. Themes and case studies of knowledge engineering,系統(tǒng)性地闡述了“專家系統(tǒng)”的思想,并且提出了“知識工程”的概念。他認(rèn)為:“知識工程利用了人工智能的原理和方法,為那些需要專家知識才能解決的應(yīng)用難題提供求解的一般準(zhǔn)則和工具。在1984年8月全國第五代計算機(jī)專家討論會上,史忠植教授提出:“知識工程是研究知識信息處理的學(xué)科,提供開發(fā)智能系統(tǒng)的技術(shù),是人工智能、數(shù)據(jù)庫技術(shù)、數(shù)理邏輯、認(rèn)知科學(xué)、心理學(xué)等學(xué)科交叉發(fā)展的結(jié)果。” 專家系統(tǒng)最成功的案例是DEC的專家配置系統(tǒng)XCON。1980年,XCON最初被用于DEC位于新罕布什爾州薩利姆的工廠,它擁有大約2500條規(guī)則。截至1986年,它一共處理了80 000條指令,準(zhǔn)確率達(dá)到95%~98%。據(jù)估計,通過減少技師出錯時送給客戶的組件以加速組裝流程和增加客戶滿意度,它每年為DEC節(jié)省2500萬美元。 一個典型的專家系統(tǒng)如圖1所示,其特點主要包括:
在特定領(lǐng)域里要具有和人一樣或者超出人的高質(zhì)量解決困難問題的能力;
擁有大量、全面的關(guān)于特定領(lǐng)域的專業(yè)知識;
采用啟發(fā)的方法來指導(dǎo)推理過程,從而縮小解決方案的搜索范圍;
能夠提供對自己的推理決策結(jié)果進(jìn)行解釋的能力;
引入表示不同類型知識(如事實、概念和規(guī)則)的符號,專家系統(tǒng)在解決問題的時候用這些符號進(jìn)行推理;
能夠提供咨詢建議、修改、更新、拓展能力,并能處理不確定和不相關(guān)的數(shù)據(jù)。
圖1 專家系統(tǒng)架構(gòu)
可以看到,專家系統(tǒng)大量依靠領(lǐng)域?qū)<胰斯?gòu)建的知識庫。在數(shù)據(jù)量激增、信息暴漲的當(dāng)下,人工維護(hù)知識庫的方式在效率和覆蓋率上都難以達(dá)到令人滿意的水平。另外,推理規(guī)則的增加也增加了系統(tǒng)的復(fù)雜度,從而導(dǎo)致系統(tǒng)非常難以維護(hù)。
02
語義網(wǎng)絡(luò)與知識圖譜
1. 語義網(wǎng)絡(luò)伴隨著Web技術(shù)的不斷發(fā)展,人類先后經(jīng)歷了以網(wǎng)頁的鏈接為主要特征的Web 1.0時代到以數(shù)據(jù)的鏈接(Linked Data)為主要特征的Web 2.0時代,目前Web技術(shù)正逐步朝向Web之父Berners Lee在2001年提出的基于知識互聯(lián)的語義網(wǎng)絡(luò)(semantic Web),也就是Web 3.0時代邁進(jìn)。 在Web 2.0時代,互聯(lián)網(wǎng)發(fā)展迅猛,數(shù)據(jù)的規(guī)模呈爆發(fā)式增長,基于統(tǒng)計的機(jī)器學(xué)習(xí)方法占據(jù)主流,并且在各個領(lǐng)域取得不錯的成果。例如搜索引擎,搜索的流程大致可拆分為基于用戶查詢、召回、L2R這3個過程,一定程度提升了用戶獲取信息的效率。但是這種服務(wù)模式仍然是把一系列信息拋給用戶,用戶最終還是需要對數(shù)據(jù)進(jìn)行篩選、甄別,才能拿到自己最需要的信息。因此這種服務(wù)方式在效率、準(zhǔn)確率上都有缺陷。 語義網(wǎng)絡(luò)的目標(biāo)是構(gòu)建一個人與機(jī)器都可理解的萬維網(wǎng),使得網(wǎng)絡(luò)更加智能化,在解析用戶查詢意圖的基礎(chǔ)上,提供更加精準(zhǔn)和快速的服務(wù)。傳統(tǒng)的語義網(wǎng)絡(luò)要做到這一點,就需要把所有在線文檔構(gòu)成的數(shù)據(jù)都進(jìn)行處理并存放在一起,形成一個巨大、可用的數(shù)據(jù)庫。 這么做需要強大的數(shù)據(jù)處理和Web內(nèi)容智能分析能力:首先就需要對這些Web數(shù)據(jù)進(jìn)行語義標(biāo)注,但是由于Web數(shù)據(jù)具有體量巨大、異質(zhì)異構(gòu)、領(lǐng)域范圍大等特點,所以如何自動給Web上的網(wǎng)頁內(nèi)容添加合適的標(biāo)簽成為技術(shù)痛點之一。另外,面對已經(jīng)標(biāo)注過的Web數(shù)據(jù),機(jī)器如何進(jìn)行思考和推理也是亟待解決的問題。 由于上述問題的存在,在語義網(wǎng)絡(luò)提出后的10年間,其沒有得到大規(guī)模應(yīng)用,但是在對其研究的過程中,積累沉淀了成熟的本體模型建模和形式化知識表達(dá)方法,例如RDF(Resource Description Framework)和萬維網(wǎng)本體語言(Web Ontology Language,OWL),這為后續(xù)知識圖譜的出現(xiàn)奠定了基礎(chǔ)。2. 知識圖譜① 知識圖譜概述知識圖譜由Google公司于2012年5月16日第一次正式提出并應(yīng)用于Google搜索中的輔助知識庫。谷歌知識圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的相關(guān)主題的信息。其目標(biāo)是提高搜索引擎的能力,希望用戶能夠使用這項功能來解決他們遇到的查詢問題,從而提高搜索質(zhì)量和用戶體驗。 知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其之間的關(guān)系。其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性-值對,實體間通過關(guān)系相互連接,構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。隨著知識圖譜構(gòu)建規(guī)模越來越大,復(fù)雜度越來越高,開始出現(xiàn)實體、類別、屬性、關(guān)系等多顆粒度、多層次的語義單元,這些關(guān)聯(lián)關(guān)系通過統(tǒng)一的知識模式(Schema)抽象層和知識實例(Instance)層共同作用構(gòu)成更加復(fù)雜的知識系統(tǒng)。 從定義中可以看到,知識圖譜是一個語義知識庫,具備足夠的領(lǐng)域知識,其最重要的組成成分是三元組。三元組通常可以表示為G=
03
知識圖譜構(gòu)建
知識圖譜構(gòu)建是一個系統(tǒng)工程,涵蓋多種信息處理技術(shù),用于滿足圖譜構(gòu)建過程中的各種需要。典型的圖譜構(gòu)建流程主要包括:知識抽取、知識推理和知識存儲。 知識表示貫穿于整個知識圖譜構(gòu)建和應(yīng)用的過程,在不同階段知識表示具有不同的體現(xiàn)形式,例如在圖譜構(gòu)建階段,知識表示主要用于描述知識圖譜結(jié)構(gòu),指導(dǎo)和展示知識抽取、知識推理過程;在應(yīng)用階段,知識表示則主要考慮上層應(yīng)用期望知識圖譜提供什么類型的語義信息,用以賦能上層應(yīng)用的語義計算。 本節(jié)重點講述面向應(yīng)用的知識圖譜表示。1. 知識抽取知識抽取是知識圖譜構(gòu)建的第一步,是構(gòu)建大規(guī)模知識圖譜的關(guān)鍵,其目的是在不同來源、不同結(jié)構(gòu)的基礎(chǔ)數(shù)據(jù)中進(jìn)行知識信息抽取。按照知識在圖譜中的組成成分,知識抽取任務(wù)可以進(jìn)一步細(xì)分為實體抽取、屬性抽取和關(guān)系抽取。 知識抽取的數(shù)據(jù)源有可能是結(jié)構(gòu)化的(如現(xiàn)有的各種結(jié)構(gòu)化數(shù)據(jù)庫),也有可能是半結(jié)構(gòu)化的(如各種百科數(shù)據(jù)的infobox)或非結(jié)構(gòu)化的(如各種純文本數(shù)據(jù))。針對不同類型的數(shù)據(jù)源,知識抽取所需要的技術(shù)不同,技術(shù)難點也不同。通常情況下,一個知識圖譜構(gòu)建過程面對的數(shù)據(jù)源不會是單一類型數(shù)據(jù)源。 本節(jié)重點介紹針對非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行信息抽取的技術(shù)。如上文所述,實體和屬性間的界線比較模糊,故可以用一套抽取技術(shù)實現(xiàn),所以下文如果不做特殊說明,實體抽取泛指實體、屬性抽取。① 實體抽取實體抽取技術(shù)歷史比較久遠(yuǎn),具有成體系、成熟度高的特點。早期的實體抽取也稱為命名實體識別(Named Entity Recognition,NER),指的是從原始語料中自動識別出命名實體。命名實體指的是具有特定意義的實體名詞,如人名、機(jī)構(gòu)名、地名等專有名詞。實體是知識圖譜中的最基本的元素,其性能將直接影響知識庫的質(zhì)量。按照NER抽取技術(shù)特點,可以將實體抽取技術(shù)分為基于規(guī)則的方法、基于統(tǒng)計機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
基于規(guī)則的方法:
基于規(guī)則的方法首先需要人工構(gòu)建大量的實體抽取規(guī)則,然后利用這些規(guī)則在文本中進(jìn)行匹配。雖然這種方法對領(lǐng)域知識要求較高,設(shè)計起來會非常復(fù)雜,且實現(xiàn)規(guī)則的全覆蓋比較困難,移植性比較差,但是在啟動的時候可以通過這個方法可以快速得到一批標(biāo)注語料。
基于統(tǒng)計機(jī)器學(xué)習(xí)的方法:
既然是機(jī)器學(xué)習(xí)的方法,就需要標(biāo)注語料,高質(zhì)量的標(biāo)注語料是通過這類方法得到好的效果的重要保障。該方法的實現(xiàn)過程為:在高質(zhì)量的標(biāo)注語料的基礎(chǔ)上,通過人工設(shè)計的特征模板構(gòu)造特征,然后通過序列標(biāo)注模型,如隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MEM)和條件隨機(jī)場模型(Conditional Random Fields,CRF)進(jìn)行訓(xùn)練和識別。 模型特征的設(shè)計需要較強的領(lǐng)域知識,需要針對對應(yīng)實體類型的特點進(jìn)行設(shè)計。例如,在人名識別任務(wù)中,一個中文人名本身的顯著特點是一般由姓和一兩個漢字組成,并且人名的上下文也有一些規(guī)律,如“×××教授”“他叫×××”。在有了高質(zhì)量的標(biāo)注語料的基礎(chǔ)上,合適的特征設(shè)計是得到好的序列標(biāo)注模型效果的又一重要保障。 對于序列標(biāo)注模型,一般我們對需要識別的目標(biāo)字符串片段(實體)通過SBIEO(Single、Begin、Inside、End、Other)或者SBIO(Single、Begin、Inside、Other)標(biāo)注體系進(jìn)行標(biāo)注。命名實體標(biāo)注由實體的起始字符(B)、中間字符(I)、結(jié)束字符(E)、單獨成實體的字符(S)、其他字符(O)等組成,如圖2所示。
圖2 命名實體標(biāo)注
為了區(qū)分實體的類型,會在標(biāo)注體系上帶上對應(yīng)的類型標(biāo)簽,例如ORG-B、ORG-I、ORG-E。 在實體抽取中,我們最常用的基于統(tǒng)計的序列標(biāo)注學(xué)習(xí)模型是HMM、CRF。其中,HMM描述由隱藏的隱馬爾可夫隨機(jī)生成觀測序列的聯(lián)合分布的P(X,Y)過程,屬于生成模型(Generative Model),CRF則是描述一組輸入隨機(jī)變量條件下另一組構(gòu)成馬爾可夫隨機(jī)場的數(shù)據(jù)變量的條件概率分布P(Y|X),屬于判別模型(Discrimination Model)。 以HMM為例,模型可形式化表示為λ= (A,B,π),設(shè)I是長度為T的狀態(tài)序列,O是對應(yīng)長度的觀測序列,M為所有可能的觀測數(shù)(對應(yīng)于詞典集合大小),N為所有狀態(tài)數(shù)(對應(yīng)標(biāo)注的類別數(shù)),A是狀態(tài)轉(zhuǎn)移矩陣:
其中:
aij表示在時刻t處于qi的條件下在時刻t+1轉(zhuǎn)移到qj的概率。 B是觀測概率矩陣:
其中:
π是初始狀態(tài)概率向量:
其中:
πi表示在時刻t=1處于狀態(tài)qi的概率。 HMM模型的參數(shù)學(xué)習(xí)即學(xué)習(xí)上面的A,B,π矩陣,有很多實現(xiàn)方法,比如EM和最大似然估計。一般在語料充足的情況下,為了簡化過程,采用最大似然估計,例如:
序列標(biāo)注任務(wù)可以抽象為求解給定觀察序列O=(o1,o2,...,oT)和模型λ=(A,B,π),也就是計算在模型λ下使給定觀測序列條件概率P(I|O)最大的觀測序列I=(i1,i2,...,iT),即在給定觀測序列(即原始字符串文本)中求最有可能的對應(yīng)的狀態(tài)序列(標(biāo)注結(jié)構(gòu))。一般采用維特比算法,這是一種通過動態(tài)規(guī)劃方法求概率最大路徑的算法,一條路徑對應(yīng)一個狀態(tài)序列。 定義在時刻t狀態(tài)為i的所有單個路徑(i1,i2,…,it)中概率最大值為:
可以得到變量δ的遞推公式:
定義在時刻t狀態(tài)為i的所有單個路徑(i1,i2,…,it-1,i)中概率最大的路徑的第t-1個節(jié)點為:
維特比算法在初始化δ1(i)=πibi(o1),Ψ1(i)=0,i=1,2,...,N之后,通過上述遞推公式,得到最優(yōu)序列。 CRF算法與維特比算法類似,其得到在各個位置上的非規(guī)范化概率的最大值,同時記錄該路徑:
基于深度學(xué)習(xí)的方法
在上面介紹用統(tǒng)計機(jī)器學(xué)習(xí)的方法構(gòu)造特征的時候,我們發(fā)現(xiàn)實體在原始文本中的上下文特征非常重要。構(gòu)建上下文特征需要大量的領(lǐng)域知識,且要在特征工程上下不少功夫。隨著深度學(xué)習(xí)的方法在自然語言處理上的廣泛應(yīng)用,構(gòu)建上下文特征開始變得簡單了。深度學(xué)習(xí)的方法直接以詞/字向量作為輸入,一些模型(如RNN、Transformer等)本身就能很好地學(xué)習(xí)到上下文信息,并且不需要專門設(shè)計特征來捕捉各種語義信息,相比傳統(tǒng)的統(tǒng)計機(jī)器學(xué)習(xí)模型,性能都得到了顯著提高。這一類模型的通用結(jié)構(gòu)基本都是一個深度神經(jīng)網(wǎng)絡(luò)+CRF,如bi-LSTM-CRF、IDCNN-CRF、LSTM-CNN-CRF、Bert-biLSTM-CRF等,模型可以基于字或詞輸入(一般來說,基于字的模型性能更加優(yōu)秀,它可以有效解決OOV問題)。這個DNN模型可以學(xué)習(xí)上下文語義特征、預(yù)測各個位置上輸出各個標(biāo)簽的概率,然后再接入CRF層來學(xué)習(xí)各標(biāo)簽之間的依賴關(guān)系,得到最終的標(biāo)注結(jié)果。② 關(guān)系抽取關(guān)系抽取的目標(biāo)是抽取兩個或者多個實體間的語義關(guān)系,從而使得知識圖譜真正成為一張圖。關(guān)系抽取的研究是以MUC(Message Understanding Conference)評測會議和后來取代MUC的ACE(Automatic Content Extraction)評測會議為主線進(jìn)行的。ACE會議會提供測評數(shù)據(jù),現(xiàn)在許多先進(jìn)的算法已經(jīng)被提出。 一般關(guān)系抽取的順序是,先識別實體,再抽取實體之間可能存在的關(guān)系。其實也可以把實體抽取、關(guān)系抽取聯(lián)合在一起同時完成。目前,關(guān)系抽取方法可以分為基于模板的關(guān)系抽取和基于監(jiān)督學(xué)習(xí)的關(guān)系抽取兩種方法。
基于模板的關(guān)系抽取
基于模板的關(guān)系抽取,即由人工設(shè)計模板,再結(jié)合語言學(xué)知識和具體關(guān)系的語料特點,采用boot-strap思路到語料里匹配并進(jìn)行抽取關(guān)系。這種方法適用于小規(guī)模、特定領(lǐng)域任務(wù)冷啟動時的關(guān)系抽取,這種場景下效果比較穩(wěn)定。
基于監(jiān)督學(xué)習(xí)的關(guān)系抽取
基于監(jiān)督學(xué)習(xí)的關(guān)系抽取方法一般把關(guān)系抽取任務(wù)當(dāng)作一系列的分類問題處理。即基于大規(guī)模的標(biāo)注語料,針對實體所在的句子訓(xùn)練有監(jiān)督的分類模型。分類模型有很多,例如統(tǒng)計機(jī)器學(xué)習(xí)方法SVM及深度學(xué)習(xí)方法(如CNN)等。 傳統(tǒng)的機(jī)器學(xué)習(xí)方法重點在特征選擇上,除了實體本身的詞特征,還包括實體詞本身、實體類型、兩個實體間的詞以及實體距離等特征。很多研究都引入了依存句法特征,用以引入實體間的線性依賴關(guān)系。基于深度學(xué)習(xí)的關(guān)系抽取方法則不需要人工構(gòu)建各種特征,輸入一般只要包括句子中的詞及其位置的向量表示特征。目前基于深度學(xué)習(xí)的關(guān)系抽取方法可以分為流水線方法(Pipeline)和聯(lián)合抽取方法(Jointly)。前者是將實體識別和關(guān)系抽取作為兩個前后依賴的分離過程;后者則把兩個方法相結(jié)合,在統(tǒng)一模型中同時完成,從而避免流水線方法中存在的錯誤累計問題。 在經(jīng)典的深度學(xué)習(xí)關(guān)系抽取方法中,輸入層采用的就是詞、位置信息,將在Embedding層得到的向量作為模型的輸入,經(jīng)過一個BI-LSTM層和Attention層,輸出得到各個關(guān)系的概率,如圖3所示。
圖3 經(jīng)典深度學(xué)習(xí)關(guān)系抽取模型架構(gòu)
③ 知識融合通過知識抽取,我們得到大量實體(屬性)和關(guān)系,但是由于描述、寫法的不同,結(jié)果中存在大量冗余和錯誤信息,有必要對這些數(shù)據(jù)進(jìn)行消歧、清洗和整合處理。作為知識融合的重點技術(shù),實體鏈接(Entity Linking)的目的是將在文本中抽取得到的實體對象鏈接到知識庫中與之對應(yīng)的唯一確定的實體對象,以實現(xiàn)實體消歧和共指消解。 實體消歧(Entity Disambiguation)專門用于解決同名實體的歧義問題,最簡單的方法是通過實體的屬性、周邊的詞構(gòu)成特征向量,通過向量的余弦相似度評估兩個實體的相似度。基于這個思想,我們可以有更多的基于語義的方法來表征目標(biāo)實體,從而評估兩個實體是否是同一個。 共指消解(Entity Resolution)是指解決多個不同寫法的實體指向同一個實體的問題。一般這類問題可以參考實體消歧方法解決,也可以具體問題具體分析,通過一些規(guī)則方法解決。2. 知識推理知識推理是基于現(xiàn)有的知識圖譜結(jié)構(gòu),進(jìn)一步挖掘隱含的知識,用來補全現(xiàn)有知識圖譜屬性、關(guān)系,從而發(fā)現(xiàn)新的知識,拓展和豐富圖譜。例如可以通過推理發(fā)現(xiàn)新屬性,如由已知實體的出生年月屬性推理出年齡;也可以發(fā)現(xiàn)新關(guān)系,例如,已知(A,股東,B公司)、(C,股東,B公司)可以推理得出(A,合作伙伴,C)。知識推理的方法可以分為兩大類:基于邏輯的推理和基于圖的推理。① 基于邏輯的推理基于邏輯的推理主要包括一階謂詞邏輯(First Order Logic)推理、描述邏輯(Description Logic)推理。一階謂詞對應(yīng)著知識庫里的實體對象和關(guān)系,通過謂詞之間的“與”和“或”的關(guān)系來表示知識變遷從而實現(xiàn)推理。例如通過“媽媽是女人”“女人是人”可以推理得到“媽媽是人”。描述邏輯則是在一階謂詞的基礎(chǔ)上,解決一階謂詞邏輯的表示能力有限的問題,通過TBox(Terminology Box)和ABox(Assertion Box),可以將知識圖譜中復(fù)雜的實體關(guān)系推理轉(zhuǎn)化為一致性的檢驗問題,從而簡化推理。② 基于圖的推理基于圖的推理方法,主要借助圖的結(jié)構(gòu)特征,通過路徑游走的方法,如Path Ranking算法和神經(jīng)網(wǎng)絡(luò)圖向量表示方法,進(jìn)行基于圖的推理。Path Ranking算法的基本思想是從圖譜的一個節(jié)點出發(fā),經(jīng)過邊在圖上游走,如果能夠通過一個路徑到達(dá)目標(biāo)節(jié)點,則推測源節(jié)點和目標(biāo)節(jié)點存在關(guān)系。神經(jīng)網(wǎng)絡(luò)圖向量表示方法則是對通過向量表示后的圖節(jié)點、關(guān)系進(jìn)行相似度運算,推理節(jié)點之間是否存在關(guān)系。3. 知識圖譜存儲知識圖譜中的信息可以用RDF結(jié)構(gòu)表示,它的主要組成成分是三元組,主要包括實體及其屬性、關(guān)系三類元素。在實際應(yīng)用中,按照底層數(shù)據(jù)庫的存儲方式不同,可以分成基于表結(jié)構(gòu)的存儲和基于圖結(jié)構(gòu)的存儲。基于表結(jié)構(gòu)的存儲可以理解為一般的關(guān)系型數(shù)據(jù)庫,常見的如MySQL、Oracle,基于圖存儲的數(shù)據(jù)庫常見的有Neo4j、OrientDB、GraphDB等。① 基于表結(jié)構(gòu)的存儲基于表結(jié)構(gòu)的知識圖譜存儲利用二維數(shù)據(jù)表對知識圖譜中的數(shù)據(jù)進(jìn)行存儲,有3種常見的設(shè)計方案:基于三元組的存儲、基于類型表的存儲和基于關(guān)系型數(shù)據(jù)庫的存儲。
基于三元組的存儲
因為知識圖譜可以由三元組描述,所以我們可以把知識圖譜轉(zhuǎn)化成三元組的描述方式,將其放到一張數(shù)據(jù)表中。例如可以類似表1所示的形式。
表1 三元組存儲示例
這種存儲的優(yōu)點很明顯,結(jié)構(gòu)比較簡單,可以通過再加一些字段來增強對關(guān)系的信息的描述,例如區(qū)分是屬性還是關(guān)系。其缺點也很明顯:首先,這樣有很高的冗余,存儲開銷很大,其次,因修改、刪除和更新操作帶來的操作開銷也很大;最后,由于所有的知識都是以一行一個三元組的方式存儲的,因此所有的復(fù)雜查詢都要拆分為對三元組的查找才能得到答案。
基于類型表的存儲
針對上述方案存在的缺點,可以為每一種實體類型設(shè)計一張數(shù)據(jù)庫表,把所有同一類型的實體都放在同一張表中,用表的字段來表示實體的屬性/關(guān)系。這種方案可解決上面存儲簡單、冗余度高的問題,但是缺點也很明顯:首先,表字段必須事先確定,所以要求窮舉實體的屬性/關(guān)系,且無法新增(否則需要修改表結(jié)構(gòu));其次,因為屬性/關(guān)系都是存儲在特定列中的,所以無法支持對不確定類型的屬性和關(guān)系的查找;最后,因為數(shù)據(jù)按照類型放在對應(yīng)表中,所以在查詢之前就需要事先知道實體的類型。
基于關(guān)系型數(shù)據(jù)庫存儲
關(guān)系型數(shù)據(jù)庫通過表的屬性來實現(xiàn)對現(xiàn)實世界的描述。我們可以在第二種方案的基礎(chǔ)上設(shè)計實體表(用于存儲實體屬性)、關(guān)系表(用于存儲實體間的關(guān)系),這一定程度上可以解決表結(jié)構(gòu)固定、無法新增關(guān)系的問題,因為一般我們認(rèn)為實體的屬性可以在Schema設(shè)計時事先枚舉完。例如表7-1,可以拆分為3張表(見表2、表3和表4)。
表2 組織機(jī)構(gòu)表
表3 人物表
表4 關(guān)系表
4. 基于圖結(jié)構(gòu)的存儲知識圖譜本身就是圖結(jié)構(gòu)的,實體可以看作圖的節(jié)點,關(guān)系可以看作圖的關(guān)系,基于圖的方式存儲知識,可以直接、準(zhǔn)確地反映知識圖譜內(nèi)部結(jié)構(gòu),有利于知識的查詢、游走。基于圖譜的結(jié)構(gòu)進(jìn)行存儲,可以借用圖論的相關(guān)算法進(jìn)行知識推理。常見的圖數(shù)據(jù)庫有Neo4j、OrientDB、GraphDb、GDB(阿里云)等。 Neo4j是一個開源的圖數(shù)據(jù)庫,它將結(jié)構(gòu)化的數(shù)據(jù)以圖的形式存儲,基于Java實現(xiàn)(現(xiàn)在也提供Python接口),是一個具備完全事務(wù)特性的高性能數(shù)據(jù)系統(tǒng),具有成熟數(shù)據(jù)庫的所有特性。Neo4j分為商業(yè)版和社區(qū)版。其中社區(qū)版是開源的,是一個本地數(shù)據(jù)庫;商業(yè)版則實現(xiàn)了分布式功能,能夠?qū)⒍嗯_機(jī)器構(gòu)造成數(shù)據(jù)庫集群來提供服務(wù)。它采用的查詢語言是cypher,可以通過Neo4j實現(xiàn)知識圖譜節(jié)點、關(guān)系的創(chuàng)建(create命令)和查詢(match命令)。 Neo4j在Linux上的安裝非常簡單,到官網(wǎng)上下載對應(yīng)的安裝包,解壓后安裝到bin目錄,然后通過./neo4j start命令啟動。我們可以在: http://localhost:7474/browser/ 訪問可視化界面(見圖4),可以在這個Web頁面上通過cypher和圖數(shù)據(jù)庫進(jìn)行交互。
圖4 Neo4j Web可視化界面 阿里巴巴內(nèi)部也研發(fā)了圖數(shù)據(jù)庫用于存儲知識圖譜數(shù)據(jù),如GDB、iGraph等,其中GDB(Graph Database,圖數(shù)據(jù)庫)是由阿里云自主研發(fā)的,是一種支持Property Graph圖模型、用于處理高度連接數(shù)據(jù)查詢與存儲的實時、可靠的在線數(shù)據(jù)庫。它支持Apache TinkerPop Gremlin查詢語言,可以快速構(gòu)建基于高度連接的數(shù)據(jù)集的應(yīng)用程序。GDB非常適合用于社交網(wǎng)絡(luò)、欺詐檢測、推薦引擎、實時圖譜、網(wǎng)絡(luò)/IT運營這類需要用到高度互連數(shù)據(jù)集的場景。目前GDB正處于公測期間,阿里巴巴內(nèi)部很多知識圖譜業(yè)務(wù)都基于GDB存儲,它具備如下優(yōu)勢:
標(biāo)準(zhǔn)圖查詢語言:支持屬性圖,高度兼容Gremlin圖查詢語言。
高度優(yōu)化的自研引擎:高度優(yōu)化的自研圖計算層和存儲層,通過云盤多副本方案保障數(shù)據(jù)超高可靠性,支持ACID事務(wù)。
服務(wù)高可用:支持高可用實例,單節(jié)點出故障后業(yè)務(wù)會迅速轉(zhuǎn)移到其他節(jié)點,從而保障了業(yè)務(wù)的連續(xù)性。
易運維:提供備份恢復(fù)、自動升級、監(jiān)控告警、故障切換等豐富的運維功能,大幅降低運維成本。
04
知識表示
知識表示是指在不同的語義環(huán)境下有不同的含義,例如在圖譜構(gòu)建階段,知識表示可以認(rèn)為是基于RDF用三元組形式,如“<實體,屬性,值>”或者“<實體,關(guān)系,實體>”(也有描述為<主語,謂詞,賓語>)來表征知識圖譜的語義信息的。在知識圖譜接入上層應(yīng)用場景后,尤其是隨著深度學(xué)習(xí)方法的廣泛采用,如何將知識圖譜和深度學(xué)習(xí)模型融合,借助知識圖譜引入領(lǐng)域知識來提升深度學(xué)習(xí)模型性能,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。 本節(jié)將重點介紹基于知識表示的學(xué)習(xí)方法,介紹如何將知識圖譜中的高度稀疏的實體、關(guān)系表示成一個低維、稠密向量。1. 距離模型結(jié)構(gòu)表示(Structured Embedding,SE),將每個實體用d維的向量表示,所有實體被投影到同一個d維向量空間中,同時,為了區(qū)分關(guān)系的有向特征,為每個關(guān)系r定義了2個矩陣Mr,1,Mr,2∈Rd*d,用于三元組中頭實體和尾實體的投影操作,將頭實體、尾實體投影到關(guān)系r的空間中來計算兩個向量的距離,公式為:
用以反映2個實體在關(guān)系r下的語義相關(guān)度,距離越小,說明這2個實體存在這種關(guān)系的可能性越大。然而該模型有一個重要缺陷,它使用頭、尾兩個不同的矩陣進(jìn)行投影,這個矩陣相互獨立沒有協(xié)同,往往無法精確刻畫兩個實體基于關(guān)系的語義聯(lián)系。為了解決這個問題,后續(xù)出現(xiàn)了單層神經(jīng)網(wǎng)絡(luò)模型(Single Layer Model,SLM)、語義匹配能量模型(Semantic Matching Energy,SME)等方法,如RESCAL。RESACL模型是一個基于矩陣分解的模型,在該模型中,將整個知識圖譜編碼為一個三維張量X,如果三元組存在,則Xhrt=1,否則為0。張量分解的目標(biāo)是要將每個三元組對應(yīng)的張量分解為實體和關(guān)系,使得Xhrt盡量接近lhMrlt,函數(shù)可表示為:
2. 翻譯模型自從Mikolov等人于2013年提出word2vec模型開始,表示學(xué)習(xí)Embedding在自然語言處理領(lǐng)域受到廣泛關(guān)注,該模型發(fā)現(xiàn)在詞向量空間中平移(加減)不變現(xiàn)象,即:
其中C(w)表示w通過word2vec得到的詞向量。受這類類比推理實驗啟發(fā),Bordes等人提出了TransE模型,之后又出現(xiàn)多種衍生模型,如TransH、TransR等。TransE將知識庫中的關(guān)系看作實體間的平移向量,對于每個三元組,TransE希望:
即期望頭節(jié)點向量沿關(guān)系平移后,盡量和尾節(jié)點向量重合(見圖5)。
圖5 TransE 模型
模型的損失函數(shù)定義如下:
“||”表示取模運算,如L2距離。 在實際學(xué)習(xí)過程中,為了增強模型知識表示的區(qū)分能力,TransE采用了最大間隔,目標(biāo)函數(shù)為:
其中,S是正確的三元組集合,S-是錯誤的三元組集合,γ為正確三元組得分和錯誤三元組得分之間的間隔距離,是一個超參數(shù)。S-的產(chǎn)生與負(fù)樣本的生成方式不同,不通過直接隨機(jī)采樣三元組,而是將S中每一個三元組的頭實體、關(guān)系、尾實體其中之一隨機(jī)替換成其他實體或關(guān)系來構(gòu)造。 TransE模型簡單有效,后續(xù)很多知識表示學(xué)習(xí)方法都是以此為代表進(jìn)行拓展的。例如TransH模型,為了解決TransE在處理1-N、N-1、N-N復(fù)雜關(guān)系時的局限性,提出讓一個實體在不同關(guān)系下?lián)碛胁煌谋硎尽A硗猓m然TransH模型使得每個實體在不同關(guān)系下?lián)碛辛瞬煌谋硎荆撬匀患僭O(shè)實體和關(guān)系處于統(tǒng)一語義空間中,這和我們一般的認(rèn)知有點不同,于是有學(xué)者提出了TransR模型。TransR模型首先通過一個投影矩陣Mr把實體投影到關(guān)系的語義空間,然后再進(jìn)行關(guān)系類比推理(見圖6):
圖6 各種翻譯模型
05
電商知識圖譜應(yīng)用
知識圖譜提供了一種更好的組織、管理和利用海量信息的方式,描述了現(xiàn)實世界中的概念、實體以及它們之間的關(guān)系。自從谷歌提出知識圖譜并應(yīng)用在搜索引擎中,用以提升搜索引擎使用體驗,提高搜索引擎質(zhì)量以后,知識圖譜在各種垂直領(lǐng)域場景中都扮演了重要的角色。 隨著消費升級,行業(yè)會場+爆款的導(dǎo)購模式已經(jīng)無法滿足消費者心智,人們對貨品的需求逐漸轉(zhuǎn)化為對場景的需求。通過場景重新定義貨品的需求產(chǎn)生,場景運營平臺應(yīng)運而生。場景運營平臺通過對商品知識的挖掘,將具有共同特征的商品通過算法模型聚合在一起,形成事實上的跨品類商品搭配。在算法端完成場景-商品知識圖譜的建設(shè)后,通過當(dāng)前訴求挖掘消費者深層次訴求,推薦某個場景下互相搭配的商品,給予消費者對應(yīng)場景下一站式的購物體驗,達(dá)到鼓勵消費者跨類目購買行為及提升客單價的目的。例如在阿里電商平臺,導(dǎo)購場景就有了很好的應(yīng)用,并取得了不錯的效果。 1688團(tuán)隊在阿里內(nèi)部數(shù)據(jù)和算法基建的基礎(chǔ)上,基于B類商品特征,構(gòu)建了自己的商品知識圖譜,以CPV的方式表征一個商品,具體商品表征如圖7所示。
圖7 商品CPV表征示意圖
任何知識圖譜應(yīng)用的構(gòu)建,整體上都要經(jīng)歷如下幾個步驟:文本等非結(jié)構(gòu)化或半結(jié)構(gòu)化信息→結(jié)構(gòu)化的知識圖譜→知識圖譜表征→特定應(yīng)用場景。1688的商品知識圖譜,在阿里通用的電商NLP技術(shù)的基礎(chǔ)上,完成了半結(jié)構(gòu)化信息向結(jié)構(gòu)化的知識圖譜轉(zhuǎn)化的步驟,但是中間存在大量質(zhì)量較差、語義模糊甚至錯誤的數(shù)據(jù)。為了優(yōu)化這部分?jǐn)?shù)據(jù),阿里做了大量的工作,包括實體合并、消歧、長尾數(shù)據(jù)裁剪等。 針對初步加工過的數(shù)據(jù),還需要大量的人工來標(biāo)注清洗,以發(fā)揮數(shù)據(jù)的價值。而數(shù)據(jù)標(biāo)注清洗這種累活一般是找專門的數(shù)據(jù)標(biāo)注公司外包完成的。為了減少專門標(biāo)注的成本,我們采用了“以戰(zhàn)養(yǎng)兵”的思路,讓運營直接使用這份經(jīng)過初步加工的數(shù)據(jù),通過收集運營的操作數(shù)據(jù),快速反饋到算法模型中并不斷優(yōu)化結(jié)果,形成運營-數(shù)據(jù)的相互反饋,如圖8所示,讓工具越用越順手,越用越好。
圖8 主題會場搭建流程示意圖
具體的主題錄入方式是:運營指定一個主題場景,比如婚慶主題,在指定主題下涵蓋商品的類目、屬性、屬性值。比如列舉一組配置,可以搭配后臺配置截圖。通過行業(yè)運營專家的經(jīng)驗將主題和相應(yīng)的商品圖譜關(guān)聯(lián)起來,我們可以明確哪些CPV數(shù)據(jù)存在業(yè)務(wù)關(guān)聯(lián),以及運營認(rèn)為哪些數(shù)據(jù)是有效的。除了主題數(shù)據(jù)的人工錄入,我們還配套了相關(guān)的自動化頁面搭建方案。 電商經(jīng)常需要做促銷活動,活動會場頁面的制作需要投入大量人力,常見的活動頁面如圖9所示。
圖9 常見電商促銷活動頁面圖
這種活動類導(dǎo)購頁面的搭建,核心是站在買家的角度幫助他們發(fā)現(xiàn)和選擇商品,如圖10所示。其中,什么商品、如何挑選、怎樣呈現(xiàn)就是導(dǎo)購頁面包含的核心要素和業(yè)務(wù)流程。映射到技術(shù)領(lǐng)域,則會涉及建立頁面、數(shù)據(jù)分析、投放策略的三個方面。
圖10 活動類導(dǎo)購頁面搭建流程示意圖
1688在活動頁面制作方面沉淀多年,有眾多實用的技術(shù)和工具供運營使用,如頁面組件化搭建產(chǎn)品(積木盒子、奇美拉)、指標(biāo)選品工具(選品庫)、商品排序投放產(chǎn)品(投放平臺)等。這些產(chǎn)品都有各自的細(xì)分業(yè)務(wù)域,運營通常需要跳轉(zhuǎn)到多個平臺進(jìn)行配置,才能完成一張活動頁面的搭建,整體流程如圖11所示。
圖11 活動頁面搭建平臺示意圖
這就像是辦證件,A窗口讓你去B窗口登記,B窗口讓你去C窗口填表。我們都圍著一個個的“窗口”轉(zhuǎn),這是一種以資源為中心的工作方式。以前讓用戶圍繞著資源轉(zhuǎn),是為了最大化資源的使用效率,但是在今天這個人力成本高的時代,需要從資源視角轉(zhuǎn)向用戶視角,讓資源圍著用戶轉(zhuǎn),這樣可以最大化價值流動效率。 我們通過幾個月的努力,將十余個系統(tǒng)打通,實現(xiàn)了數(shù)據(jù)源標(biāo)準(zhǔn)化方案、數(shù)據(jù)頁面綁定方案、頁面自動多端搭建方案、投放自動化方案等,形成了如圖12所示的產(chǎn)品體系。
圖12 會場搭建產(chǎn)品體系示意圖
通過將系統(tǒng)打通,使得運營搭建一個頁面的配置工作量減少了83.2%。而在剩余的16.8%的工作里,有87%是選品工作。借助主題會場,我們希望將運營選品的工作量也降低50%以上,并借助數(shù)據(jù)和算法,實現(xiàn)智能選品、智能搭建、智能投放。今天的分享就到這里,謝謝大家。
-
阿里巴巴
+關(guān)注
關(guān)注
7文章
1617瀏覽量
47345 -
電商
+關(guān)注
關(guān)注
1文章
466瀏覽量
28643 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7722
原文標(biāo)題:電商知識圖譜
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論