因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣,但其主要依賴于從常識知識中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測試大語言模型(LLM)的純因果推理能力。其中CORR2CAUSE對LLM來說是一項具有挑戰(zhàn)性的任務(wù),有助于指導(dǎo)未來關(guān)于提高LLM純粹推理能力和可推廣性的研究。
簡介
因果推理
因果推理是推理的一個基本方面,其涉及到在變量或事件之間建立正確的因果關(guān)系。大致可分為兩種不同的方式的因果關(guān)系:一種是通過經(jīng)驗知識,例如,從常識中知道,為朋友準(zhǔn)備生日派對會讓他們快樂;另一種是通過純粹的因果推理,因果關(guān)系可以通過使用因果推理中已知的程序和規(guī)則進(jìn)行形式化的論證和推理得到。例如,已知A和B彼此獨立,但在給定C的情況下變得相關(guān),那么可以推斷,在一個封閉系統(tǒng)中,C是A和B共同影響的結(jié)果,如下圖所示。
想象上圖中的場景,在訓(xùn)練語料庫中有大量的相關(guān)性,比如疫苗這個詞與疾病病例數(shù)量的增加有關(guān)。如果認(rèn)為LLM的成功在于捕捉術(shù)語之間的大量統(tǒng)計相關(guān)性,那么關(guān)鍵但缺失的一步是如何處理這些相關(guān)性并推斷因果關(guān)系,其中一個基本的構(gòu)建塊是CORR2CAUSE推斷技能。
本文將這項任務(wù)表述為NLP的一項新任務(wù),即因果關(guān)系推理,并認(rèn)為這是大語言模型的必備技能。
貢獻(xiàn)
基于CORR2COUSE數(shù)據(jù)集,本文探討了兩個主要的研究問題:
(1)現(xiàn)有的LLM在這項任務(wù)中的表現(xiàn)如何?
(2)現(xiàn)有的LLM能否在這項任務(wù)中重新訓(xùn)練或重新設(shè)定目標(biāo),并獲得強大的因果推理技能?
本文的主要貢獻(xiàn)如下:
(1)提出了一項新任務(wù),探討LLMs推理能力的一個方面,即純因果推理;
(2)使用因果發(fā)現(xiàn)的見解組成了超過400K個樣本的數(shù)據(jù)集;
(3)在數(shù)據(jù)集上評估了17個LLM的性能,發(fā)現(xiàn)它們的性能都很差,接近隨機基線;
(4)進(jìn)一步探討了LLM是否可以通過微調(diào)來學(xué)習(xí)這項技能,發(fā)現(xiàn)LLM無法在分布外擾動的情況下穩(wěn)健地掌握這項技能,本文建議未來的工作探索更多方法來增強LLM中的純因果推理技能。
因果推理預(yù)備知識
因果模型有向圖(DGCM)
有向圖形因果模型是一種常用的表示方法,用于表示一組變量之間的因果關(guān)系。給定一組N個變量X={X1,...,XN},可以使用有向圖G=(X,E)對它們之間的因果關(guān)系進(jìn)行編碼,其中E是有向邊的集合。每條邊ei,j∈E代表一個因果聯(lián)系Xi→Xj,意味著Xi是Xj的直接原因。
D-分離與馬爾可夫性質(zhì)
D-Separation(D-分離)
D分離是圖模型中的一個基本概念,用于確定在給定第三組節(jié)點Z的情況下,DAG中的兩組節(jié)點X和Y是否條件獨立,其中這三組節(jié)點是不相交的。
Markov Property(馬爾可夫性質(zhì))
DAG中的馬爾可夫性質(zhì)表明每個節(jié)點Xi在給定父節(jié)點的情況下有條件地獨立于其非后代,。使用馬爾可夫?qū)傩?,可以將圖中所有節(jié)點的聯(lián)合分布分解為為了從概率分布中推斷因果圖,一個常見的假設(shè)是置信度,即從概率分布中的獨立關(guān)系中推斷圖中所有D-分離集的有效性。在本文的工作中,也采用了這個廣泛的假設(shè),它適用于大多數(shù)現(xiàn)實世界的場景。
Markov Equivalence of Graphs(圖的馬爾可夫等價)
如果兩個DAG有相同的聯(lián)合分布P(X),則將兩個DAG表示為馬爾可夫等價。相互等價的馬爾可夫 DAG集稱為馬爾可夫等價類(MEC)。同一MEC中的因果圖可以很容易地識別,因為它們具有相同的骨架(即無向邊)和V結(jié)構(gòu)(即A→B←C形式的結(jié)構(gòu),其中A和C不連接)。
因果發(fā)現(xiàn)
因果發(fā)現(xiàn)旨在通過分析觀測數(shù)據(jù)中的統(tǒng)計屬性來學(xué)習(xí)因果關(guān)系。它可以通過基于約束的方法、基于分?jǐn)?shù)的方法或其他利用功能因果模型的方法來實現(xiàn)。
為了從相關(guān)性(用自然語言表示)推斷因果關(guān)系,本研究的數(shù)據(jù)集設(shè)計基于廣泛使用的Peter Clark(PC)算法。其使基于條件獨立原則和因果馬爾可夫假設(shè),這使它能夠有效地識別給定數(shù)據(jù)集中變量之間的因果關(guān)系。該算法首先從所有變量之間的完全連通無向圖開始。然后,如果兩個變量之間存在無條件或有條件的獨立關(guān)系,它就消除了它們之間的邊。然后,只要存在V形結(jié)構(gòu),它就會定向定向邊。最后,它迭代地檢查其他邊的方向,直到整個因果圖與所有統(tǒng)計相關(guān)性一致。
數(shù)據(jù)集構(gòu)建
任務(wù)定義
給定一組N個變量X={X1,...,XN},一個關(guān)于變量之間所有相關(guān)性的聲明s,以及一個描述變量Xi和Xj對之間的因果關(guān)系r的假設(shè)h。該任務(wù)是學(xué)習(xí)一個函數(shù)f(s,h)→v,它將相關(guān)語句和因果關(guān)系假設(shè)h映射到它們的有效性v∈{0,1},如果該推理無效,則取值0,否則為1。
數(shù)據(jù)生成過程
數(shù)據(jù)生成過程如下圖所示,首先選擇變量的數(shù)量N,并生成所有具有N個節(jié)點的唯一DGCM。然后,從這些圖中收集所有D分離集。對于MEC到因果圖的每個對應(yīng)關(guān)系,根據(jù)MEC中的統(tǒng)計關(guān)系組合相關(guān)語句,并假設(shè)兩個變量之間的因果關(guān)系,如果假設(shè)是MEC中所有因果圖的共享屬性,則有效性v=1,如果對于所有MEC圖的假設(shè)不一定為真,則v=0。
用同構(gòu)檢驗構(gòu)造圖
數(shù)據(jù)生成的第一步是組成因果圖,如上圖的步驟1和2所示。對于一組N個變量X={X1,...,XN},存在N(N-1)個可能的有向邊,因為每個節(jié)點可以鏈接到除自身之外的任何節(jié)點。為了刪除圖中的循環(huán),將節(jié)點按拓?fù)漤樞蚺帕校@只允許邊Xi→ Xj,其中i<j。通過將圖的鄰接矩陣限制為僅在對角線上具有非零值來實現(xiàn)這一點,從而產(chǎn)生DAG的N(N?1)/2個可能的有向邊。
集合中可能存在同構(gòu)圖。為了避免這種情況,進(jìn)行了圖同構(gòu)檢查,并減少了集合,以便只保留唯一的DAG,在下表中展示了它們的統(tǒng)計數(shù)據(jù)。盡管其可以處理大型圖,但主要關(guān)注較小的圖,這些圖仍然可以產(chǎn)生合理大小的數(shù)據(jù)集。
程序生成D-分離集
基于一組唯一的DAG,通過圖論條件以編程方式生成D-分離集,如數(shù)據(jù)生成過程圖的步驟3所示。對于每對節(jié)點,給定D-分離集中的變量,它們是條件獨立的。如果D-分離集是空的,那么這兩個節(jié)點是無條件獨立的。如果不能為這兩個節(jié)點找到D-分離集,那么它們是直接相關(guān)的。
組成假設(shè)和標(biāo)簽
在基于D-分離集生成相關(guān)性集合之后生成因果假設(shè)。對于因果關(guān)系r,重點關(guān)注兩個節(jié)點之間的六種常見因果關(guān)系:是父節(jié)點、是子節(jié)點、是祖先節(jié)點(不包括父節(jié)點)、是后裔節(jié)點(不包含子節(jié)點)、混淆節(jié)點和碰撞節(jié)點。這樣,假設(shè)集包含每對變量之間的所有六個有意義的因果關(guān)系,從而導(dǎo)致具有N個變量的圖的總大小為6*N(N?1)/2=3N(N–1)個假設(shè)。
為了生成真實有效性標(biāo)簽,從數(shù)據(jù)生成過程圖的步驟3中的相關(guān)集合開始,查找與給定相關(guān)性集合對應(yīng)的相同MEC中的所有因果圖,并檢查假設(shè)因果關(guān)系的必要性。如果假設(shè)中提出的因果關(guān)系對MEC中的所有因果圖都是有效的,那么我們生成有效性v=1;否則,v=0。
自然語言化
如數(shù)據(jù)生成過程圖的最后一步所示,將上述所有信息轉(zhuǎn)換為文本數(shù)據(jù),用于CORR2CAUSE任務(wù)。對于相關(guān)語句, 將數(shù)據(jù)生成過程圖步驟3中的相關(guān)性集合表示為自然語言語句s。當(dāng)兩個變量不能進(jìn)行D-分離時,將其描述為A與B相關(guān),因為它們直接相關(guān)并且不能獨立于任何條件。如果兩個變量具有有效的D-分離集C,那么將它們描述為A與給定C的B無關(guān)。在D-分離集為空的特殊情況中,A與B無關(guān)。
此外,通過將相關(guān)語句與給定變量的封閉系統(tǒng)的設(shè)置開始來消除歧義。最后,為了表達(dá)假設(shè),將因果關(guān)系三元組 (Xi, r, Xj) 輸入到下表中的假設(shè)模板中。
結(jié)果數(shù)據(jù)統(tǒng)計
CORR2COUSE數(shù)據(jù)集的統(tǒng)計數(shù)據(jù),以及按子集的統(tǒng)計數(shù)據(jù)如下表所示。其報告了樣本總數(shù);測試、開發(fā)和訓(xùn)練集的拆分;每個前提和假設(shè)的token數(shù)量;隱含標(biāo)簽的百分比和詞匯大小。
實驗
實驗設(shè)置
為了測試現(xiàn)有的LLM,首先在下載次數(shù)最多的transformers庫中包括六個常用的基于BERT的NLI模型:BERT、RoBERTa、BART、DeBERTa、DistilBERT和DistilBART。除了這些基于BERT的NLI模型外,還評估了基于GPT的通用自回歸LLM:GPT-3Ada、Babbage、Curie、Davinci;其指令調(diào)整版本,text-davinci-001、text-davici-002和text-davici-003;和GPT-3.5(即ChatGPT),以及最新的GPT-4,使用temperature為0的OpenAI API2,還評估了最近更有效的模型LLaMa和Alpaca,如下表所示。
現(xiàn)有LLM中的因果推理技能
在上表中展示了LLM的因果推理性能。可以看到,純因果推理是所有現(xiàn)有LLM中一項非常具有挑戰(zhàn)性的任務(wù)。在所有LLM中,BART MNLI的最佳性能為33.38%F1,甚至高于最新的基于GPT的模型GPT-4。值得注意的是,許多模型比隨機猜測更差差,這意味著它們在純因果推理任務(wù)中完全失敗。
微調(diào)性能
在CORR2CAUSE上微調(diào)的12個模型的展示在下表中的實驗結(jié)果乍一看似乎非常強大。大多數(shù)模型性能顯著增加,其中微調(diào)的基于BERT的NLI模型表現(xiàn)出最強的性能。性能最好的是oBERTa-Large MNLI,在這項任務(wù)中獲得了 94.74%的F1值,以及較高的精度、召回率和準(zhǔn)確度分?jǐn)?shù)。
基于因果關(guān)系的細(xì)粒度性能
本文還進(jìn)行了細(xì)粒度分析,通過六種因果關(guān)系類型來檢驗最強模型RoBERTa Large MNLI的性能。如下表所示,該模型在判斷Is-Parent、Is-Descendant和Has-Confounder等關(guān)系方面非常好,所有 F1 分?jǐn)?shù)都超過96%,而在HasCollider關(guān)系上則較弱。這可能是因為collider關(guān)系是最特殊的類型,需要僅基于兩個變量的無條件獨立性和以共同后代為條件的相關(guān)性來識別V結(jié)構(gòu)。
魯棒性分析
微調(diào)后的模型展現(xiàn)出了高性能,但是這些模型真的健壯地學(xué)習(xí)了因果推理技能嗎?基于此本研究展開了魯棒性分析。
兩個魯棒性測試
設(shè)計了兩個簡單的穩(wěn)健性測試:(1)釋義,(2)變量重構(gòu)。對于釋義,通過將每個因果關(guān)系的文本模板更改為一些語義等效的替代方案來簡單地釋義假設(shè)。對于(2)變量重構(gòu),顛倒變量名稱的字母表,即將A, B, C翻轉(zhuǎn)為Z, Y, X等。具體來說,采用了常見的文本對抗性攻擊設(shè)置保留訓(xùn)練集并保留相同的保存模型,但在擾動測試集中運行推理。通過這種方式,將模型只過度擬合訓(xùn)練數(shù)據(jù)的可能性與掌握推理技能的可能性分開。
數(shù)據(jù)擾動后的結(jié)果
從下表右側(cè)兩列F1值可以看出,當(dāng)解釋測試集時,所有模型急劇下降多達(dá)39.29,當(dāng)重新分解變量名稱時,它們大幅下降高達(dá)58.38。性能最好的模型RoBERTa-Large MNLI對釋義特別敏感,表明所有模型的下降幅度最大;然而,它對變量再分解最穩(wěn)健,保持了67.87的高F1分?jǐn)?shù)。
總結(jié)
在這項工作中,介紹了一項新任務(wù)CORR2CAUSE,用于從相關(guān)性推斷因果關(guān)系,并收集了超過400K個樣本的大規(guī)模數(shù)據(jù)集。在新任務(wù)上評估了大量的LLM,發(fā)現(xiàn)現(xiàn)成的LLM在此任務(wù)中表現(xiàn)不佳。實驗表明,可以通過微調(diào)在這項任務(wù)上重新使用LLM,但未來的工作需要知道分布外的泛化問題。鑒于當(dāng)前LLM的推理能力有限,以及將實際推理與訓(xùn)練語料庫衍生知識分離的困難,必須專注于旨在準(zhǔn)確解開和衡量兩種能力的工作。
責(zé)任編輯:彭菁
-
編碼
+關(guān)注
關(guān)注
6文章
943瀏覽量
54838 -
語言模型
+關(guān)注
關(guān)注
0文章
525瀏覽量
10277 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24710 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
343
原文標(biāo)題:解密大型語言模型:從相關(guān)性中發(fā)現(xiàn)因果關(guān)系?
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論