大型語言模型(LLM)的出現(xiàn)標(biāo)志著NLP的重大突破,導(dǎo)致文本理解和生成的顯著進步。然而,除了這些進步,LLM還產(chǎn)生了幻覺現(xiàn)象,導(dǎo)致生成內(nèi)容與現(xiàn)實世界的事實或用戶輸入不一致。這篇綜述從LLM幻覺的分類開始,深入研究導(dǎo)致幻覺的因素。對幻覺檢測方法和基準(zhǔn)進行了全面概述。此外,還相應(yīng)地介紹了緩解幻覺的代表性方法。最后分析了面臨的挑戰(zhàn),突出了當(dāng)前的局限性,并提出了開放問題。
文中相關(guān)引用論文如下圖所示:
背景介紹
最近,LLM的出現(xiàn)引領(lǐng)了NLP范式的轉(zhuǎn)變,在語言理解和推理方面取得了前所未有的進步。然而,隨著LLMs的快速發(fā)展,有一個令人擔(dān)憂的趨勢,即其產(chǎn)生幻覺的傾向,導(dǎo)致看似合理但實際上不支持的內(nèi)容。
幻覺被描述為無意義或不忠實于所提供源內(nèi)容的生成內(nèi)容。根據(jù)與源內(nèi)容的矛盾,這些幻覺又進一步分為內(nèi)在幻覺和外在幻覺。在LLMs中,幻覺的范圍包含了一個更廣泛、更全面的概念,主要集中在事實錯誤上。本文重新定義了幻覺的分類,為LLM應(yīng)用程序提供了一個更定制的框架。
我們把幻覺分為兩大類:事實幻覺和忠實幻覺。事實幻覺強調(diào)生成的內(nèi)容與可驗證的現(xiàn)實世界事實之間的差異,通常表現(xiàn)為事實不一致或捏造。如圖1(a)所示,當(dāng)被問及第一個在月球上行走的人是誰時,模型可能會斷言是1951年的查爾斯·林德伯格。而事實是尼爾·阿姆斯特朗在1969年阿波羅11號任務(wù)中成為第一個在月球上行走的人。
忠實幻覺是指生成內(nèi)容與用戶指令或輸入提供的上下文背離,以及生成內(nèi)容內(nèi)部的自一致性。如圖1(b)所示,當(dāng)模型被要求總結(jié)一篇新聞文章時,該模型不準(zhǔn)確地生成了以色列和哈馬斯之間沖突的實際事件日期。針對事實幻覺,我們根據(jù)可驗證來源的內(nèi)容將其進一步分為兩類:事實不一致和事實捏造。為了保證可靠性,我們強調(diào)從用戶的角度解決不一致性,將其分類為指令不一致性、上下文不一致性和邏輯不一致性,從而使其更好地與LLM的當(dāng)前使用保持一致。
相關(guān)定義
大語言模型(LLM)
LLM是指一系列基于transformer的語言模型架構(gòu)的通用模型,并在大量文本語料庫上進行了廣泛的訓(xùn)練,其中著名模型有GPT-3、PaLM、LLaMA、GPT-4等。通過擴展數(shù)據(jù)量和模型容量,llm提高了驚人的應(yīng)急能力,通常包括上下文學(xué)習(xí)(ICL) (Brown等人,2020)、思維鏈提示(Wei等人,2022)和指令遵循(Peng等人,2023)。
LLMs的訓(xùn)練階段
LLM經(jīng)歷的3個主要訓(xùn)練階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和從人工反饋中強化學(xué)習(xí)(RLHF)。
預(yù)訓(xùn)練
語言模型在預(yù)訓(xùn)練期間,旨在自回歸地預(yù)測序列中的下一個標(biāo)記。通過在廣泛的文本語料庫上進行自監(jiān)督訓(xùn)練,模型獲得了語言語法、世界知識和推理的知識,為后續(xù)的微調(diào)任務(wù)提供了強大的基礎(chǔ)。語言模型的本質(zhì)在于預(yù)測下一個單詞的概率分布。
監(jiān)督微調(diào)
雖然LLM在預(yù)訓(xùn)練階段獲得了大量的知識,但預(yù)訓(xùn)練主要是為了完成優(yōu)化。因此,預(yù)訓(xùn)練的LLM基本上充當(dāng)了補全機器,這可能會導(dǎo)致LLM的下一個單詞預(yù)測目標(biāo)和用戶獲得所需響應(yīng)的目標(biāo)之間的不一致。為了彌補這一差距引入SFT ,其中涉及使用精心注釋的(指令,響應(yīng))對集進一步訓(xùn)練LLM,從而增強LLM的能力和改進的可控性。
人類反饋的強化學(xué)習(xí)
雖然SFT過程成功地使LLM能夠遵循用戶指示,但它們?nèi)匀挥锌臻g更好地與人類偏好保持一致。在利用人類反饋的各種方法中,RLHF脫穎而出,成為一種通過強化學(xué)習(xí)來符合人類偏好的研究解決方案。通常,RLHF采用了一個偏好模型,該模型經(jīng)過訓(xùn)練可以在給定提示和人工標(biāo)記的反應(yīng)情況下預(yù)測偏好排名。為了與人類偏好一致,RLHF優(yōu)化LLM,以生成最大化訓(xùn)練偏好模型提供的獎勵的輸出,通常采用強化學(xué)習(xí)算法,如近端策略優(yōu)化。
LLMs的幻覺
幻覺通常指的是生成的內(nèi)容看起來荒謬或不忠實于提供的源內(nèi)容的現(xiàn)象。一般來說,自然語言生成任務(wù)中的幻覺可以分為兩種主要類型:內(nèi)在幻覺和外在幻覺。具體來說,內(nèi)在幻覺屬于與源內(nèi)容沖突的輸出。相反,外在幻覺指的是無法從源內(nèi)容中驗證的輸出。
考慮到LLMs非常強調(diào)以用戶為中心的交互,并優(yōu)先考慮與用戶指令保持一致,再加上它們的幻覺主要出現(xiàn)在事實層面,我們引入了更細(xì)粒度的分類法。為了更直觀地說明我們對LLM幻覺的定義,我們在表1中給出了每種幻覺的例子,并附有相應(yīng)的解釋。
具體分類如下:
事實幻覺
現(xiàn)有的LLM偶爾會表現(xiàn)出產(chǎn)生與現(xiàn)實世界事實不一致或可能具有誤導(dǎo)性的輸出的趨勢,這對人工智能的可信性構(gòu)成了挑戰(zhàn)。在這種情況下,我們將這些事實性錯誤歸類為事實性幻覺。根據(jù)生成的事實內(nèi)容是否可以根據(jù)可靠來源進行驗證,它們可以進一步分為兩種主要類型:
事實不一致性:指LLM的輸出包含可以基于現(xiàn)實世界信息的事實,但存在矛盾的情況。這種類型的幻覺發(fā)生得最頻繁,并且來自不同的來源,包括LLM對事實知識的捕捉、存儲和表達。
事實捏造:指LLM的輸出包含無法根據(jù)既定的現(xiàn)實世界知識進行驗證的事實的實例。
忠實幻覺
隨著LLM的使用轉(zhuǎn)向更以用戶為中心的應(yīng)用程序,確保它們與用戶提供的指令和上下文信息的一致性變得越來越重要。此外,LLM的忠實還體現(xiàn)在其生成內(nèi)容的邏輯一致性上。從這個角度出發(fā),我們將忠實幻覺分為三種類型:
指令不一致:指LLM的輸出偏離用戶指令。雖然一些偏差可能符合安全指導(dǎo)原則,但這里的不一致表示無意中與非惡意用戶指令不一致。
上下文不一致:指向LLM的輸出與用戶提供的上下文信息不一致的實例。
邏輯不一致:通常在推理任務(wù)中觀察到,LLM輸出表現(xiàn)出內(nèi)部邏輯矛盾。這表現(xiàn)為推理步驟本身之間以及步驟和最終答案之間的不一致。
產(chǎn)生幻覺的原因
來自數(shù)據(jù)的幻覺
預(yù)訓(xùn)練數(shù)據(jù)是LLM的基石,使它們能夠獲得泛化能力和事實知識。然而,它可能在不經(jīng)意間成為LLM幻覺的來源。這主要表現(xiàn)在兩個方面:有缺陷的數(shù)據(jù)源,以及對數(shù)據(jù)中捕獲的事實知識的低劣利用。
有缺陷的數(shù)據(jù)源
當(dāng)擴大預(yù)訓(xùn)練數(shù)據(jù)大大提高了LLM的能力,但在保持一致的數(shù)據(jù)質(zhì)量方面出現(xiàn)了挑戰(zhàn),這可能會引入錯誤信息和偏差。此外,特定領(lǐng)域知識和數(shù)據(jù)中最新事實的缺乏會導(dǎo)致LLM形成知識邊界,這為特定場景中的LLM帶來了限制。基于此,主要將可能導(dǎo)致幻覺的因素分為錯誤信息、偏見和知識邊界限制。為了更全面地理解,表2列出了每種數(shù)據(jù)導(dǎo)致的幻覺的示例。
錯誤信息和偏見:隨著對大規(guī)模語料庫需求的日益增長,啟發(fā)式數(shù)據(jù)收集方法被用于高效地收集大量數(shù)據(jù),增加了模仿虛假信息的風(fēng)險。在提供大量數(shù)據(jù)的同時,它們可能無意中引入錯誤信息。此外,社會偏見可能無意中引入到LLM的學(xué)習(xí)過程。這些偏見主要包括重復(fù)偏見和各種社會偏見。
模仿虛假信息:LLMs預(yù)訓(xùn)練的主要目標(biāo)是模擬訓(xùn)練分布。當(dāng)LLMs在事實不正確的數(shù)據(jù)上進行訓(xùn)練時,它們可能無意中放大這些不準(zhǔn)確性,可能導(dǎo)致事實不正確的幻覺,稱為"模仿性虛假信息" 。
重復(fù)偏差:LLMs具有記憶訓(xùn)練數(shù)據(jù)的內(nèi)在傾向,這種記憶趨勢隨著模型大小的增加而增長。然而,在預(yù)訓(xùn)練數(shù)據(jù)中存在重復(fù)信息的背景下,固有的記憶能力變得有問題。這種重復(fù)可能會使LLM從泛化轉(zhuǎn)向記憶,最終導(dǎo)致重復(fù)偏差,即LLM對重復(fù)數(shù)據(jù)的召回過于優(yōu)先,導(dǎo)致偏離所需內(nèi)容的幻覺。
社會偏見:某些偏見本質(zhì)上與幻覺有關(guān),特別是與性別和國籍有關(guān)的偏見。
知識邊界:雖然龐大的預(yù)訓(xùn)練語料庫使LLM具有廣泛的事實知識,但它們本質(zhì)上具有邊界。這種限制主要表現(xiàn)在兩個方面:缺乏最新的事實知識和專業(yè)領(lǐng)域知識。表3給出了一個例子。
域內(nèi)知識缺乏:LLM在通用領(lǐng)域的廣泛下游任務(wù)中表現(xiàn)出了卓越的性能。然而,鑒于這些通用LLM主要是在廣泛的公開數(shù)據(jù)集上訓(xùn)練的,在特定領(lǐng)域的專業(yè)知識內(nèi)在地受到缺乏專有訓(xùn)練數(shù)據(jù)的限制。
過時的事實知識:除了特定領(lǐng)域知識的不足之外,關(guān)于LLM知識邊界的另一個內(nèi)在限制是其最新知識的能力有限。LLM中嵌入的事實知識表現(xiàn)出明確的時間邊界,并可能隨著時間的推移而過時。
數(shù)據(jù)利用率低下
預(yù)訓(xùn)練數(shù)據(jù)體現(xiàn)了豐富的現(xiàn)實世界事實知識,使LLM能夠在其參數(shù)中捕獲并隨后編碼大量事實知識。然而,盡管有這么龐大的知識儲備,由于參數(shù)化知識的低劣利用,仍然可能產(chǎn)生知識誘導(dǎo)的幻覺。表4列出了與劣質(zhì)數(shù)據(jù)利用相關(guān)的每種幻覺類型的例子。
知識捷徑:LLM捕獲事實知識的確切機制仍然難以捉摸。最近的研究指出,LLM不是真正理解事實知識的復(fù)雜性,而是經(jīng)常求助于捷徑。它們表現(xiàn)出過度依賴預(yù)訓(xùn)練數(shù)據(jù)中的位置接近、共生統(tǒng)計和相關(guān)文檔計數(shù)的趨勢,這可能會引入對虛假相關(guān)性的偏差,如果偏差反映了事實不正確的信息,可能導(dǎo)致幻覺。
知識召回失敗:當(dāng)LLM難以有效利用其廣泛的知識時,就會出現(xiàn)幻覺。本文探討了知識召回中的兩個主要挑戰(zhàn):記憶長尾知識的不足,以及在需要多跳推理和邏輯推理的復(fù)雜場景中的困難。
長尾知識:長尾知識的特點是在預(yù)訓(xùn)練數(shù)據(jù)中相對稀少,為LLM提出了固有的挑戰(zhàn),主要依賴共現(xiàn)模式來記憶事實知識。
復(fù)雜場景:在多跳問答場景中,由于其推理的局限性,即使LLM擁有必要的知識,如果問題之間存在多種關(guān)聯(lián),則可能難以產(chǎn)生準(zhǔn)確的結(jié)果。此外,研究人員揭示了LLM中被稱為逆轉(zhuǎn)詛咒的特定推理失敗。具體來說,雖然當(dāng)問題表述為“A是B”時,模型可以正確回答,但當(dāng)被問及相反的“B是A”時,它表現(xiàn)出了失敗的邏輯推理。這種推理上的差異超出了簡單的推論。
來自訓(xùn)練的幻覺
LLM的訓(xùn)練過程主要包括兩個主要階段:1)預(yù)訓(xùn)練階段,其中LLM學(xué)習(xí)通用表示并捕獲世界知識,以及2)對齊階段,LLM被調(diào)整以更好地與用戶指令和偏好保持一致。
來自預(yù)訓(xùn)練的幻覺
預(yù)訓(xùn)練是基礎(chǔ)階段,通常采用基于transformer的架構(gòu)在大量語料庫上進行因果語言建模。然而,與幻覺有關(guān)的問題可能來自固有的結(jié)構(gòu)設(shè)計和所采用的特定訓(xùn)練策略。在本節(jié)中,我們深入研究了結(jié)構(gòu)缺陷和曝光偏差的影響所帶來的挑戰(zhàn)。
結(jié)構(gòu)缺陷:LLM通常采用基于transformer的架構(gòu),遵循GPT建立的范式,通過因果語言建模目標(biāo)獲得表示,該框架以O(shè)PT、Falcon和Llama-2等模型為例。盡管取得了成功,但它也并非沒有缺陷,特別是在單向表示不足和注意力缺陷方面。
單向表示不充分:遵循因果語言建模范式,LLM僅基于前面的token,以從左到右的方式預(yù)測后面的token。這種單向建模在促進高效訓(xùn)練的同時,也有其局限性。它只利用單一方向的上下文,這阻礙了其捕捉復(fù)雜上下文依賴關(guān)系的能力,潛在地增加了幻覺出現(xiàn)的風(fēng)險。
注意力缺陷:基于transformer的架構(gòu),配備了自注意力模塊,在捕捉長程依賴關(guān)系方面表現(xiàn)出了非凡的能力。然而,無論模型規(guī)模如何,它們在算法推理的背景下偶爾會出現(xiàn)不可預(yù)測的推理錯誤,包括長短程依賴關(guān)系。一個潛在的原因是軟注意力的局限性,隨著序列長度的增加,注意力在各個位置上稀釋。
曝光偏差:除了結(jié)構(gòu)缺陷,訓(xùn)練策略也發(fā)揮了至關(guān)重要的作用。暴光偏差現(xiàn)象是由于自回歸生成模型中的訓(xùn)練和推理之間存在差異。在訓(xùn)練過程中,這些模型通常采用教師模型的最大似然估計(MLE)訓(xùn)練策略,其中提供真實值作為輸入。然而,在推理過程中,模型依賴于自己生成的內(nèi)容來進行后續(xù)的預(yù)測,這種不一致性會導(dǎo)致幻覺。
來自對齊的幻覺
對齊通常涉及兩個主要過程,即監(jiān)督微調(diào)和從人類反饋中強化學(xué)習(xí)。雖然對齊顯著提高了LLM響應(yīng)的質(zhì)量,但它也引入了幻覺的風(fēng)險。我們將與幻覺相關(guān)的對齊缺陷分為兩部分:能力偏差和信念偏差。
能力未對齊:考慮到LLM在預(yù)訓(xùn)練過程中建立了固有的能力邊界,SFT利用高質(zhì)量的指令及其相應(yīng)的響應(yīng)來讓LLM遵循用戶指令,釋放他們在此過程中獲得的能力。然而,當(dāng)來自校準(zhǔn)數(shù)據(jù)的需求超過預(yù)定義的能力邊界時,LLM被訓(xùn)練產(chǎn)生超出其自身知識邊界的內(nèi)容,從而放大了幻覺的風(fēng)險。
觀點未對齊:LLM的激活封裝了與其生成的真實性相關(guān)的內(nèi)部觀點。然而,在這些觀點和生成的輸出之間偶爾會出現(xiàn)不一致。即使通過人類反饋進行了改進,有時也會產(chǎn)生與內(nèi)在觀點不同的輸出。這種行為被稱為諂媚,強調(diào)了模型傾向于安撫人類評估者,往往以犧牲真實性為代價。
來自推理的幻覺
解碼在體現(xiàn)LLM預(yù)訓(xùn)練和對齊后的能力方面起著重要作用。然而,解碼策略中的某些缺陷可能會導(dǎo)致LLM幻覺。解碼過程的兩個潛在原因是解碼策略的固有隨機性和不完美的解碼表示。
解碼抽樣的隨機性
隨機抽樣是目前LLMs采用的主流解碼策略。將隨機性納入解碼策略的原因在于認(rèn)識到高似然序列往往會導(dǎo)致令人驚訝的低質(zhì)量文本,這被稱為似然陷阱。解碼策略中的隨機性帶來的多樣性是有代價的,因為它與幻覺風(fēng)險的增加呈正相關(guān)。采樣溫度的升高導(dǎo)致更均勻的token概率分布,增加了從分布尾部采樣頻率較低的token的可能性。因此,這種對不經(jīng)常出現(xiàn)的token進行采樣的傾向加劇了幻覺的風(fēng)險。
不完美的解碼表示
在解碼階段,LLM使用頂層表示來預(yù)測下一個token。然而,頂層表示有其局限性,主要表現(xiàn)在兩個方面:上下文注意力不足和Softmax瓶頸。
上下文注意力不足:之前的研究,特別是在機器翻譯和摘要等領(lǐng)域,強調(diào)了使用編碼器-解碼器架構(gòu)的生成模型的過度自信問題。這種過度自信源于過度關(guān)注部分生成的內(nèi)容,通常優(yōu)先考慮流暢性,而不是忠實地遵循源上下文。雖然主要采用因果語言模型架構(gòu)的大型語言模型已得到廣泛使用,但過度自信現(xiàn)象仍然存在。在生成過程中,對下一個詞的預(yù)測同時取決于語言模型上下文和部分生成的文本。然而,語言模型在注意力機制中往往表現(xiàn)出局部焦點,優(yōu)先考慮附近的單詞,從而導(dǎo)致上下文注意力的顯著缺陷。這種注意力不足會直接產(chǎn)生忠實度幻覺問題,其中模型輸出的內(nèi)容偏離了原始上下文。
Softmax瓶頸:大多數(shù)語言模型使用softmax層,該層與詞嵌入一起對語言模型中的最終層表示進行操作,以計算與單詞預(yù)測相關(guān)的最終概率。然而,基于Softmax的語言模型的有效性受到公認(rèn)的Softmax瓶頸的限制,其中將Softmax與分布式詞嵌入結(jié)合使用,在給定上下文的情況下,限制了輸出概率分布的表達能力,這阻止了語言模型輸出所需的分布引入了幻覺的風(fēng)險。
幻覺檢測和基準(zhǔn)
幻覺檢測
檢測LLM中的幻覺對于確保生成內(nèi)容的可靠性和可信性至關(guān)重要。傳統(tǒng)的衡量標(biāo)準(zhǔn)主要是基于詞的重疊,無法區(qū)分合理內(nèi)容和幻覺內(nèi)容之間的細(xì)微差異。鑒于這些幻覺的不同性質(zhì),檢測方法也會有所不同。
事實幻覺檢測
針對事實幻覺的檢測方法通常分為檢索外部事實和不確定性估算。
檢索外部事實:為了有效查明LLM輸出中的事實不準(zhǔn)確性,一種直觀的策略涉及將模型生成的內(nèi)容與可靠的知識源進行比較,如圖3所示。然而,傳統(tǒng)的事實核查方法經(jīng)常納入簡化的實用性假設(shè),在應(yīng)用于復(fù)雜的現(xiàn)實場景時,會導(dǎo)致差異。認(rèn)識到這些限制,研究人員更加強調(diào)現(xiàn)實世界的場景。他們開創(chuàng)了一個集成多個組件的全自動管道:斷言分解、原文檔檢索、細(xì)粒度檢索、基于斷言的摘要和準(zhǔn)確性分類。
一些方法通過引入了FACTSCORE,一種專門用于長文本生成的細(xì)粒度事實指標(biāo)。它將生成內(nèi)容分解為原事實,然后計算可靠知識源支持的百分比。最近,研究人員通過查詢擴展增強了檢索幻覺檢測支持證據(jù)的標(biāo)準(zhǔn)方法。通過在檢索過程中將原始問題與LLM生成的答案相結(jié)合,解決了主題偏航的問題,確保檢索到的段落與問題和LLM的響應(yīng)一致。
不確定性估算:雖然許多幻覺檢測方法依賴外部知識進行事實核查,但已有一些方法用來解決零資源環(huán)境下的這個問題,從而消除了檢索的需要。這些策略背后的基本前提是,LLM幻覺的起源本質(zhì)上與模型的不確定性有關(guān)。因此,通過估計模型生成的事實內(nèi)容的不確定性,檢測幻覺變得可行。不確定性估計方法大致可以分為兩類:基于內(nèi)部狀態(tài)的方法和基于LLM行為的方法,如圖4所示。前者的運行假設(shè)是人們可以訪問模型的內(nèi)部狀態(tài),而后者則泛化到更受限的環(huán)境,僅利用模型的可觀察行為來推斷其潛在的不確定性。
LLM的內(nèi)部狀態(tài):LLM的內(nèi)部狀態(tài)可以作為其不確定性的信息性指標(biāo),通常通過token概率或熵等指標(biāo)表現(xiàn)出來。通過考慮這些概念中的最小token概率來確定模型對量化的關(guān)鍵概念的不確定性。其基本原理是,低概率作為模型不確定性的有力指標(biāo),受概念中存在的高概率token的影響較小。類似地,另一種方法采用了一種基于自我評估的方法來進行不確定性估計,其依據(jù)是,語言模型從其生成的解釋中熟練地重建原始概念的能力表明其對該概念的熟練程度。首先促使模型為給定概念生成解釋,然后利用約束解碼使模型根據(jù)其生成的解釋重新創(chuàng)建原始概念,從響應(yīng)序列中獲得的概率分?jǐn)?shù)可以作為該概念的熟悉度分?jǐn)?shù)。此外,另一種方法通過對抗性攻擊的視角來解釋幻覺。利用基于梯度的token替換,設(shè)計了誘導(dǎo)幻覺的提示。值得注意的是,與來自對抗性攻擊的token相比,從原始提示生成的第一個token通常表現(xiàn)出低熵。
LLM行為:然而,當(dāng)系統(tǒng)只能通過API調(diào)用訪問時,可能無法訪問輸出的標(biāo)記級概率分布。鑒于這種限制,一些研究已經(jīng)將重點轉(zhuǎn)移到探索模型的不確定性上,或者通過自然語言提示以檢查其行為表現(xiàn)。例如,通過對LLM對同一提示的多個響應(yīng)進行采樣,通過評估事實陳述之間的一致性來檢測幻覺。然而,這些方法主要依賴于直接查詢,明確地從模型中請求信息或驗證。受調(diào)查性訪談的啟發(fā),可以使用間接查詢。與直接問題不同,這些間接問題通常提出開放式問題,以引出具體信息。通過使用這些間接查詢,可以更好地評估多個模型生成的一致性。除了從單個LLM的多代的自一致性來評估不確定性之外,還可以通過合并其他LLM來擁抱多智能體的視角。
忠實幻覺檢測
確保LLM忠實地提供上下文或用戶指令,對于它們在無數(shù)應(yīng)用中的實際效用至關(guān)重要。忠實度幻覺檢測主要關(guān)注于確保生成的內(nèi)容與給定的上下文相一致,避開無關(guān)或矛盾輸出的潛在陷阱。在本節(jié)中,我們將探索在LLM中檢測不忠實的方法,并提供圖5中的概述。
基于事實的指標(biāo):在評估忠實度的領(lǐng)域中,最直觀的方法之一涉及測量生成的內(nèi)容和源內(nèi)容之間關(guān)鍵事實的重疊度。考慮到事實的不同表現(xiàn)形式,可以根據(jù)實體、關(guān)系三元組和知識對度量進行分類。
基于N-gram:當(dāng)將源內(nèi)容作為參考時,傳統(tǒng)的基于N-gram重疊度的評價指標(biāo),如ROUGE和PARENT-T,也可以用于評估忠實度。
基于實體:基于實體重疊的指標(biāo)普遍應(yīng)用于摘要任務(wù),因為這些關(guān)鍵實體的遺漏或不準(zhǔn)確的生成都可能導(dǎo)致不忠實的摘要。
基于關(guān)系:即使實體匹配,它們之間的關(guān)系也可能是錯誤的。因此,更應(yīng)該關(guān)注關(guān)系元組的重疊,該類標(biāo)準(zhǔn)使用經(jīng)過訓(xùn)練的端到端事實提取模型來計算提取的關(guān)系元組的重疊。
基于知識:在以知識為基礎(chǔ)的對話任務(wù)中,事實往往與對話中呈現(xiàn)的知識相對應(yīng)。知識指標(biāo)F1,用以評估模型的生成與提供的知識的匹配程度。
基于分類器的指標(biāo):除了計算事實重疊度之外,評估模型忠實度的另一種直接方法涉及分類器,這些分類器包括特定任務(wù)的幻覺內(nèi)容和忠實內(nèi)容,以及相關(guān)任務(wù)的數(shù)據(jù)或合成的數(shù)據(jù)。它可以大致分為以下幾種類型:
基于Entailment:許多研究在NLI數(shù)據(jù)集上訓(xùn)練了分類器,以識別事實不準(zhǔn)確性,特別是在抽象摘要的背景下。然而,傳統(tǒng)NLI數(shù)據(jù)集與不一致檢測數(shù)據(jù)集之間的輸入粒度不匹配限制了它們有效檢測不一致的適用性。在此基礎(chǔ)上,更先進的研究提出了一些方法,如對抗性數(shù)據(jù)集的微調(diào),在依賴acr級別分解隱含決策,以及將文檔分割成句子單位,然后在句子對之間匯總分?jǐn)?shù)等方法。
弱監(jiān)督:雖然使用相關(guān)任務(wù)的數(shù)據(jù)來微調(diào)分類器在評估準(zhǔn)確率方面顯示出了希望,但認(rèn)識到相關(guān)任務(wù)和下游任務(wù)之間的固有差距是至關(guān)重要的。為了應(yīng)對這一挑戰(zhàn),一種使用基于規(guī)則的轉(zhuǎn)換來創(chuàng)建弱監(jiān)督數(shù)據(jù)以微調(diào)分類器的方法被提出。同時,研究人員設(shè)計了一種自動生成標(biāo)記級幻覺數(shù)據(jù)并執(zhí)行標(biāo)記級幻覺檢測的方法。
基于問答的指標(biāo):與基于分類器的指標(biāo)相比,基于QA的指標(biāo)因為它們增強了捕捉模型生成與其來源之間信息重疊的能力受到了關(guān)注。這些指標(biāo)通過從LLM輸出內(nèi)的信息單元中初步選擇目標(biāo)答案進行操作,然后由問題生成模塊生成問題。這些問題隨后用于根據(jù)用戶上下文生成源答案。最后,通過比較源和目標(biāo)答案的匹配分?jǐn)?shù)來計算LLM答案的忠實度。
不確定性估計:有條件文本生成中的幻覺與模型的高度不確定性密切相關(guān)。
基于熵:數(shù)據(jù)到文本生成中的幻覺可能性和預(yù)測不確定性之間存在正相關(guān),這是通過深度集成估計的。此外,利用蒙特卡羅Dropout產(chǎn)生的假設(shè)方差作為神經(jīng)機器翻譯(NMT)中的不確定性度量。最近,特有方法使用條件熵評估生成式摘要的模型不確定性。
基于對數(shù)概率:使用長度歸一化序列對數(shù)概率來度量模型置信度。
基于模型:使用SelfCheck專注于復(fù)雜推理中的錯誤檢測。該系統(tǒng)通過目標(biāo)提取、信息收集、步驟再生和結(jié)果比較的簡化過程來聚合置信度分?jǐn)?shù),從而提高問答的準(zhǔn)確性。
基于提示的指標(biāo):LLM卓越的指令能力突出了其自動評估的潛力。利用這種能力,研究人員已經(jīng)冒險采用新的范式來評估模型生成內(nèi)容的忠實度。通過為LLM提供具體的評估指南,并向它們提供模型生成的和源內(nèi)容,它們可以有效地評估忠實度。最終的評估輸出可以是忠實度的二元判斷,也可以是表示忠實度的k點李克特量表。對于提示選擇,評估提示可以是直接提示、思維鏈提示,使用上下文學(xué)習(xí),或允許模型生成帶有解釋的評估結(jié)果。
基準(zhǔn)
幻覺基準(zhǔn)可以分為兩個主要領(lǐng)域:幻覺評估基準(zhǔn),評估現(xiàn)有前沿LLM產(chǎn)生的幻覺程度;以及幻覺檢測基準(zhǔn),專門用于評估現(xiàn)有幻覺檢測方法的性能。
幻覺評估基準(zhǔn)
幻覺評估基準(zhǔn)是為了評估LLMs產(chǎn)生幻覺的傾向而設(shè)計的,特別強調(diào)識別事實的不準(zhǔn)確性和測量與原始環(huán)境的偏差。目前,這些基準(zhǔn)的主要焦點是評估生成內(nèi)容的真實性。TruthfulQA:包含817個問題,涵蓋健康、法律、金融和政治等38個不同類別,是專門設(shè)計用于評估語言模型真實性的基準(zhǔn)。它使用一種對抗性的方法,旨在引出“模仿謬誤”——由于模型在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)而可能產(chǎn)生的誤導(dǎo)性反應(yīng)。基準(zhǔn)測試分為兩部分,其中一部分包含人工篩選的問題,通過過濾掉GPT-3正確回答的問題,進一步篩選出437個問題。另一部分包括380個未經(jīng)過濾的非對抗性問題。對于評估,TruthfulQA提供了兩種類型的問答任務(wù):生成和選擇題,并采用人工評估來衡量模型的真實性和信息性。此外,該基準(zhǔn)還引入了一個名為GPT-judge的自動度量,該度量在6.7B GPT-3模型上進行了微調(diào)。
REALTIMEQA:考慮到世界知識是不斷發(fā)展的,驗證LLMs關(guān)于當(dāng)前世界的真實性就變得至關(guān)重要。這個基準(zhǔn)提供了實時的開放域選擇題,這些選擇題來源于新發(fā)布的新聞文章,涵蓋了政治、商業(yè)、體育和娛樂等多種主題。此外,該基準(zhǔn)還提供了一個實時評估的平臺,可以通過準(zhǔn)確度評估的多項選擇格式,也可以使用精確匹配和基于token的F1指標(biāo)評估生成設(shè)置。
Med-HALT:鑒于幻覺在醫(yī)學(xué)領(lǐng)域?qū)颊咦o理的重要性,該基準(zhǔn)強調(diào)了醫(yī)學(xué)領(lǐng)域特定于LLM的挑戰(zhàn)。Med-HALT結(jié)合了來自不同國家的多項選擇,旨在評估LLMs在醫(yī)學(xué)背景下的推理和記憶。推理任務(wù)有18,866個樣本,通過使用醫(yī)學(xué)多項選擇題測試LLM區(qū)分不正確或不相關(guān)選項和假問題的能力。同時,由4916個樣本組成的記憶任務(wù),評估了LLM通過從PubMed摘要/標(biāo)題生成鏈接或從給定鏈接和PIMDs生成標(biāo)題來召回和生成準(zhǔn)確事實信息的能力。對于評估,LLM的表現(xiàn)由它們在測試問題上的準(zhǔn)確性或逐點分?jǐn)?shù)來衡量,該分?jǐn)?shù)既考慮正確答案的積極分?jǐn)?shù),也考慮錯誤答案的消極懲罰。
FACTOR:為了定量評估語言模型的真實性,出現(xiàn)了通過擾動指定語料庫中的事實陳述來自動創(chuàng)建基準(zhǔn)的方法。產(chǎn)生了兩個基準(zhǔn)測試:Wiki-FACTOR和News-FACTOR。具體來說,對于給定的前綴文本,語料庫中的原始補全作為事實正確的答案。然后用包含特定錯誤類型的提示來指導(dǎo)InstructGPT生成非事實的完成。這些生成的回答隨后被過濾流暢和自我一致性,作為多項選擇任務(wù)的基礎(chǔ)。
ChineseFactEval:通過收集來自常識、科學(xué)研究、醫(yī)學(xué)、法律、金融、數(shù)學(xué)和中國近代史等不同領(lǐng)域的問題,ChineseFactEval使用125個問題來評估六個當(dāng)代中國llm的事實能力,以及GPT-4。在評估中,問題根據(jù)各種LLM實現(xiàn)的準(zhǔn)確性進行分類,不同難度的問題分配不同的分?jǐn)?shù)。所有LLM的響應(yīng)主要由人工注釋,由FacTool補充,然后使用最終分?jǐn)?shù)來評估它們的真實性。
HalluQA:借鑒了TruthfulQA的構(gòu)建方法,旨在專門評估中國LLM中的幻覺,側(cè)重于模仿性的謊言和事實錯誤。該基準(zhǔn)由30個領(lǐng)域的450個手工制作的對抗性問題組成,分為兩部分。誤導(dǎo)部分捕獲了成功欺騙GLM-130B的問題,而知識部分保留了ChatGPT和Puyu一致回答錯誤的問題。為了進行評估,LLM生成這些問題的答案,然后使用GPT-4將這些答案與正確答案進行比較,以確定答案是否包含幻覺。
FreshQA:認(rèn)識到幻覺可能部分源于過時知識,引入了該基準(zhǔn)來評估現(xiàn)有LLM的真實性。該基準(zhǔn)包括600個手工設(shè)計的問題,其答案可能隨著時間的推移而變化,或其前提實際上不正確,該基準(zhǔn)主要評估LLM快速變化知識的能力以及識別具有錯誤前提的問題的能力。在評估方面,該基準(zhǔn)提供了兩種模式的評估過程:RELAXED和STRICT,前者只評估原始答案的正確性,后者進一步評估答案中每個事實的正確性。
幻覺檢測基準(zhǔn)
對于幻覺檢測基準(zhǔn),大多數(shù)之前的研究主要集中在特定任務(wù)的幻覺上。然而,這些研究中產(chǎn)生的內(nèi)容往往來自能力較弱的模型,如BART和PEGASUS。因此,它們可能不能準(zhǔn)確地反映幻覺檢測策略的有效性。
SelfCheckGPT-Wikibio:基于維基生物數(shù)據(jù)集的概念,使用GPT-3生成合成維基百科文章,引入了一個句子級的幻覺檢測數(shù)據(jù)集。然后對這些段落的真實性在句子一級進行人工注釋,總共為238篇文章生成了1908個句子。
HaluEval:為了評估LLM識別幻覺的能力,使用自動生成和人工注釋相結(jié)合的方式構(gòu)建,產(chǎn)生了5000個一般用戶查詢與ChatGPT響應(yīng)以及30000個特定任務(wù)樣本。自動生成采用了“先采樣再過濾”的方法。該基準(zhǔn)利用問答、基于知識的對話和文本摘要等特定任務(wù)的數(shù)據(jù)集,首先使用ChatGPT根據(jù)與任務(wù)相關(guān)的幻覺模式對多層面的幻覺答案進行采樣,然后用ChatGPT選擇最可信的幻覺樣本。
BAMBOO:該基準(zhǔn)引入了兩個新的數(shù)據(jù)集SenHallu和AbsHallu,旨在檢測長文本背景下的幻覺。這些數(shù)據(jù)集是通過誘導(dǎo)ChatGPT在給定學(xué)術(shù)論文的情況下產(chǎn)生幻覺來構(gòu)建的。
FELM:該基準(zhǔn)評估了五個領(lǐng)域的真實性:世界知識、科學(xué)和技術(shù)、數(shù)學(xué)、寫作和推薦以及推理。雖然早期的研究有意地根據(jù)特定的模式誘導(dǎo)LLM產(chǎn)生幻覺,但該基準(zhǔn)使用ChatGPT在零樣本設(shè)置中產(chǎn)生響應(yīng),共產(chǎn)生817個樣本(包括3948個片段)。每個段都標(biāo)注了事實性、錯誤原因、錯誤類型和外部引用。作為事實性檢測器的測試平臺,該基準(zhǔn)采用F1得分和平衡分類精度來評估片段和響應(yīng)級別的事實性錯誤。
PHD:該基準(zhǔn)強調(diào)的不是句子級的幻覺檢測,而是篇章級的檢測。基準(zhǔn)的構(gòu)建首先從Wikipedia轉(zhuǎn)儲中提取實體,然后使用ChatGPT生成段落。當(dāng)LLM缺乏足夠的知識時,通常會出現(xiàn)事實錯誤,因此基準(zhǔn)測試根據(jù)谷歌搜索返回的相關(guān)項的數(shù)量來選擇實體。
ScreenEval:該基準(zhǔn)將范圍擴展到長格式對話中的事實不一致。基于SummScreen數(shù)據(jù)集,該數(shù)據(jù)集包括電視腳本和人工制作的摘要,該基準(zhǔn)測試在句子級別為Longformer和GPT-4生成的摘要引入事實不一致注釋,從而得到包含52個文檔和624個摘要句子的數(shù)據(jù)集。在評估方面,使用AUROC評分在此基準(zhǔn)上對幻覺檢測方法進行評估。
RealHall:該基準(zhǔn)的構(gòu)建遵循以下原則:幻覺檢測基準(zhǔn)中的任務(wù)應(yīng)該對LLMs提出實質(zhì)性的挑戰(zhàn),并與現(xiàn)實世界的應(yīng)用相關(guān),同時確保多樣性的廣度。與此一致,基準(zhǔn)測試將重點放在問答任務(wù)上,根據(jù)提示中參考文本的可用性將其分為Closed和Open組。基準(zhǔn)測試中的每個問題最初都使用ChatGPT生成響應(yīng),隨后通過涉及人工注釋、GPT4評估和基于規(guī)則的自動評估的組合方法為這些響應(yīng)分配布爾真值標(biāo)簽。使用AUROC評分對應(yīng)用于該基準(zhǔn)的幻覺檢測方法的有效性進行量化。
LSum:基準(zhǔn)集中在LLMs摘要任務(wù)中的事實一致性檢測上。該基準(zhǔn)基于XSum,包括使用來自GPTfamily、GLM-family和LLaMA家族的各種LLM生成摘要,并使用ChatGPT和GPT4在句子層面對事實一致性進行注釋,總共有6166個注釋摘要。
SAC3:該基準(zhǔn)測試包括兩個數(shù)據(jù)集:HotpotQA-halu和NQopen-halu。這些數(shù)據(jù)集分別從HotpotQA和NQ-open的訓(xùn)練集中抽取250個樣本來構(gòu)建。然后用GPT-3.5渦輪增壓產(chǎn)生幻覺答案。然后,對答案進行人工注釋,將其與基礎(chǔ)事實和相關(guān)知識來源進行比較。
緩解幻覺
緩解與數(shù)據(jù)相關(guān)的幻覺
與數(shù)據(jù)相關(guān)的幻覺通常是偏見、錯誤信息和知識差距的原因,這些基本都植根于訓(xùn)練數(shù)據(jù)。
緩解錯誤信息和偏差
為了減少錯誤信息和偏見的存在,最直觀的方法是收集高質(zhì)量的事實數(shù)據(jù)以防止引入錯誤信息,并進行數(shù)據(jù)清洗以消除偏見。
增強事實數(shù)據(jù):最直接的方法是手動管理預(yù)訓(xùn)練數(shù)據(jù)集。然而,隨著預(yù)訓(xùn)練數(shù)據(jù)集的不斷擴展,人工管理成為一個挑戰(zhàn)。考慮到學(xué)術(shù)或?qū)I(yè)領(lǐng)域的數(shù)據(jù)通常是事實準(zhǔn)確的,收集高質(zhì)量的數(shù)據(jù)成為主要策略。
消除偏見:預(yù)訓(xùn)練數(shù)據(jù)的偏見可分為重復(fù)偏見和社會偏見,每種都需要不同的消除偏見的方法。
重復(fù)偏見:通常分為完全重復(fù)和近似重復(fù)。對于完全重復(fù)項,最直接的方法包括精確子字符串匹配,以識別相同的字符串。然而,考慮到預(yù)訓(xùn)練數(shù)據(jù)的龐大,這個過程可能是計算密集型的。此外,一種更有效的方法利用后綴數(shù)組的構(gòu)造,能夠在線性時間內(nèi)有效地計算大量子字符串查詢。關(guān)于近似重復(fù),識別通常涉及近似全文匹配,通常使用基于哈希的技術(shù)來識別具有顯著N-gram重疊的文檔對。
社會偏見:當(dāng)前的主流解決方案嚴(yán)重依賴于精心策劃的培訓(xùn)語料庫。通過仔細(xì)選擇多樣化、平衡和代表性的訓(xùn)練數(shù)據(jù),我們可以減輕偏見,可能會引發(fā)幻覺。此外,還引入了工具包,使用戶能夠消除現(xiàn)有模型和自定義模型的偏見。
緩解知識邊界
受訓(xùn)練數(shù)據(jù)的覆蓋范圍和時間邊界的限制,不可避免地形成知識邊界。通常有兩種方法解決這一問題,一是知識編輯,旨在直接編輯模型參數(shù)以彌合知識鴻溝。另一種通過檢索增強生成(RAG)利用非參數(shù)知識源。
知識編輯:目的是通過納入額外的知識來糾正模型行為。當(dāng)前的知識編輯技術(shù)可以修復(fù)事實性錯誤和刷新過時的信息以緩解知識鴻溝,可分為兩類:通過修改模型參數(shù)改變模型的行為或使用外部模型插件凍結(jié)原始模型。
修改模型參數(shù):這類技術(shù)直接將知識注入到原始模型中,導(dǎo)致模型輸出的實質(zhì)性改變,這可以進一步分為定位后編輯方法和元學(xué)習(xí)方法。定位后編輯方法由兩個階段組成,首先定位模型參數(shù)中“有bug的”部分,然后對它們進行更新以改變模型的行為。元學(xué)習(xí)方法訓(xùn)練一個外部超網(wǎng)絡(luò)來預(yù)測原始模型的權(quán)重更新。然而,元學(xué)習(xí)方法往往需要額外的訓(xùn)練和記憶成本,需要專門的設(shè)計來減小llm時代超網(wǎng)絡(luò)的規(guī)模(如低秩分解)。雖然這些方法可以細(xì)粒度地調(diào)整模型的行為,但對參數(shù)的修改可能會對模型的固有知識產(chǎn)生潛在的有害影響。
保留模型參數(shù):一些研究不是直接修改模型參數(shù),而是將額外的模型插件應(yīng)用到原始模型中,以實現(xiàn)模型行為的所需更改。SERAC采用了一個范圍分類器,將存儲在外部編輯記憶中的與新知識相關(guān)的輸入路由到反事實模型,這可以幫助基本模型處理更新的信息。與整個模型相比,有多種技術(shù)涉及將額外的參數(shù)層(例如適配器層)作為插件合并到原始模型中。T-Patcher和NKB都將補丁添加到FFN層中,這些層被認(rèn)為是存儲知識的存儲庫,以糾正事實錯誤。CALINET 提出了一種識別PLM中錯誤知識的評估方法,并通過引入類似FFN的內(nèi)存槽來調(diào)整輸出,這有助于緩解知識鴻溝。這些方法需要額外的步驟來訓(xùn)練參數(shù)模塊,精心設(shè)計訓(xùn)練功能和結(jié)構(gòu),使插件在保持原始模塊處理未編輯事實的同時,發(fā)揮更新知識的作用。
檢索增強:減輕知識鴻溝的直觀方法是檢索增強生成(RAG),通過對從外部知識源檢索的相關(guān)文檔進行條件約束,使LLM生成ground-truth。通常,RAG遵循檢索后讀取,其中相關(guān)的上下文文檔首先由檢索器從外部源檢索,然后由生成器對輸入文本和檢索文檔進行條件約束生成所需的輸出。將使用檢索增強來減輕幻覺的方法分為三種類型,包括一次性檢索、迭代檢索和事后檢索。
一次檢索:目的是將單次檢索獲得的外部知識直接添加到LLMs的提示符中。Incontext RALM是一種簡單而有效的策略,即將選定的文檔預(yù)先添加到LLM的輸入文本中。PKG采用可訓(xùn)練的背景知識模塊,將其與任務(wù)知識對齊,生成相關(guān)的上下文信息。PKG的有效性突出了通過整合檢索到的背景知識來提高LLM忠誠度的潛力。
迭代檢索:當(dāng)面對復(fù)雜的挑戰(zhàn)時(如多步推理和長篇問答),傳統(tǒng)的一次性檢索可能不足。針對這些苛刻的信息需求,最近的研究提出了迭代檢索,它允許在整個生成過程中不斷收集知識。一個新興的研究方向試圖通過將這些復(fù)雜的任務(wù)分解成更易于管理的子任務(wù)來解決這些復(fù)雜的任務(wù)。認(rèn)識到思維鏈提示在多步驟推理中帶來的實質(zhì)性進步,許多研究嘗試在每個推理步驟中納入外部知識,并進一步指導(dǎo)基于正在進行的推理的檢索過程,減少推理鏈中的事實錯誤。
事后檢索:通過隨后的基于檢索的修訂來細(xì)化LLM輸出。為了提高LLM的可信度和歸因性,研究人員先研究相關(guān)證據(jù),然后根據(jù)發(fā)現(xiàn)的與證據(jù)的差異對初始生成進行修改。同樣,有方法引入了驗證和驗證框架,通過引入外部知識來提高推理鏈的事實準(zhǔn)確性。對于一致性低于平均水平的推理鏈,框架生成驗證問題,然后根據(jù)檢索到的知識提煉基本原理,確保更真實的響應(yīng)。
緩解知識捷徑
當(dāng)LLMs依靠虛假的相關(guān)性(如預(yù)訓(xùn)練語料庫的共現(xiàn)統(tǒng)計)來獲取事實知識時,知識捷徑就會顯現(xiàn)出來。可以通過排除有偏樣本構(gòu)建的去偏數(shù)據(jù)集進行微調(diào)。盡管這導(dǎo)致頻繁事實的召回率顯著下降,因為更多的樣本被排除在外,但當(dāng)微調(diào)過程中看不到罕見事實時,這種方法很難泛化。
緩解知識召回失敗
LLMs產(chǎn)生幻覺的一個普遍原因是他們無法準(zhǔn)確地檢索和應(yīng)用嵌入在參數(shù)化知識中的相關(guān)信息。在信息完整性至關(guān)重要的復(fù)雜推理場景中,這一挑戰(zhàn)尤為嚴(yán)峻。通過增強知識回憶,我們可以更好地將模型的輸出錨定到可驗證的知識上,從而提供更強大的防御,防止產(chǎn)生幻覺內(nèi)容。通常,召回知識最直接的方法是讓LLMs通過思維鏈提示進行推理。
緩解訓(xùn)練相關(guān)幻覺
為了解決與預(yù)訓(xùn)練相關(guān)的幻覺,大多數(shù)研究強調(diào)探索新的模型架構(gòu)和改進預(yù)訓(xùn)練目標(biāo)。
緩解預(yù)訓(xùn)練相關(guān)幻覺
緩解有缺陷的模型結(jié)構(gòu):減輕預(yù)訓(xùn)練相關(guān)幻覺的一個重要研究途徑集中在模型架構(gòu)固有的局限性上,特別是單向表示和注意故障。鑒于此,許多研究已經(jīng)深入到設(shè)計新穎的模型架構(gòu),專門針對這些缺陷進行改進。
緩解單向表示:引入采用雙向自回歸方法的BATGPT。這種設(shè)計允許模型基于以前看到的所有標(biāo)記來預(yù)測下一個標(biāo)記,同時考慮過去和未來的上下文,從而捕獲兩個方向上的依賴關(guān)系。
減輕注意力故障:利用注意銳化正則化器。這種即插即用的方法使用可微損失項來簡化自關(guān)注架構(gòu),以促進稀疏性,從而顯著減少推理幻覺。
緩解次優(yōu)預(yù)訓(xùn)練目標(biāo):傳統(tǒng)目標(biāo)可能導(dǎo)致模型輸出中的碎片化表示和不一致。最近的進展試圖通過改進預(yù)訓(xùn)練策略,確保更豐富的上下文理解和規(guī)避偏見來解決這些挑戰(zhàn)。本節(jié)闡明了這些開創(chuàng)性的方法,包括新的訓(xùn)練目標(biāo)和消除曝光偏差方法。
訓(xùn)練目標(biāo):由于GPU內(nèi)存約束和計算效率,文檔級別的非結(jié)構(gòu)化事實知識經(jīng)常被分塊,導(dǎo)致信息碎片化和不正確的實體關(guān)聯(lián),引入了一種事實增強的訓(xùn)練方法。通過給事實文檔中的每個句子附加一個TOPICPREFIX,該方法將它們轉(zhuǎn)換為獨立的事實,顯著減少了事實錯誤,增強了模型對事實關(guān)聯(lián)的理解。
曝光偏差:曝光偏差引起的幻覺與錯誤積累有著復(fù)雜的聯(lián)系。在置換多任務(wù)學(xué)習(xí)框架中引入了中間序列作為監(jiān)督信號,以減輕NMT領(lǐng)域移位場景中的虛假相關(guān)性。此外,通過采用最小貝葉斯風(fēng)險解碼也可以進一步減少與曝光偏差相關(guān)的幻覺。
緩解未對齊引起的幻覺
為了解決這個問題,一個直接的策略是改進人類的偏好判斷,進而改進偏好模型。研究LLM的使用,以幫助人類標(biāo)記者識別被忽視的缺陷。此外,匯總多種人類偏好可以提高反饋質(zhì)量,從而減少諂媚。對LLM內(nèi)部激活的修改也顯示出改變模型行為的潛力。這可以通過微調(diào)或推理期間的激活轉(zhuǎn)向。具體來說,使用綜合數(shù)據(jù)對語言模型進行微調(diào),其中主張的基本事實獨立于用戶的意見,旨在減少阿諛奉承的傾向。另一種研究方法是通過激活導(dǎo)向來減輕阿諛奉承。這種方法包括使用成對的阿諛/非阿諛提示來生成阿諛導(dǎo)向矢量,該矢量來自對中間激活的差異進行平均。
緩解推理相關(guān)幻覺
事實增強解碼
通過強調(diào)事實的準(zhǔn)確性,該策略旨在生成嚴(yán)格遵循真實世界信息的輸出,并抵制產(chǎn)生誤導(dǎo)性或虛假的陳述。
獨立解碼:考慮到采樣過程中的隨機性會將非事實內(nèi)容引入開放式文本生成,引入了事實核采樣算法,該算法在整個句子生成過程中動態(tài)調(diào)整"核心"。該解碼策略根據(jù)衰減因子和下界動態(tài)調(diào)整核概率,并在每個新句子開始時重新設(shè)置核概率,從而在生成事實內(nèi)容和保持輸出多樣性之間取得平衡。此外,一些研究假設(shè)LLM的激活空間包含與事實性相關(guān)的可解釋結(jié)構(gòu)。在這個想法的基礎(chǔ)上,引入了推理-時間干預(yù)(ITI)。該方法首先在與事實正確語句相關(guān)的激活空間中確定一個方向,然后在推理過程中沿著真值相關(guān)的方向調(diào)整激活。通過反復(fù)應(yīng)用這種干預(yù),LLM可以被引導(dǎo)到產(chǎn)生更真實的反應(yīng)。
后編輯解碼:與直接修改概率分布以防止初始解碼期間出現(xiàn)幻覺的方法不同,后編輯解碼尋求利用LLM的自校正能力來完善最初生成的內(nèi)容,而不依賴外部知識庫。一些方法使用驗證鏈(COVE),該驗證鏈的運行假設(shè)是,在適當(dāng)?shù)奶崾鞠拢琇LM可以自糾正其錯誤并提供更準(zhǔn)確的事實。它首先制定驗證問題,然后系統(tǒng)地回答這些問題,以便最終產(chǎn)生改進的修訂回答。
忠實度增強編碼
忠實度增強解碼優(yōu)先考慮與用戶指令或提供的上下文保持一致,并強調(diào)增強生成內(nèi)容的一致性。將現(xiàn)有工作總結(jié)為兩類,包括上下文一致性和邏輯一致性。
上下文一致:由于對上下文關(guān)注不足而產(chǎn)生的幻覺問題仍然存在。研究人員提出了上下文感知解碼(CAD),通過減少對先驗知識的依賴來修改輸出分布,從而促進模型對上下文信息的關(guān)注。然而,由于多樣性和歸因之間的內(nèi)在權(quán)衡,過度強調(diào)上下文信息會降低多樣性。因此引入了一種創(chuàng)新的采樣算法,以在保持多樣性的同時支持歸因。該方法包括兩個并行解碼,一個考慮源,另一個不考慮源,并根據(jù)token分布之間的KL散度動態(tài)調(diào)整溫度以反映源屬性。還有方法探索了一個更通用的后期編輯框架,以減輕推理過程中的忠實度幻覺。該方法首先在句子和實體級別檢測幻覺,然后利用這種檢測反饋來完善生成的響應(yīng)。一些方法提出了知識約束解碼(KCD),采用token級幻覺檢測來識別幻覺,并通過對未來基于知識的更好估計重新權(quán)衡token分布來指導(dǎo)生成過程。
邏輯一致:為了增強思維鏈提示的內(nèi)在自一致性,可采用知識蒸餾框架。首先使用對比解碼生成一致的理由,然后用反事實推理的目標(biāo)對學(xué)生模型進行微調(diào),這有效地消除了推理捷徑,這些捷徑在不考慮理由的情況下推導(dǎo)出答案。此外,通過采用對比解碼,可以減少表面級復(fù)制并防止遺漏推理步驟。
挑戰(zhàn)和開放問題
挑戰(zhàn)
雖然在緩解LLM幻覺方面取得了重大進展,但仍存在值得注意的挑戰(zhàn)。本節(jié)主要介紹它們在長文本生成、檢索增強生成和大視覺-語言模型等領(lǐng)域的表現(xiàn)。
長文本生成的幻覺
隨著生成內(nèi)容長度的增加,幻覺的傾向也會增加,導(dǎo)致評估這種幻覺的成為挑戰(zhàn)。首先,現(xiàn)有的LLM幻覺基準(zhǔn)通常以事實問答的形式呈現(xiàn),更關(guān)注事實幻覺。在長文本生成領(lǐng)域,明顯缺乏人工標(biāo)注的幻覺基準(zhǔn),這阻礙了研究人員在此背景下研究特定類型的幻覺。其次,評估長文本生成中的幻覺具有挑戰(zhàn)性。雖然有一些可用的評估指標(biāo),但它們有局限性,當(dāng)事實更微妙、開放式和有爭議時,或當(dāng)知識源中存在沖突時,并不適用。
檢索增強生成的幻覺
檢索增強生成(RAG)已成為一種有希望減輕LLM中的幻覺的策略。隨著人們對LLM幻覺的擔(dān)憂加劇,RAG越來越受到關(guān)注,為一系列商業(yè)應(yīng)用鋪平了道路,如Perplexity2, YOU.com 3和New Bing 4。RAG通過從外部知識庫中檢索證據(jù),使LLM具備最新的知識,并根據(jù)相關(guān)證據(jù)生成響應(yīng)。然而,RAG也有幻覺。一個值得注意的問題是RAG管道內(nèi)潛在的誤差累積。不相關(guān)的證據(jù)可能會傳播到生成階段,可能會污染輸出。另一個問題在于生成檢索領(lǐng)域,它偶爾會遭受引用不準(zhǔn)確的問題。雖然引用的目的是為驗證目的提供一條可追蹤的信息來源的路徑,但這個領(lǐng)域的錯誤可能會導(dǎo)致用戶誤入歧途。此外,現(xiàn)有的RAG可能會在多樣性和事實性之間進行權(quán)衡,這就對多樣性的需求提出了新的挑戰(zhàn)。
大視覺-語言模型的幻覺
由于具備了視覺感知能力,以及出色的語言理解和生成能力,大視覺-語言模型(LVLM)表現(xiàn)出了非凡的視覺-語言能力。與之前從大規(guī)模視覺語言預(yù)訓(xùn)練數(shù)據(jù)集獲得有限視覺語言能力的預(yù)訓(xùn)練多模態(tài)模型不同,LVLM利用先進的大語言模型來更好地與人類和環(huán)境交互。因此,LVLM的多樣化應(yīng)用也為維護此類系統(tǒng)的可靠性帶來了新的挑戰(zhàn),需要進一步研究和緩解。評估和實驗表明,當(dāng)前的LVLM容易對相關(guān)圖像產(chǎn)生不一致的響應(yīng),包括不存在的對象、錯誤的對象屬性、錯誤的語義關(guān)系等。此外,由于過度依賴強語言先驗,LVLM很容易被愚弄,并經(jīng)歷嚴(yán)重的性能下降,以及其抵御不適當(dāng)用戶輸入的能力較差。人們正在努力建立一個更魯棒的大視覺-語言模型。當(dāng)呈現(xiàn)多個圖像時,LVLM有時會混淆或遺漏部分視覺上下文,以及無法理解它們之間的時間或邏輯聯(lián)系,這可能會阻礙它們在許多場景中的使用,正確識別此類障礙的原因并解決它們?nèi)匀恍枰掷m(xù)的努力。
LLM幻覺的開放問題
隨著LLM幻覺研究的進展,其自我糾正機制在減少幻覺方面的有效性,其內(nèi)部對知識邊界的理解,以及他們的創(chuàng)造力和真實性之間的平衡等問題需要進一步探討。
自校正機制能幫助減輕推理幻覺嗎?
雖然LLM在通過思維鏈提示處理復(fù)雜推理任務(wù)方面表現(xiàn)出了非凡的能力,但它們偶爾會表現(xiàn)出不忠實的推理,其特征是推理步驟或結(jié)論在邏輯上不遵循推理鏈研究表明,將外部反饋集成到LLM中。這種反饋通常通過檢索過程來自外部知識源,與其他LLM進行互動或來自外部評估指標(biāo)的指導(dǎo)。這探索了自校正機制的潛力,其中LLM使用其內(nèi)置能力校正其初始響應(yīng),而不依賴外部反饋。盡管自校正已顯示出實現(xiàn)忠實和準(zhǔn)確推理的能力,但某些研究對自矯正機制的有效性提出質(zhì)疑,指出LLM仍然難以自校正其推理鏈。因此,該機制的有效性仍然是一個開放問題,值得進一步探索。
是否能準(zhǔn)確計算知識邊界?
盡管從廣泛的數(shù)據(jù)中捕獲事實知識的能力令人印象深刻,但LMM在識別自己的知識邊界方面仍然面臨挑戰(zhàn)。這種不足導(dǎo)致幻覺的發(fā)生,在這種情況下,LMM自信地制造謊言,而沒有意識到自己的知識限制。許多研究都深入探索了LMM的知識邊界,利用了一些策略,如評估多項選擇題中正確答案的概率,或通過評估具有不確定含義的句子集之間的相似性來量化模型的輸出不確定性。此外,還有工作揭示了LLM在其激活空間中包含與真實性信念相關(guān)的潛在結(jié)構(gòu)。最近的研究也發(fā)現(xiàn)了大量證據(jù),表明LLM有能力對問題的不可回答性進行編碼,盡管這些模型在面對不可回答的問題時表現(xiàn)出過度自信并產(chǎn)生幻覺。因此,我們是否可以有效地探索LLM的內(nèi)部信念正在進行中,需要進一步的研究。
如何在創(chuàng)造性和真實性之間取得平衡?
在LLM發(fā)展過程中,平衡創(chuàng)造力和事實性的挑戰(zhàn)是一個重要的問題。確保真實性對于用于現(xiàn)實世界應(yīng)用的LLM至關(guān)重要;任何不準(zhǔn)確的信息都會誤導(dǎo)用戶,污染網(wǎng)絡(luò)環(huán)境。相反,幻覺有時可以提供有價值的視角,特別是在創(chuàng)造性的努力中,如講故事、頭腦風(fēng)暴和產(chǎn)生超越傳統(tǒng)思維的解決方案。雖然目前對LLM的研究嚴(yán)重傾向于減少幻覺,但往往忽視了其創(chuàng)造力的重要作用。其創(chuàng)造力和事實準(zhǔn)確性之間取得平衡的挑戰(zhàn)仍然沒有解決。探索多模態(tài)文本生成任務(wù)中的平衡也是有趣的,也適用于視覺生成任務(wù)。這個問題超越了單純的技術(shù)問題,需要對人工智能的本質(zhì)及其對人類互動和知識交流的影響進行更廣泛的思考。
總結(jié)
這篇綜述對大型語言模型中的幻覺進行了深入研究,深入研究了其根本原因、檢測方法以及相關(guān)基準(zhǔn)和有效的緩解策略。盡管已經(jīng)取得了重大進展,但大型語言模型中的幻覺問題仍然是一個令人信服和持續(xù)的問題,需要繼續(xù)進行研究。
原文標(biāo)題:LLM的幻覺問題最新綜述
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47274瀏覽量
238468 -
渦輪增壓
+關(guān)注
關(guān)注
1文章
79瀏覽量
5338 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1560瀏覽量
7666 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
334
原文標(biāo)題:LLM的幻覺問題最新綜述
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論