在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

HaluEval數據集的構建過程分析

深度學習自然語言處理 ? 來源:RUC AI Box ? 2023-07-24 09:08 ? 次閱讀

一、背景

最近,大語言模型(Large Language Models, LLMs)的快速發展帶來了自然語言處理領域的范式轉變,在各類任務上的優秀表現引發了眾多關注。然而,在自然語言社區迎接和擁抱大語言模型時代的同時,也迎來了一些屬于大模型時代的新問題,其中大模型的幻象問題(Hallucination in LLMs)是最具代表性的問題之一。大語言模型的幻象問題是指其生成的內容要么與現有的內容有沖突,要么無法通過已有的事實或知識進行驗證。圖1是一個大模型生成的文本中包含幻象的例子,當用戶詢問大模型兩磅羽毛和一磅磚頭哪個更重時,模型給出的答案自相矛盾,首先回答二者一樣重,然后又說兩磅比一磅重。這也就是眾多用戶在與大模型交互過程中遇到的,大模型會“一本正經的胡說八道”的現象。對用戶來說,大模型生成文本的可信度是一項非常重要的指標。如果生成的文本無法信任,則會嚴重影響大模型在現實世界中的應用。

為了進一步研究大模型幻象的內容類型和大模型生成幻象的原因,本文提出了用于大語言模型幻象評估的基準——HaluEval。我們基于現有的數據集,通過自動生成和手動標注的方式構建了大量的幻象數據組成HaluEval的數據集,其中包含特定于問答、對話、文本摘要任務的30000條樣本以及普通用戶查詢的5000條樣本。在本文中,我們詳細介紹了HaluEval數據集的構建過程,對構建的數據集進行了內容分析,并初步探索了大模型識別和減少幻象的策略。

二、HaluEval Benchmark

數據構建

HaluEval包含35000條帶幻象的樣本和對應的正確樣本用于大模型幻象的評估。為了生成幻象數據集,我們設計了自動生成和人工標注兩種構建方式。對于特定于問答、基于知識的對話和文本摘要三類任務的樣本,我們采用自動生成的構建方式;對于一般的用戶查詢數據,我們采用人工標注的構建方式。

d7fe1e80-279b-11ee-962d-dac502259ad0.png

圖2 HaluEval的構建方法

自動生成

HaluEval中基于任務的樣本共有30000條,其中問答、基于知識的對話和文本摘要各有10000條,分別基于現有的數據集HotpotQA,OpenDialKG, CNN/Daily Mail作為種子數據進行采樣生成。

對于自動生成,我們設計了先采樣后過濾的兩步生成框架,包括多樣化的幻象采樣和高質量的幻象過濾兩個步驟。

多樣化的幻象采樣 為了在采樣指令中給出條理的幻象生成方法,針對三類任務,我們參考現有的工作將幻象分為不同類型,并向模型輸入各個類別幻象介紹作為生成幻象樣本的方法。對于問答任務,將幻象分為comprehension、factualness、specificity和inference四種類型;對于基于知識的問答任務,將幻象分為extrinsic-soft,、extrinsic-hard和 extrinsic-grouped三類;對于文本摘要任務,將幻象分為factual、non-factual和intrinsic三類。考慮到生成的幻象樣本可以有不同的類型,我們提出了兩種采樣方法來生成幻象。如圖2所示,第一種方法采用單指令模式(one-pass instruction),我們直接將包含所有生成幻象方法的完整的指令輸入ChatGPT,然后得到生成的幻象答案;第二種方法采用對話式的指令(conversational instruction),每輪對話輸入一種生成幻象的方法,確保ChatGPT掌握了每一類方法,最后根據學到的指令生成給定問題的幻象答案。使用兩種策略進行采樣,每個問題可以得到兩個候選的幻象答案。

高質量的幻象過濾 為了得到更加合理和具有挑戰性的幻象樣本,我們對采樣得到的兩個候選答案進行過濾。為了提高過濾質量,我們在幻象過濾指令中加入樣本過濾的示例。與對兩個幻象答案進行過濾不同,過濾指令中的示例包含正確答案和幻象答案,我們選擇正確答案作為過濾結果;然后輸入測試樣本的兩個候選幻象答案讓模型進行選擇,期望ChatGPT選擇更加接近真實答案的幻象答案來增強過濾效果。通過進一步的過濾,得到的幻象答案更加難以識別。我們收集過濾得到的更具挑戰性的候選樣本作為最終的幻象樣本。

在先采樣后過濾的自動生成框架中,關鍵在于設計有效的指令來生成和過濾幻象答案。在我們的設計中,幻象的采樣指令包括意圖描述、幻象模式和幻象示例三部分,圖3為問答任務的采樣指令,其中藍色部分表示意圖描述,紅色部分為幻象模式,綠色部分為幻象示例;幻象的過濾指令包括意圖描述和過濾示例兩部分,圖4為問答任務的幻象過濾指令,其中藍色部分表示意圖描述,綠色部分為過濾示例。

d82bedba-279b-11ee-962d-dac502259ad0.png

圖3 問答任務的幻象采樣指令

d8984244-279b-11ee-962d-dac502259ad0.png圖4 問答任務的幻象過濾指令

人工標注

對于一般的用戶查詢,我們采用人工標注的方法構建數據。我們邀請三位專家對來自Alpaca數據集的普通用戶查詢和ChatGPT回復進行人工標注,判斷ChatGPT的回復中是否包含幻象并標注包含幻象的片段。在進行人工標注之前,為了篩選出更有可能產生幻覺的用戶查詢,我們首先設計了一個預選程序。具體來說,我們使用 ChatGPT 對每個用戶查詢生成三個響應,然后使用 BERTScore 計算它們的平均語義相似度,最終保留了 5000 個相似度最低的用戶查詢。如圖2所示,篩選出來的每個樣本由三個專家進行標記,標注者從三個方面判斷回復中是否包含幻象并標注幻象所在位置:unverifiable,、non-factual和irrelevant,我們最終采用最大投票策略來確定回復中是否包含幻象。

基準使用

為了幫助大家更好地使用HaluEval,我們提出了使用HaluEval來進行大模型幻象研究的三個可能的方向。

基于HaluEval中生成和注釋的幻象樣本,研究人員可以分析大模型產生幻象的查詢屬于什么主題;

HaluEval可以用于評估大模型識別幻象的能力,例如給定一個問題及答案,要求大模型判斷答案中是否包含幻象;

HaluEval包含正確樣本和幻象樣本,因此也可用于評估大模型的輸出是否包含幻象。

三、實驗

在實驗部分,為了測試大模型在HaluEval上的幻象識別表現,我們使用所構造的HaluEval,在davinci、text-davinci-002、text-davinci-003和gpt-3.5-turbo四個模型上進行了幻象識別實驗,并針對實驗結果進行了詳細分析,最后提出了一些可能對提高識別效果有用的策略。

幻象識別實驗

在幻象識別實驗中,對于每一個測試樣本我們以50%的概率從幻象答案和正確答案中選擇一個作為測試答案,將問題與測試答案一起輸入模型,讓模型判斷測試答案中是否包含幻象。如圖5所示,類似于幻象生成和過濾的步驟,我們設計了用于幻象識別的指令,包括意圖描述、幻象模式和幻象識別示例,并在上述四個模型上進行測試。表1中展示了四個模型在幻象識別任務上的準確率。

d8fe7276-279b-11ee-962d-dac502259ad0.png

圖5 問答任務的幻象識別指令

d949e08a-279b-11ee-962d-dac502259ad0.png

表1 幻象識別實驗結果

實驗結果表明,LLM在識別文本中的幻象這一任務上表現不佳,ChatGPT在文本摘要任務上僅達到58.53%的準確率,與50%的隨機概率相差不大;而其他模型例如GPT-3在問答、對話和摘要任務上的準確率幾乎都在50%左右。

為了進一步分析ChatGPT沒有檢測出的幻象樣本,我們使用LDA對所有的測試樣本和檢測失敗樣本進行聚類,并對聚類得到的主題進行可視化。我們將各個數據集的測試數據聚類為10個主題,并將其中檢測失敗的主題標記為紅色,如圖6所示。從聚類結果來看,我們發現LLM無法識別的幻象集中在幾個特定的主題。例如QA中的電影、公司、樂隊;對話中的書籍、電影、科學;摘要中的學校、政府、家庭;普通用戶查詢中的技術、氣候和語言等話題

d975e6e4-279b-11ee-962d-dac502259ad0.png

圖6 主題聚類

提升策略

鑒于現有的LLM在幻象識別方面表現欠佳,我們嘗試提出幾種策略來提升大模型識別幻象的能力,包括知識檢索、思維鏈推理和樣本對比。我們使用提出的三種策略在ChatGPT上重新進行幻象識別實驗,下表為使用各個策略后ChatGPT的幻象識別準確率。

d9bfaa5e-279b-11ee-962d-dac502259ad0.png

表2 幻象識別能力提升策略實驗結果

知識檢索

知識檢索是一個廣泛使用的用于減少幻象的手段。在幻象檢測實驗中,我們向ChatGPT提供在Wikipedia檢索到的相關事實知識(除了摘要任務),并在指令中要求ChatGPT根據給定知識和問題判斷答案中是否包含幻象。通過向模型提供相關的事實知識,幻象的識別準確率有較為明顯的提升,尤其是在問答任務中,準確率從62.59%提升到了76.83%;對話任務也有小幅度的提升。因此,為LLM提供外部知識可以很大程度上增強其識別幻象的能力。

CoT推理

思維鏈(chain-of-thought)推理是一種通過使LLM加入中間步驟進行推理來獲得最終結果的手段,之前的工作在一些數學問題和邏輯問題中引入思維鏈,能夠明顯提升模型解決問題的能力。在幻象識別實驗中,我們同樣引入思維鏈推理進行嘗試,在識別指令中要求模型逐步生成推理步驟最終得到識別結果。然而和知識檢索相比,在輸出中添加思維鏈并沒有提高模型識別幻象的能力,反而在部分任務上準確率有所下降。與知識檢索相比,思維鏈推理并不能為模型提供顯式的外部知識,反而有可能會干擾最終的判斷。

樣本對比

我們進一步為模型同時提供正確答案和幻象答案來測試模型是否具備區分正確樣本和幻象樣本的能力。表中的實驗結果顯示提供正確樣本使得幻象識別的準確率有較大的下降,這可能是由于生成的幻象答案與真實答案有很高的相似性,也進一步說明了HaluEval的幻象識別對LLM來說具有很大的挑戰性。

四、總結

本文引入了大型語言模型幻象評估基準——HaluEval,這是一個大規模的自動生成的和人工注釋的幻象樣本集合,用于評估大語言模型在識別幻象方面的表現。首先我們介紹了HaluEval的構建過程,包含自動生成和人工標注。為了自動生成幻象樣本,我們提出先采樣后過濾的兩步生成框架;人工標注部分我們請專家針對用戶查詢的回復進行標注。基于HaluEval,我們評估了四個大模型在識別幻象方面的表現,分析了幻象識別實驗的結果,并且提出了三個提升幻想識別能力的策略。基于在HaluEval上的測評實驗,我們得出以下結論:

ChatGPT很可能會編造無法核實的信息,從而在一些特定主題中產生幻覺內容。

現有的大語言模型在識別文本中的幻覺方面面臨著巨大的挑戰。

可以通過提供外部知識或增加推理步驟來提高幻覺識別的準確率。

總之,我們提出的HaluEval基準能夠幫助分析大模型生成幻象的內容,也可用于大模型幻象識別和減輕的研究,為未來建立更加安全可靠的LLM鋪平了道路。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 過濾器
    +關注

    關注

    1

    文章

    429

    瀏覽量

    19614
  • LDA
    LDA
    +關注

    關注

    0

    文章

    29

    瀏覽量

    10608
  • ChatGPT
    +關注

    關注

    29

    文章

    1561

    瀏覽量

    7671

原文標題:幻象 or 事實 | HaluEval:大語言模型的幻象評估基準

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問NanoEdge AI數據該如何構建

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據?或者生成模型失敗還會有哪
    發表于 05-28 07:27

    怎么刪除分析中的“Ghost”數據

    Genesys 2007.03我添加了一個分析,例如“分析1”。然后我刪除了這個分析。現在,其數據“Analysis 1_Data”的名稱
    發表于 02-20 09:12

    高階API構建模型和數據使用

    了TensorFlow2.0Beta版本,同pytorch一樣支持動態執行(TensorFlow2.0默認eager模式,無需啟動會話執行計算圖),同時刪除了雜亂低階API,使用高階API簡單地構建復雜神經網絡模型,本文主要分享用高階API構建模型和
    發表于 11-04 07:49

    阻塞信號的設定過程

    PCB的信號阻塞信號的設定過程
    發表于 02-24 07:35

    分析數據(食品篇)

    分析數據(食品篇)內容有食品成分,香氣,無機金屬,食品添加劑,殘留農藥等。
    發表于 11-30 11:13 ?0次下載
    <b class='flag-5'>分析</b><b class='flag-5'>數據</b><b class='flag-5'>集</b>(食品篇)

    統計行業數據倉庫構建及應用

    數據倉庫可以管理和重組統計行業大量分散數據,便于以后分析和決策。介紹數據倉庫概念、改進的三層體系結構、構建
    發表于 09-16 10:57 ?28次下載

    WSN中能量有效的連通支配構建算法

    現有的連通支配構建算法大多過程復雜、步驟冗余、耗能較多,且不能適應網絡動態拓撲的變化。為此,提出一種能量有效的構建算法。該算法通過單階段快速構建
    發表于 03-06 17:22 ?1次下載

    監測時間序列數據的高斯過程建模與多步預測

    ,以及對其內在物理特性的分析構建了針對環境監測數據的高斯過程核函數,實現了對數據變化模式的描述。在基于3個
    發表于 03-08 10:12 ?1次下載

    如何利用Dataloder來處理加載數據

    在Pytorch中,torch.utils.data中的Dataset與DataLoader是處理數據的兩個函數,用來處理加載數據。通常情況下,使用的關鍵在于
    的頭像 發表于 02-24 10:42 ?592次閱讀
    如何利用Dataloder來處理加載<b class='flag-5'>數據</b><b class='flag-5'>集</b>

    PyTorch教程16.1之情緒分析數據

    電子發燒友網站提供《PyTorch教程16.1之情緒分析數據.pdf》資料免費下載
    發表于 06-05 10:54 ?0次下載
    PyTorch教程16.1之情緒<b class='flag-5'>分析</b>和<b class='flag-5'>數據</b><b class='flag-5'>集</b>

    使用DSFD檢測DarkFace數據過程

    下載Dark Face數據,使用track2.2_test_sample文件中圖片進行人臉檢測測試。
    的頭像 發表于 07-02 10:26 ?721次閱讀

    如何構建高質量的大語言模型數據

    構建高質量的大語言模型數據是訓練強大自然語言處理模型的關鍵一步。以下是一些關鍵步驟和考慮因素,有助于創建具有多樣性、準確性和時效性的數據
    的頭像 發表于 09-11 17:00 ?1607次閱讀

    大模型數據構建、挑戰與未來趨勢

    隨著深度學習技術的快速發展,大型預訓練模型如GPT-4、BERT等在各個領域取得了顯著的成功。這些大模型背后的關鍵之一是龐大的數據,為模型提供了豐富的知識和信息。本文將探討大模型數據
    的頭像 發表于 12-06 15:28 ?1825次閱讀

    INSYS工業路由器構建可靠的水廠過程控制系統

    INSYS工業路由器采用模塊化、安全和冗余設計,確保數據安全可靠通信,幫助客戶構建高效的水廠過程控制系統,輕松管理工廠和設備。
    的頭像 發表于 05-30 13:51 ?342次閱讀
    宏<b class='flag-5'>集</b>INSYS工業路由器<b class='flag-5'>構建</b>可靠的水廠<b class='flag-5'>過程</b>控制系統

    ASPION數據記錄器:分析運輸過程中的碰撞、沖擊和振動

    數據記錄儀會記錄貨物運輸過程中諸如溫濕度、沖擊振動等的各種環境狀況。沖擊或振動有時會對貨物產生破壞性的后果。本文我們以宏ASPION沖擊傳感器為例,詳細地解釋如何分析和評估貨物運輸途
    的頭像 發表于 10-24 15:06 ?210次閱讀
    宏<b class='flag-5'>集</b>ASPION<b class='flag-5'>數據</b>記錄器:<b class='flag-5'>分析</b>運輸<b class='flag-5'>過程</b>中的碰撞、沖擊和振動
    主站蜘蛛池模板: 天天操天天干天天插| 日日操夜夜爽| 狠狠操天天操夜夜操| 日本不卡在线观看| 日韩特级片| 亚洲午夜久久久久影院| 好骚综合在线| 特黄毛片| 超黄视频网站| 亚洲乱强| 四虎精品影院在线观看视频| 磁力bt种子搜索在线| 手机在线完整视频免费观看| 亚州1区2区3区4区产品乱码2021| 国产亚洲综合色就色| 久久99热精品免费观看k影院| 高h细节肉爽文bl1v1| 激情深爱五月| 国产精品网站在线进入| 香蕉视频在线观看黄| www色.com| 456亚洲人成影院在线观| 高清视频免费观看| 亚洲婷婷综合色高清在线| 国产精品成人四虎免费视频| 456成人免费高清视频| 美女扒开尿口让男生添 漫画| 免费网站你懂得| 久久久久久久国产| 五月激情六月婷婷| 午夜国产在线观看| 免费精品美女久久久久久久久久| 久久视频免费| 在线黄网| 欧美天天视频| 国产小视频免费看| 天堂电影免费在线资源| 天天毛片| 亚洲综合激情另类专区| 你懂得福利| www.色黄|