在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大型語言模型的邏輯推理能力探究

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-11-23 15:05 ? 次閱讀

最新研究揭示,盡管大語言模型LLMs在語言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估基準(zhǔn),包含12個數(shù)據(jù)集,覆蓋三大任務(wù)類型。

實(shí)驗(yàn)對比發(fā)現(xiàn),GPT-4在邏輯推理上的表現(xiàn)遠(yuǎn)超ChatGPT,但與人類表現(xiàn)和有監(jiān)督的微調(diào)相比,仍有提高空間。

為此,研究者提出了自我一致性探測方法(self-consistency probing method)來進(jìn)一步提升ChatGPT的準(zhǔn)確性,并通過微調(diào)策略,進(jìn)一步增強(qiáng)大型語言模型的邏輯推理能力。

讓我們一起看看這篇研究吧!

GLoRE基準(zhǔn)

邏輯推理,作為人類智能的核心,長期以來都是AI研究的熱點(diǎn)。為了更好地評估LLMs在自然語言中處理復(fù)雜信息的能力,研究人員推出了通用邏輯推理評估(GLoRE)基準(zhǔn)。與眾所周知的GLUE和Super-GLUE評估自然語言理解能力類似,GLoRE匯集了多個邏輯推理數(shù)據(jù)集。

GLoRE主要包括三大任務(wù):

多項(xiàng)選擇閱讀理解:系統(tǒng)給定段落和問題,目的是從答案中選擇正確的選項(xiàng)。特別地,GLoRE包括五個此類數(shù)據(jù)集,如LogiQA、ReClor、AR-LSAT等。

自然語言推斷(NLI):確定假設(shè)與前提之間的邏輯關(guān)系。包括ConTRoL、HELP、TaxiNLI等數(shù)據(jù)集。

真或假問題(TF:如FraCaS、RuleTaker和ProofWriter等數(shù)據(jù)集。

2f7b62ca-74be-11ee-939d-92fbcf53809c.png

這些數(shù)據(jù)集涵蓋了從簡單到復(fù)雜的各種邏輯推理情境,為我們評估大型語言模型的邏輯推理能力提供了合適的平替。其中,多項(xiàng)選擇閱讀理解深入探討了邏輯MRC問題,而NLI任務(wù)關(guān)注文本分類中的蘊(yùn)涵關(guān)系。而真或假問題主要測試了模型在多前提上下文的蘊(yùn)涵問題上的處理能力。

實(shí)驗(yàn)設(shè)置

在這篇研究中,研究人員針對開源的LLMs和基于封閉API或UI的模型進(jìn)行了評估,考慮了7種評估場景:

zero-shot評估:模型通過模板轉(zhuǎn)換得到提示,并生成語言化的答案。

few-shot評估:LLMs使用帶有答案的示例作為上下文進(jìn)行推斷。

指令調(diào)整:LLMs被訓(xùn)練以遵循自然語言指令,進(jìn)行任務(wù)特定的微調(diào)。

自我一致性評估:模型需要全面了解上下文中的邏輯關(guān)系。

思維鏈評估:模型進(jìn)行一步一步的邏輯思考。

聊天UI評估:基于GPT-4的手動聊天UI測試,更真實(shí)地反映用戶與模型的互動。

生成響應(yīng)的評估:對模型生成的響應(yīng)進(jìn)行質(zhì)量評估,包括連貫性、完整性、正確性和相關(guān)性。

在實(shí)驗(yàn)中采用了RoBERTa-base作為基線,對比了數(shù)個LLMs如Falcon-40b-instruct和LLaMA-30b-supercot,以及OpenAI的ChatGPT和GPT-4。

評估指標(biāo)主要以分類精度得分為指標(biāo),并設(shè)立人類基線,對于LogiQA22數(shù)據(jù)集特邀五名合著者進(jìn)行測試。

主要結(jié)果

Zero-shot任務(wù)

下表展示了主要的zero-shot任務(wù)上的實(shí)驗(yàn)結(jié)果。

2f87ccae-74be-11ee-939d-92fbcf53809c.png

我們主要可以得出以下發(fā)現(xiàn):

人類準(zhǔn)確率: 人類在大多數(shù)邏輯推理任務(wù)上的平均準(zhǔn)確率超過80%,尤其是在ReClor和AR-LSAT上,平均準(zhǔn)確率分別為63.00%和56.00%。

RoBERTa-base表現(xiàn): 該模型在多數(shù)邏輯推理任務(wù)上的表現(xiàn)落后于平均人類表現(xiàn),但在特定的ProofWriter任務(wù)上有55.92%的準(zhǔn)確率,顯示出處理特定邏輯推理任務(wù)的潛力。

開源模型對比: LLaMA和Falcon在多數(shù)邏輯推理任務(wù)上的表現(xiàn)都不如微調(diào)的RoBERTa-base,特別是在MRC任務(wù)上。

ChatGPT和GPT-4: 兩種模型在多數(shù)MRC基準(zhǔn)測試中超過了RoBERTa-base。GPT-4在處理一些邏輯MRC數(shù)據(jù)集上展現(xiàn)出了顯著的能力。

LogiQA 2.0深度分析: ChatGPT和GPT-4在分類推理上都展現(xiàn)出了超高的準(zhǔn)確率,但在處理涉及析取的前提上面臨挑戰(zhàn)。

Few-shot任務(wù)

下表展示了不同模型在few-shot任務(wù)上的實(shí)驗(yàn)結(jié)果。GPT-4在與zero-shot相比的few-shot場景中獲得了超過9個百分點(diǎn)的準(zhǔn)確率提升。

2f911ce6-74be-11ee-939d-92fbcf53809c.png

推理任務(wù)

下表展示了不同推理類型的統(tǒng)計分析。

2f9c60ba-74be-11ee-939d-92fbcf53809c.png

ChatGPT和GPT-4在分類推理上表現(xiàn)出了超高的準(zhǔn)確率,分別為83.83%和95.04%。

兩模型在涉及析取的前提上面臨挑戰(zhàn),可能是因?yàn)檫@些邏輯結(jié)構(gòu)的固有復(fù)雜性和潛在的模糊性。

社區(qū)模型在分類推理上沒有展現(xiàn)出特別強(qiáng)的表現(xiàn),連詞推理和析取推理對它們來說仍然是個挑戰(zhàn)。

指令微調(diào)的有效性

使用Alpaca的指令進(jìn)行微調(diào)后,所有任務(wù)的性能都得到了顯著提高,證明了指令調(diào)整的強(qiáng)大效果。這種改進(jìn)主要?dú)w因于模型增強(qiáng)的一般指令理解能力。

2fa47926-74be-11ee-939d-92fbcf53809c.png

經(jīng)過調(diào)整的LLaMA-7B模型明顯優(yōu)于基線的LLaMA-7B模型和Alpaca。在LogiQA 2.0數(shù)據(jù)集上,模型的準(zhǔn)確率從18.04%增加到52.74%,高于微調(diào)后的RoBERTa-base的48.76%。

盡管微調(diào)僅使用了LogiQA 2.0的訓(xùn)練數(shù)據(jù)集,但經(jīng)過調(diào)整的模型成功地將其能力推廣到其他數(shù)據(jù)集。在ReClor數(shù)據(jù)集上,經(jīng)過調(diào)整的模型達(dá)到了55.20%的準(zhǔn)確率,比Alpaca高出32.82個百分點(diǎn)。

Self-Consistency Probing評估

邏輯推理任務(wù)通常涉及處理一系列相關(guān)的陳述或事實(shí),然后根據(jù)這些信息進(jìn)行推斷。這些任務(wù)需要理解不同信息之間的相互作用,而不是獨(dú)立地處理它們。這意味著,即使事實(shí)的順序或句子的結(jié)構(gòu)發(fā)生變化,真正的邏輯結(jié)論也應(yīng)該保持不變。因此,研究人員在實(shí)驗(yàn)中通過打亂句子為ChatGPT引入多樣性,特別是對于那些固有地不是順序的數(shù)據(jù)集。

2fae9c08-74be-11ee-939d-92fbcf53809c.png

由表可觀察到,投票模型在多數(shù)數(shù)據(jù)集上優(yōu)于單一模型。在LogiQA 2.0 zh數(shù)據(jù)集上,單一模型有更高的準(zhǔn)確率,可能因?yàn)橹形恼Z言結(jié)構(gòu)的特殊性。

打亂文本不會對ChatGPT的性能產(chǎn)生負(fù)面影響。在某些情況下,打亂的文本甚至提高了性能。類似的趨勢也出現(xiàn)在其他CoT數(shù)據(jù)中,其中CoT序列的擾動對整體效率的影響很小。

CoT評估

下表展示了在GLoRE上使用/不使用CoT的結(jié)果。

2fc29c30-74be-11ee-939d-92fbcf53809c.png

除此之外,實(shí)驗(yàn)還計算了GPT-4結(jié)果的混淆矩陣。所有模型在使用CoT提示時都有性能提升,范圍在2%到3%之間。混淆矩陣進(jìn)一步說明了使用CoT提示提高性能的重要性。

2fd0490c-74be-11ee-939d-92fbcf53809c.png

GPT4的Chat UI評估

實(shí)驗(yàn)還對GPT-4模型在Chat UI界面上的性能進(jìn)行了深入探索,并通過案例研究揭示了其在回答和推理上的特點(diǎn)。

2fdce6a8-74be-11ee-939d-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果表明,沒有觀察到基于UI的輸出和基于API的輸出之間的明顯質(zhì)量差異。基于UI的評估結(jié)果在大多數(shù)數(shù)據(jù)集上略高于基于API的結(jié)果。評估指標(biāo)可能是造成這種差異的一個原因。

案例研究主要有以下發(fā)現(xiàn):

GPT-4在一些情況下能夠正確地回答和推理,例如通過選擇新證據(jù)來解決專家觀點(diǎn)和證據(jù)之間的矛盾。

GPT-4有時會生成不正確的答案,如對人類起源的問題的回答。

在某些情況下,提供上下文示例可以幫助GPT-4更準(zhǔn)確地回答問題。

CoT推理過程通過為GPT-4提供更相關(guān)的上下文來工作,但也可能依賴于表面的模式而不是深入的抽象。

人工評估

實(shí)驗(yàn)對模型的表現(xiàn)進(jìn)行了人工評估,GPT-4在所有指標(biāo)上都穩(wěn)定地排名第一,ChatGPT緊隨其后。評注者之間的一致性良好,Cohen's Kappa值為0.79。

2ff1a58e-74be-11ee-939d-92fbcf53809c.png

連貫性: GPT-4得分最高,為4.52,表現(xiàn)出其邏輯連貫輸出的能力。ChatGPT緊隨其后,得分為4.00。

完整性: ChatGPT和GPT-4并列第一,得分均為4.81,展示了其詳盡的回應(yīng)能力。

正確性: GPT-4得分為4.51,領(lǐng)先于其他模型,其回應(yīng)準(zhǔn)確率高。

相關(guān)性: GPT-4略微領(lǐng)先,得分為4.89,與ChatGPT得分4.72相當(dāng)接近。

此外,使用GPT-4 API作為評估器對LLaMA-30-supercot模型進(jìn)行了實(shí)驗(yàn),其評估得分與人工評估得分相近,為邏輯推理任務(wù)的自動評估提供了信心。

結(jié)語

在這項(xiàng)研究中,研究團(tuán)隊提出了一個名為GLoRE的數(shù)據(jù)集,專門用于評估LLMs在處理多種邏輯推理任務(wù)上的表現(xiàn)。研究發(fā)現(xiàn)ChatGPT和GPT-4在大部分邏輯推理基準(zhǔn)測試上都顯著超越了傳統(tǒng)的微調(diào)方法。盡管商業(yè)模型在GLoRE測試中的表現(xiàn)相對較弱,但通過對相似數(shù)據(jù)進(jìn)行指令調(diào)整,模型的性能得到了顯著提高。此外,通過監(jiān)督微調(diào)、上下文學(xué)習(xí)和投票技術(shù),研究團(tuán)隊成功地實(shí)現(xiàn)了更為出色的結(jié)果。在對模型進(jìn)行量化和定性評估后,該團(tuán)隊指出,現(xiàn)有的LLMs在解決邏輯推理任務(wù)時,似乎更多地依賴于表面模式。因此,他們認(rèn)為,對底層推理機(jī)制進(jìn)行深入研究和增強(qiáng),將是一個有益的方向。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    288

    瀏覽量

    13350
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1561

    瀏覽量

    7671

原文標(biāo)題:GLoRE:大型語言模型的邏輯推理能力探究

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    人工智能進(jìn)步中提供了重要價值。 大語言模型邏輯推理、推斷和問題解決方面展現(xiàn)出了卓越的能力。隨著模型規(guī)模的擴(kuò)大,其
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】大語言模型的評測

    在知識獲取、邏輯推理、代碼生成等方面的能力。這些評測基準(zhǔn)包括語言建模能力、綜合知識能力、數(shù)學(xué)計算能力
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    ,它通過抽象思考和邏輯推理,協(xié)助我們應(yīng)對復(fù)雜的決策。 相應(yīng)地,我們設(shè)計了兩類任務(wù)來檢驗(yàn)大語言模型能力。一類是感性的、無需理性能力的任務(wù)
    發(fā)表于 05-07 17:21

    基于邏輯推理的網(wǎng)絡(luò)攻擊想定生成系統(tǒng)

    本文研究并實(shí)現(xiàn)基于邏輯推理的網(wǎng)絡(luò)攻擊想定自動生成系統(tǒng),用于網(wǎng)絡(luò)安全模擬演練。采用Datalog描述與安全相關(guān)的網(wǎng)絡(luò)配置信息和攻擊規(guī)則,使用XSB推理引擎構(gòu)造實(shí)現(xiàn)攻擊目的的攻
    發(fā)表于 08-11 08:27 ?20次下載

    深入理解語言模型的突顯能力

    最近,人們對大型語言模型所展示的強(qiáng)大能力(例如思維鏈 ^[2]^ 、便簽本 ^[3]^ )產(chǎn)生了極大的興趣,并開展了許多工作。我們將之統(tǒng)稱為大模型
    的頭像 發(fā)表于 02-22 11:16 ?860次閱讀
    深入理解<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的突顯<b class='flag-5'>能力</b>

    大型語言模型有哪些用途?大型語言模型如何運(yùn)作呢?

    大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。
    的頭像 發(fā)表于 03-08 13:57 ?8042次閱讀

    利用大語言模型做多模態(tài)任務(wù)

    大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。
    的頭像 發(fā)表于 05-10 16:53 ?1049次閱讀
    利用大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做多模態(tài)任務(wù)

    基于Transformer的大型語言模型(LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語言
    的頭像 發(fā)表于 06-25 15:08 ?1481次閱讀
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)的內(nèi)部機(jī)制

    騰訊發(fā)布混元大語言模型

    能力和復(fù)雜語境下的邏輯推理能力;而且在時效性上比較強(qiáng)。 目前混元大語言模型已經(jīng)在小程序、騰訊云、騰訊廣告、騰訊游戲等開啟內(nèi)測。
    的頭像 發(fā)表于 09-07 10:23 ?1164次閱讀

    騰訊對外開放混元大模型

    混元大模型是騰訊全鏈路自研的通用大語言模型,具備強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力以及
    的頭像 發(fā)表于 09-18 15:12 ?1110次閱讀
    騰訊對外開放混元大<b class='flag-5'>模型</b>

    基于歸結(jié)反演的大語言模型邏輯推斷系統(tǒng)

    邏輯符號領(lǐng)域的邏輯推理方法的啟發(fā),我們引入了一個在一階邏輯下完備的邏輯推理范式歸結(jié)反演(其推理過程不會受到條件1的約束)來提高完備性,并提
    發(fā)表于 04-28 18:00 ?385次閱讀
    基于歸結(jié)反演的大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>邏輯</b>推斷系統(tǒng)

    如何加速大語言模型推理

    的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速大語言模型推理過程,以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?534次閱讀

    基于CPU的大型語言模型推理實(shí)驗(yàn)

    隨著計算和數(shù)據(jù)處理變得越來越分散和復(fù)雜,AI 的重點(diǎn)正在從初始訓(xùn)練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強(qiáng)大的公開可用的大型語言模型 (LLM)。本次測試采用開源
    的頭像 發(fā)表于 07-18 14:28 ?547次閱讀
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>實(shí)驗(yàn)

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應(yīng)用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?400次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?125次閱讀
    主站蜘蛛池模板: 妖精视频亚洲| 免费国内精品久久久久影院| 成年人网站黄色| 热九九精品| 男人j进入女人免费视频| 日韩精品毛片| 午夜视频高清在线aaa| 成人免费国产gav视频在线| 亚洲jjzzjjzz在线观看| 色婷婷电影| 操狠狠| 欧美性满足hd1819| 色视频一区| 天天射天天爱天天干| 狠狠操夜夜爽| 一区二区三区四区免费视频| 色综合久久中文综合网| 免费日韩毛片| 日韩黄色网| 一区二区不卡视频在线观看| 操日韩| 伊人www| 国产精品综合色区在线观看| 国产精品超清大白屁股| 狠狠干b| 性欧美xxxx视频在线观看| 国产高清在线看| 欧美黑人巨大xxxx猛交| 日韩视频高清| 色片在线| 亚洲午夜久久久精品影院视色| 国产一级特黄的片子| 日日日天天射天天干视频| 成 人 在 线 免费 8888 www| 狠狠狠| 人人天天夜夜| 亚洲综合色丁香婷婷六月图片| 国产精品 视频一区 二区三区| 黄色在线观看国产| 天堂资源在线www中文| 国产一区二区三区四卡|