我吃西红柿,小说阅读网,斗破苍穹续集

在回答復雜的問題時，人類可以理解不同模態的信息，并形成一個完整的思維鏈（Chain of Thought, CoT）。深度學習模型是否可以打開「黑箱」，對其推理過程提供一個思維鏈呢？近日，UCLA 和艾倫人工智能研究院（AI2）提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA，用于測試模型的多模態推理能力。在 ScienceQA 任務中，作者提出 GPT-3 (CoT) 模型，即在 GPT-3 模型中引入基于思維鏈的提示學習，從而使得模型能在生成答案的同時，生成相應的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實現了 75.17% 的準確率；并且人類評估表明，其可以生成較高質量的解釋。

像人類一樣有效地學習并完成復雜的任務是人工智能追求的長遠目標之一。人類在決策過程中可以遵循一個完整的思維鏈（CoT）推理過程，從而對給出的答案做出合理的解釋。

然而，已有的機器學習模型大多依賴大量的輸入 - 輸出樣本訓練來完成具體的任務。這些黑箱模型往往直接生成最終的答案，而沒有揭示具體的推理過程。

科學問答任務（Science Question Answering）可以很好地診斷人工智能模型是否具有多步推理能力和可解釋性。為了回答科學問題，一個模型不僅需要理解多模態內容，還需要提取外部知識以得出正確答案。同時，一個可靠的模型還應該給出揭示其推理過程的解釋。然而，目前的科學問答數據集大多缺乏對答案的詳細解釋，或者局限于文字模態。

因此，作者收集了全新的科學問答數據集 ScienceQA，它包含了 21,208 道來自中小學科學課程的問答多選題。一道典型的問題包含多模態的背景（context）、正確的選項、通用的背景知識（lecture）以及具體的解釋（explanation）。

ScienceQA 數據集的一個例子。

要回答上圖所示的例子，我們首先要回憶關于力的定義：「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」，然后形成一個多步的推理過程：「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」，最終得到正確答案：「This force is a pull. 」。

在 ScienceQA 任務中，模型需要在預測答案的同時輸出詳細地解釋。在本文中，作者利用大規模語言模型生成背景知識和解釋，作為一種思維鏈（CoT）來模仿人類具有的多步推理能力。

實驗表明，目前的多模態問答方法在 ScienceQA 任務不能取得很好的表現。相反，通過基于思維鏈的提示學習，GPT-3 模型能在 ScienceQA 數據集上取得 75.17% 的準確率，同時可以生成質量較高的解釋：根據人類評估，其中 65.2% 的解釋相關、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 數據集上取得 3.99% 的提升。

1、ScienceQA 數據集

數據集統計

ScienceQA 的主要統計信息如下所示。

ScienceQA 數據集的主要信息

ScienceQA 包含21208個例子，其中有9122個不同的問題（question）。10332 道（48.7%）有視覺背景信息，10220 道（48.2%）有文本背景信息，6532 道（30.8%）有視覺 + 文本的背景信息。絕大部分問題標注有詳細的解釋：83.9% 的問題有背景知識標注（lecture），而 90.5% 的問題有詳細的解答（explanation）。

ScienceQA 數據集中問題和背景分布。

數據集主題分布

不同于已有的數據集，ScienceQA 涵蓋自然科學、社會科學和語言學三大學科分支，包含 26 個主題（topic）、127 個分類（category）和 379 個知識技能（skill）。

ScienceQA 的主題分布。

數據集詞云分布

如下圖的詞云分布所示，ScienceQA 中的問題具有豐富的語義多樣性。模型需要理解不同的問題表達、場景和背景知識。

ScienceQA 的詞云分布。

數據集比較

ScienceQA 是第一個標注詳細解釋的多模態科學問答數據集。相比于已有的數據集，ScienceQA 的數據規模、題型多樣性、主題多樣性等多個維度體現了優勢。

ScienceQA 數據集與其它科學問答數據集的比較。

2、模型和方法

Baselines

作者在 ScienceQA 數據集了評估不同的基準方法，包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT，大規模語言模型如 UnifiedQA 和 GPT-3，以及 random chance 和 human performance。對于語言模型 UnifiedQA 和 GPT-3，背景圖片會被轉換成文本形式的注釋（caption）。

GPT-3 (CoT)

最近的研究工作表明，在給定合適的提示后，GPT-3 模型可以在不同的下游任務表現出卓越的性能。為此，作者提出 GPT-3 (CoT) 模型，在提示中加入思維鏈（CoT），使得模型在生成答案的同時，可以生成對應的背景知識和解釋。

具體的提示模板如下圖所示。其中 Ii 表示訓練例子，It 表示測試例子。訓練例子包含問題（Question）、選項（Options）、背景（Context）和答案（Answer）元素，其中答案由正確答案、背景知識（Lecture）和解釋（Explanation）組成。GPT-3 (CoT) 會根據輸入的提示信息，補全測試例子的預測答案、背景知識和解釋。

GPT-3 (CoT) 采用的提示模板。

3、實驗與分析

實驗結果

不同的基準和方法在 ScienceQA 測試集上的準確率結果如下表所示。當前最好的 VQA 模型之一的 VisualBERT 只能達到 61.87% 的準確率。在訓練的過程引入 CoT 數據，UnifiedQA_BASE 模型可以實現 74.11% 的準確率。而 GPT-3 (CoT) 在 2 個訓練例子的提示下，實現了 75.17% 的準確率，高于其它基準模型。人類在 ScienceQA 數據集上表現優異，可以達到 88.40% 的總體準確率，并且在不同類別的問題上表現穩定。

不同的方法在 ScienceQA 測試集上的結果。

生成解釋的評估

作者用自動評估指標如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 評估了不同方法生成的解釋。由于自動評估指標只能衡量預測結果和標注內容的相似性，因此作者進一步采用了人工評估的方法，來評估生成解釋的相關性、正確性和完整性。可以看到，GPT-3 (CoT) 生成的解釋中 65.2% 符合了 Gold 標準。

不同評估方法對生成解釋的結果。

不同的提示模板

作者比較了不同的提示模板對 GPT-3 (CoT) 準確率的影響。可以看到在 QAM-ALE 的模板下，GPT-3 (CoT) 可以獲得最大的平均準確率和最小的方差。另外，GPT-3 (CoT) 在 2 個訓練例子的提示下，表現最佳。

不同提示模板的結果比較。

模型上限

為了探索 GPT-3 (CoT) 模型的性能上限，作者把標注的背景知識和解釋加入模型的輸入（QCMLE*-A）。我們可以看到 GPT-3 (CoT) 可以實現高達 94.13% 的準確率。這也提示了模型提升的一個可能方向：模型可以進行分步推理，即先檢索到準確的背景知識和生成準確的解釋，然后把這些結果作為輸入。這個過程和人類解決復雜問題的過程很相似。

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者進一步討論了GPT-3 (CoT) 在生成預測時，不同的 ALE 位置對結果的影響。在 ScienceQA 上的實驗結果表明，如果 GPT-3 (CoT) 先生成背景知識 L 或解釋 E，再生成答案 A，其預測準確率會大幅下降。其主要原因是背景知識 L 和解釋 E 有較多的詞語數量，如果先生成 LE，GPT-3 模型有可能用完最大詞數，或者提前停止生成文本，從而不能得到最終的答案 A。

不同的 LE 位置。

成功案例

如下 4 個例子中，GPT-3 (CoT)不但能生成正確的答案，也能給出相關、正確且完整的解釋。這說明 GPT-3 (CoT) 在 ScienceQA 數據集上表現出較強的多步推理和解釋能力。

GPT-3 (CoT) 生成正確答案和解釋的例子。

失敗案例 I

在下面的三個例子中，GPT-3 (CoT)雖然生成了正確的答案，但是生成的解釋不相關、不正確或者不完整。這說明 GPT-3 (CoT) 對于生成邏輯一致的長序列還面臨較大的困難。

GPT-3 (CoT) 能生成正確答案、但是生成的解釋不正確的例子。

失敗案例 II

在下面的四個例子中，GPT-3 (CoT) 不能生成正確的答案，也不能生成正確的解釋。其中的原因有：（1）當前的 image captioning 模型還不能準確地描述示意圖、表格等圖片的語義信息，如果用圖片注釋文本表示圖片，GPT-3 (CoT) 還不能很好地回答包含圖表背景的問題；（2）GPT-3 (CoT) 生成長序列時，容易出現前后不一致（inconsistent）或不連貫（incoherent）的問題；（3）GPT-3 (CoT) 還不能很好地回答需要特定領域知識的問題。

GPT-3 (CoT) 能生成錯誤答案和解釋的例子。

4、結論與展望

作者提出了首個標注詳細解釋的多模態科學問答數據集 ScienceQA。ScienceQA 包含 21208 道來自中小學科學學科的多選題，涵蓋三大科學領域和豐富的話題，大部分問題標注有詳細的背景知識和解釋。ScienceQA 可以評估模型在多模態理解、多步推理和可解釋性方面的能力。作者在 ScienceQA 數據集上評估了不同的基準模型，并提出 GPT-3 (CoT) 模型在生成答案的同時，可以生成相應的背景知識和解釋。大量的實驗分析和案例分析對模型的改進提出了有利的啟發。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24759
深度學習

深度學習

+關注

關注
73

文章
5511

瀏覽量
121355

原文標題：NeurIPS 2022 | 首個標注詳細解釋的多模態科學問答數據集，深度學習模型推理有了思維鏈

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

智譜推出深度推理模型GLM-Zero預覽版

近日，智譜公司正式發布了其深度推理模型GLM-Zero的預覽版——GLM-Zero-Preview。這款模型標志著智譜在擴展強化學習技術訓練

發表于 01-03 10:42 ?147次閱讀

智譜GLM-Zero深度推理模型預覽版正式上線

近日，智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴展強化學習技術訓練的

發表于 01-02 10:55 ?146次閱讀

阿里云開源推理大模型QwQ

近日，阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview，并同步實現了開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。據評測

發表于 11-29 11:30 ?599次閱讀

AI大模型與深度學習的關系

人類的學習過程，實現對復雜數據的學習和識別。AI大模型則是指模型的參數數量巨大，需要龐大的計算資源來進行訓練和

發表于 10-23 15:25 ?1048次閱讀

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

人工智能在科學研究中的核心技術，包括機器學習、深度學習、神經網絡等。這些技術構成了AI for Science的基石，使得AI能夠處理和分析復雜的數

發表于 10-14 09:16

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

人工智能：科學研究的加速器第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習、深度學

發表于 10-14 09:12

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。主要是基于深度學習和自然語言處理技術。大語言

發表于 08-02 11:03

NVIDIA推出全新深度學習框架fVDB

在 SIGGRAPH 上推出的全新深度學習框架可用于打造自動駕駛汽車、氣候科學和智慧城市的 AI 就緒型虛擬表示。

發表于 08-01 14:31 ?644次閱讀

深度學習模型量化方法

深度學習模型量化是一種重要的模型輕量化技術，旨在通過減少網絡參數的比特寬度來減小模型大小和加速推理

發表于 07-15 11:01 ?521次閱讀

深度學習中的模型權重

在深度學習這一充滿無限可能性的領域中，模型權重（Weights）作為其核心組成部分，扮演著至關重要的角色。它們不僅是模型學習的基石，更是

發表于 07-04 11:49 ?1629次閱讀

深度學習模型訓練過程詳解

深度學習模型訓練是一個復雜且關鍵的過程，它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習

發表于 07-01 16:13 ?1411次閱讀

深度學習的模型優化與調試方法

深度學習模型在訓練過程中，往往會遇到各種問題和挑戰，如過擬合、欠擬合、梯度消失或爆炸等。因此，對深度學習

發表于 07-01 11:41 ?915次閱讀

深度學習編譯工具鏈中的核心——圖優化

等，需要調整優化網絡中使用的算子或算子組合，這就是深度學習編譯工具鏈中的核心——圖優化。圖優化是指對深度學習

發表于 05-16 14:24 ?1019次閱讀

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領域的尖端技術，憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習，利用神經網絡框架來理解和生成自然語言文本。這些模型通過訓練海量的文本

發表于 05-04 23:55

【技術科普】主流的深度學習模型有哪些？AI開發工程師必備！

接近于人工智能。它通過學習樣本數據的內在規律和表示層次，對文字、圖像和聲音等數據進行解釋。深度學習的目標是

發表于 01-30 15:26 ?660次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

全新科學問答數據集ScienceQA讓深度學習模型推理有了思維鏈

評論

智譜推出深度推理模型GLM-Zero預覽版

智譜GLM-Zero深度推理模型預覽版正式上線

阿里云開源推理大模型QwQ

AI大模型與深度學習的關系

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

NVIDIA推出全新深度學習框架fVDB

深度學習模型量化方法

深度學習中的模型權重

深度學習模型訓練過程詳解

深度學習的模型優化與調試方法

深度學習編譯工具鏈中的核心——圖優化

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【技術科普】主流的深度學習模型有哪些？AI開發工程師必備！