有声小说下载,豆豆小说阅读网,长生界辰东小说

2021年12月 WebGPT 的橫空出世標志了基于網頁搜索的問答新范式的誕生，在此之后，New Bing 首先將網頁搜索功能整合發布，隨后 OpenAI 也發布了支持聯網的插件 ChatGPT Plugins。大模型在聯網功能的加持下，回答問題的實時性和準確性都得到了飛躍式增強。

近期，面壁智能聯合來自清華、人大、騰訊的研究人員共同發布了中文領域首個基于交互式網頁搜索的問答開源模型框架 WebCPM，相關工作錄用于自然語言處理頂級會議 ACL 2023。

WebCPM 是面壁智能自研大模型工具學習引擎 BMTools的首個成功實踐，其特點在于其信息檢索基于交互式網頁搜索，能夠像人類一樣與搜索引擎交互從而收集回答問題所需要的事實性知識并生成答案。WebCPM 背后的基礎模型 CPM 是由面壁智能與 OpenBMB 開源社區開發的百億參數中文語言模型，占據多個中文領域語言模型排行榜前列。

WebCPM 論文鏈接：https://arxiv.org/abs/2305.06849

WebCPM 數據與代碼鏈接：

https://github.com/thunlp/WebCPM

WebCPM研究背景

在當今信息化時代，人們在日常生活和工作中，需要不斷地獲取各種知識和信息，而這些信息往往分散在互聯網上的海量數據中。如何快速、準確地獲取這些信息，并且對這些信息進行合理的整合，從而回答復雜、開放式問題，是一個極具挑戰性的問題。長文本開放問答（Long-form Question Answering, LFQA）模型就是為了回答這種復雜的問題而設計的。

目前的 LFQA 解決方案通常采用檢索-綜合范式，包括信息檢索和信息綜合兩個核心環節。信息檢索環節從外部知識源（如搜索引擎）中搜索多樣化的相關支持事實，信息綜合環節則將搜集到的事實整合成一個連貫的答案。

然而，傳統的 LFQA 范式存在一個缺陷：它通常依賴于非交互式的檢索方法，即僅使用原始問題作為查詢語句來檢索信息。相反，人類能夠通過與搜索引擎實時交互來進行網頁搜索而篩選高質量信息。

對于復雜問題，人類往往將其分解成多個子問題并依次提問。通過識別和瀏覽相關信息，人類逐漸完善對原問題的理解，并不斷查詢新問題來搜索更多樣的信息。這種迭代的搜索過程有助于擴大搜索范圍，提高搜索結果質量。總體而言，交互式網頁搜索不僅為我們提供了獲取多樣化信息來源的途徑，同時也反映了人類解決問題的認知過程，從而提高了可解釋性。

2021年12月 OpenAI 發布 WebGPT，這是支持 LFQA 的交互式網頁搜索的一項先驅性工作。作者首先構建了一個由微軟必應搜索（Bing）支持的網頁搜索界面，然后招募標注員使用該界面收集信息來回答問題。之后，他們微調 GPT-3 模型，讓其模仿人類的搜索行為，并將收集到的信息整理成答案。實驗結果顯示，WebGPT 在 LFQA 任務具備出色的能力，甚至超過了人類專家。而 WebGPT 也正是微軟近期推出的 New Bing 背后的新一代搜索技術。

盡管效果十分驚人，但 WebGPT 、New Bing 對學術圈和工業界來說仍然充滿神秘感。這是因為 WebGPT 的相關細節并未完全公開，其核心設計元素的工作原理也不透明。鑒于當前交互式網頁搜索的重要價值，我們迫切需要一個標準數據集與相關的開源模型以支持后續研究。

WebCPM搜索交互界面和數據集

▲ WebCPM搜索交互界面

為推動相關領域發展，這篇 ACL 論文的研究團隊首先構建了一個開源的交互式網頁搜索界面，用于記錄人類為開放式問題收集相關信息時的網頁搜索行為。該界面底層調用必應搜索 API 支持網頁搜索功能，囊括 10種主流網頁搜索操作（如點擊頁面、返回等等）。

在這個界面中，用戶可以執行預定義的操作來進行多輪搜索和瀏覽。在找到網頁上的相關信息時，他們可以將其作為支持事實記錄下來。當收集到足夠的信息后，用戶可以完成網頁搜索，并根據收集到的事實來回答問題。同時，界面會自動記錄用戶的網頁瀏覽行為，用于構建 WebCPM 數據集。

▲ WebCPM數據集與相關問答數據集的比較

基于這個界面，作者構建了中文領域首個基于交互式網頁搜索的 LFQA 數據集。它包含 5,500對高質量的問題-答案對以及十萬多條真實用戶網頁搜索行為。與現有的中文問答數據集相比，WebCPM 的問題、支持事實和答案都更長，體現了其問題的復雜性和答案內容的豐富性。

WebCPM模型框架

作者提出了的 WebCPM 框架包括：（1）搜索模型與（2）答案綜合模型。

▲ WebCPM模型框架

搜索模型：

該模型模仿人類網頁搜索行為、與搜索引擎交互并進行信息檢索。作者將網頁搜索任務劃分為 3 個子任務：搜索行為預測（action prediction）、查詢語句生成（search query generation）和支持事實摘要（supporting fact extraction）。搜索行為預測模塊在每一步決定執行哪個具體的搜索行為。該模塊可以調用其它兩個模塊來生成下一步查詢語句或摘錄重要信息。每個子任務都基于生成式中文大模型來訓練。

通過組合 3 個訓練得到的模塊，該模型能夠在搜索引擎界面上執行一系列操作以收集與問題相關的信息。每個模塊在當前界面狀態的條件下執行推理。包括原始問題、當前搜索的查詢語句、歷史操作序列，上一個窗口和當前窗口中顯示的內容和、當前已經摘錄的支持事實。

答案綜合模型

該模型根據原問題與收集到的事實生成連貫的答案。然而與人類不同，經過訓練的搜索模型偶爾會收集到不相關的噪聲，這將影響生成答案的質量。為了解決這一問題，作者在答案綜合模型的訓練數據中引入噪聲，使其具備一定的去噪的能力，從而忽略不相關的事實，只關注重要的事實以生成答案。

WebCPM實驗評測

作者首先對每個子模塊分別評估，然后，將所有模塊組合起來形成整體的 pipeline，并測試其效果。最后，作者對每個模塊的性能進行深入分析。

單個子任務的性能評估結果，作者測試了包括 CPM 模型在內的多個有代表性的中文大模型。

3.1 單個子任務評估

作者測試了多個有代表性的中文大模型，并得出以下結論（結果如上圖所示）：不同模型在四個子任務上的性能各有優劣。例如在搜索行為預測、查詢語句生成和支持事實摘要中，mT0 的表現優于 mT5，但在綜合信息方面表現較差。此外，CPM 系列模型的性能隨著模型參數量的增加也不斷提高。得益于 scaling law ，更大的模型通常擁有更強的理解和生成能力，能表現出更好的下游任務性能。

3.2 整體pipeline評測

對于每個測試問題，作者比較了模型（CPM 10B 模型）和人類用戶使用搜索引擎回答問題和做相同任務的表現，并進行人工評測。具體而言，給定一個問題和模型與人類分別給出的答案，標注員將根據多個因素（包括答案整體實用性、連貫性和與問題的相關性）決定哪個答案更好。

從下圖（a）的結果可以得出以下結論：模型生成的答案在30%+的情況下與人寫的答案相當或更優。這個結果表明整個問答系統的性能在未來仍有巨大的提升空間（例如訓練性能更加強大的基底模型）；當將人工收集的事實應用于信息綜合模型時，性能提高到了45%，這可以歸因于收集的事實質量的提高。

▲ 整體pipeline評測效果，作者測試了WebCPM數據集和DuReader數據集

此外，作者也將整體 pipeline 應用于 DuReader 中文 QA 數據集（包含 Zhidao 和 Search 兩個子數據集），并比較了模型生成的答案和人工標注的答案，從上圖（b）可以觀察到模型生成的答案比 DuReader 標注答案更好的情況接近50%，這反映了該模型強大的泛化能力，體現了WebCPM 數據標注的高質量。

WebCPM案例分析

為了探究查詢模塊所學習到的人類行為，作者抽樣不同測試問題生成的查詢語句來進行案例分析。下圖展示了部分結果，以研究查詢模塊的性能。可以看出，該模塊已經學會了復制原始問題，將問題分解為多個子問題，用相關術語改寫問題等多種人類搜索策略。這些策略使查詢語句更加多樣化，有助于從更多的來源收集更豐富的信息。

WebCPM成功實踐BMTools

近年來，大模型在諸多領域展現出驚人的應用價值，持續刷新各類下游任務的效果上限。盡管大模型在很多方面取得了顯著的成果，但在特定領域的任務上，仍然存在一定的局限性。這些任務往往需要專業化的工具或領域知識才能有效解決。因此，大模型需要具備調用各種專業化工具的能力，這樣才能為現實世界任務提供更為全面的支持。

最近，新的范式大模型工具學習（Tool Learning）應運而生。這一范式的核心在于將專業工具與基礎模型的優勢相融合，以在問題解決方面達到更高的準確性、效率和自主性，工具學習極大地釋放了大模型的潛力。

在應用方面，ChatGPT Plugins 的出現補充了 ChatGPT 最后的短板，使其可以支持連網、解決數學計算，被稱為 OpenAI 的 “App Store” 時刻。然而直到現在，它僅支持部分 OpenAI Plus 用戶，大多數開發者仍然無法使用。為此，面壁智能前段時間也推出了工具學習引擎 BMTools，一個基于語言模型的開源可擴展工具學習平臺，它將是面壁智能在大模型體系布局中的又一重要模塊。

研發團隊將各種各樣的工具（例如文生圖模型、搜索引擎、股票查詢等）調用流程都統一到一個框架上，使整個工具調用流程標準化、自動化。開發者可以通過 BMTools，使用給定的模型（ChatGPT、GPT-4）調用多種多樣的工具接口，實現特定功能。此外，BMTools 工具包也已集成最近爆火的 Auto-GPT 與 BabyAGI。

BMTools 工具包：https://github.com/OpenBMB/BMTools

工具學習綜述鏈接：

https://arxiv.org/abs/2304.08354

工具學習論文列表：

https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功實踐，相信在不斷發展和完善大模型工具學習技術的過程中，面壁智能將讓大模型落地賦能更多產業。期待大模型在更多領域展現出令人驚喜的應用價值。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6598

瀏覽量
104063
模型

模型

+關注

關注
1

文章
3243

瀏覽量
48840
信息檢索

信息檢索

+關注

關注
0

文章
12

瀏覽量
7595

原文標題：清華ACL2023 | WebCPM：首個聯網支持中文問答開源模型

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

開源AI模型庫是干嘛的

開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練，能夠執行特定的任務。以下，是對

發表于 12-14 10:33 ?175次閱讀

阿里云開源推理大模型QwQ

推理能力，尤其在數學和編程方面表現突出。其整體推理水平已經可以與OpenAI的o1模型相媲美，這充分展示了QwQ的強大實力和潛力。 QwQ(Qwen with Questions)是通義千問Qwen大模型系列中的最新實驗性研究模型

發表于 11-29 11:30 ?557次閱讀

科技云報到：假開源真噱頭？開源大模型和你想的不一樣！

查看、修改、分發。開源自此深刻影響了互聯網行業的每一個角落。在大模型和GenAI崛起的當下，開源再次成為業界關注焦點，對于開源和閉源的爭論

發表于 11-03 10:46 ?232次閱讀

全球首個開源AI標準正式發布

近日，在備受矚目的2024年ALL THINGS OPEN大會上，開源組織Open Source Initiative（OSI）宣布了一項重大突破——正式發布了開源人工智能定義（OSAID）1.0版本。這一里程碑式的成就標志著全球首個

發表于 10-31 10:59 ?265次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。主要是基于深度學習和自然語言處理技術。大語言模型涉及以下幾個過程：數據收集：大語言模型通過從互

發表于 08-02 11:03

全球首個芯片設計開源大模型SemiKong正式發布

在科技日新月異的今天，全球首個芯片設計開源大模型SemiKong的正式發布，無疑為半導體行業投下了一枚震撼彈，預示著一場深刻的行業變革即將拉開序幕。這款由Aitomatic與FPT Software

發表于 07-14 10:01 ?863次閱讀

智源研究院揭曉大模型測評結果，豆包與百川智能大模型表現優異

在多模態理解圖文問答任務中，開源和閉源模型表現相當，而國產模型則表現出色。此外，在中文語境下的文生圖能力方面，國產多模態

發表于 05-20 09:26 ?740次閱讀

通義千問開源千億級參數模型

通義千問近日開源了其首個千億級參數模型Qwen1.5-110B，這是其全系列中首個達到千億級別的開源模型

發表于 05-08 11:01 ?755次閱讀

通義千問推出1100億參數開源模型

通義千問近日震撼發布1100億參數的開源模型Qwen1.5-110B，這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個千億級參數

發表于 05-06 10:49 ?587次閱讀

商湯科技與海通證券攜手發布金融行業首個多模態全棧式大模型

商湯科技與海通證券聯合研發并發布了金融行業內首個面向多業務場景的多模態全棧式大模型。雙方計劃將這一先進技術應用于智能問答、合規風控、代碼輔助以及辦公助手等關鍵業務領域，以實現大模型技術

發表于 05-06 10:16 ?466次閱讀

李彥宏：開源模型將逐漸滯后，文心大模型提升訓練與推理效率

李彥宏解釋道，百度自研的基礎模型——文心 4.0，能夠根據需求塑造出適應各類場景的微型版模型，并支持精細調整以及后預訓練。相較于直接使用開源模型

發表于 04-16 14:37 ?445次閱讀

艾倫人工智能研究所發布全球首個100%開源大模型

艾倫人工智能研究所近日宣布，與多所大學合作，成功開發出全球首個100%開源大模型OLMo，包括權重、代碼、數據集和訓練全過程。這一創新性項目旨在推動人工智能領域的開放研究，為全球研究者提供更便利的資源與平臺。

發表于 02-05 09:34 ?958次閱讀

字節發布機器人領域首個開源視覺-語言操作大模型，激發開源VLMs更大潛能

對此，ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-23 16:02 ?533次閱讀

幻方量化發布了國內首個開源MoE大模型—DeepSeekMoE

幻方量化旗下組織深度求索發布了國內首個開源 MoE 大模型 —— DeepSeekMoE，全新架構，免費商用。

發表于 01-23 11:28 ?1567次閱讀

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

發表于 01-19 11:43 ?422次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

WebCPM：首個聯網支持中文問答開源模型

評論

開源AI模型庫是干嘛的

阿里云開源推理大模型QwQ

科技云報到：假開源真噱頭？開源大模型和你想的不一樣！

全球首個開源AI標準正式發布

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

全球首個芯片設計開源大模型SemiKong正式發布

智源研究院揭曉大模型測評結果，豆包與百川智能大模型表現優異

通義千問開源千億級參數模型

通義千問推出1100億參數開源模型

商湯科技與海通證券攜手發布金融行業首個多模態全棧式大模型

李彥宏：開源模型將逐漸滯后，文心大模型提升訓練與推理效率

艾倫人工智能研究所發布全球首個100%開源大模型

字節發布機器人領域首個開源視覺-語言操作大模型，激發開源VLMs更大潛能

幻方量化發布了國內首個開源MoE大模型—DeepSeekMoE

機器人基于開源的多模態語言視覺大模型