2021年12月 WebGPT 的橫空出世標志了基于網頁搜索的問答新范式的誕生,在此之后,New Bing 首先將網頁搜索功能整合發布,隨后 OpenAI 也發布了支持聯網的插件 ChatGPT Plugins。大模型在聯網功能的加持下,回答問題的實時性和準確性都得到了飛躍式增強。
近期,面壁智能聯合來自清華、人大、騰訊的研究人員共同發布了中文領域首個基于交互式網頁搜索的問答開源模型框架 WebCPM,相關工作錄用于自然語言處理頂級會議 ACL 2023。
WebCPM 是面壁智能自研大模型工具學習引擎 BMTools的首個成功實踐,其特點在于其信息檢索基于交互式網頁搜索,能夠像人類一樣與搜索引擎交互從而收集回答問題所需要的事實性知識并生成答案。WebCPM 背后的基礎模型 CPM 是由面壁智能與 OpenBMB 開源社區開發的百億參數中文語言模型,占據多個中文領域語言模型排行榜前列。
WebCPM 論文鏈接:https://arxiv.org/abs/2305.06849
WebCPM 數據與代碼鏈接:
https://github.com/thunlp/WebCPM
WebCPM研究背景
在當今信息化時代,人們在日常生活和工作中,需要不斷地獲取各種知識和信息,而這些信息往往分散在互聯網上的海量數據中。如何快速、準確地獲取這些信息,并且對這些信息進行合理的整合,從而回答復雜、開放式問題,是一個極具挑戰性的問題。長文本開放問答(Long-form Question Answering, LFQA)模型就是為了回答這種復雜的問題而設計的。
目前的 LFQA 解決方案通常采用檢索-綜合范式,包括信息檢索和信息綜合兩個核心環節。信息檢索環節從外部知識源(如搜索引擎)中搜索多樣化的相關支持事實,信息綜合環節則將搜集到的事實整合成一個連貫的答案。
然而,傳統的 LFQA 范式存在一個缺陷:它通常依賴于非交互式的檢索方法,即僅使用原始問題作為查詢語句來檢索信息。相反,人類能夠通過與搜索引擎實時交互來進行網頁搜索而篩選高質量信息。
對于復雜問題,人類往往將其分解成多個子問題并依次提問。通過識別和瀏覽相關信息,人類逐漸完善對原問題的理解,并不斷查詢新問題來搜索更多樣的信息。這種迭代的搜索過程有助于擴大搜索范圍,提高搜索結果質量。總體而言,交互式網頁搜索不僅為我們提供了獲取多樣化信息來源的途徑,同時也反映了人類解決問題的認知過程,從而提高了可解釋性。
2021年12月 OpenAI 發布 WebGPT,這是支持 LFQA 的交互式網頁搜索的一項先驅性工作。作者首先構建了一個由微軟必應搜索(Bing)支持的網頁搜索界面,然后招募標注員使用該界面收集信息來回答問題。之后,他們微調 GPT-3 模型,讓其模仿人類的搜索行為,并將收集到的信息整理成答案。實驗結果顯示,WebGPT 在 LFQA 任務具備出色的能力,甚至超過了人類專家。而 WebGPT 也正是微軟近期推出的 New Bing 背后的新一代搜索技術。
盡管效果十分驚人,但 WebGPT 、New Bing 對學術圈和工業界來說仍然充滿神秘感。這是因為 WebGPT 的相關細節并未完全公開,其核心設計元素的工作原理也不透明。鑒于當前交互式網頁搜索的重要價值,我們迫切需要一個標準數據集與相關的開源模型以支持后續研究。
WebCPM搜索交互界面和數據集
▲ WebCPM搜索交互界面
為推動相關領域發展,這篇 ACL 論文的研究團隊首先構建了一個開源的交互式網頁搜索界面,用于記錄人類為開放式問題收集相關信息時的網頁搜索行為。該界面底層調用必應搜索 API 支持網頁搜索功能,囊括 10種主流網頁搜索操作(如點擊頁面、返回等等)。
在這個界面中,用戶可以執行預定義的操作來進行多輪搜索和瀏覽。在找到網頁上的相關信息時,他們可以將其作為支持事實記錄下來。當收集到足夠的信息后,用戶可以完成網頁搜索,并根據收集到的事實來回答問題。同時,界面會自動記錄用戶的網頁瀏覽行為,用于構建 WebCPM 數據集。
▲ WebCPM數據集與相關問答數據集的比較
基于這個界面,作者構建了中文領域首個基于交互式網頁搜索的 LFQA 數據集。它包含 5,500對高質量的問題-答案對以及十萬多條真實用戶網頁搜索行為。與現有的中文問答數據集相比,WebCPM 的問題、支持事實和答案都更長,體現了其問題的復雜性和答案內容的豐富性。
WebCPM模型框架
作者提出了的 WebCPM 框架包括:(1)搜索模型與(2)答案綜合模型。
▲ WebCPM模型框架
搜索模型:
該模型模仿人類網頁搜索行為、與搜索引擎交互并進行信息檢索。作者將網頁搜索任務劃分為 3 個子任務:搜索行為預測(action prediction)、查詢語句生成(search query generation)和支持事實摘要(supporting fact extraction)。搜索行為預測模塊在每一步決定執行哪個具體的搜索行為。該模塊可以調用其它兩個模塊來生成下一步查詢語句或摘錄重要信息。每個子任務都基于生成式中文大模型來訓練。
通過組合 3 個訓練得到的模塊,該模型能夠在搜索引擎界面上執行一系列操作以收集與問題相關的信息。每個模塊在當前界面狀態 的條件下執行推理。 包括原始問題 、當前搜索的查詢語句 、歷史操作序列,上一個窗口和當前窗口中顯示的內容 和 、當前已經摘錄的支持事實。
答案綜合模型
該模型根據原問題與收集到的事實生成連貫的答案。然而與人類不同,經過訓練的搜索模型偶爾會收集到不相關的噪聲,這將影響生成答案的質量。為了解決這一問題,作者在答案綜合模型的訓練數據中引入噪聲,使其具備一定的去噪的能力,從而忽略不相關的事實,只關注重要的事實以生成答案。
WebCPM實驗評測
作者首先對每個子模塊分別評估,然后,將所有模塊組合起來形成整體的 pipeline,并測試其效果。最后,作者對每個模塊的性能進行深入分析。
單個子任務的性能評估結果,作者測試了包括 CPM 模型在內的多個有代表性的中文大模型。
3.1 單個子任務評估
作者測試了多個有代表性的中文大模型,并得出以下結論(結果如上圖所示):不同模型在四個子任務上的性能各有優劣。例如在搜索行為預測、查詢語句生成和支持事實摘要中,mT0 的表現優于 mT5,但在綜合信息方面表現較差。此外,CPM 系列模型的性能隨著模型參數量的增加也不斷提高。得益于 scaling law ,更大的模型通常擁有更強的理解和生成能力,能表現出更好的下游任務性能。
3.2 整體pipeline評測
對于每個測試問題,作者比較了模型(CPM 10B 模型)和人類用戶使用搜索引擎回答問題和做相同任務的表現,并進行人工評測。具體而言,給定一個問題和模型與人類分別給出的答案,標注員將根據多個因素(包括答案整體實用性、連貫性和與問題的相關性)決定哪個答案更好。
從下圖(a)的結果可以得出以下結論:模型生成的答案在30%+的情況下與人寫的答案相當或更優。這個結果表明整個問答系統的性能在未來仍有巨大的提升空間(例如訓練性能更加強大的基底模型);當將人工收集的事實應用于信息綜合模型時,性能提高到了45%,這可以歸因于收集的事實質量的提高。
▲ 整體pipeline評測效果,作者測試了WebCPM數據集和DuReader數據集
此外,作者也將整體 pipeline 應用于 DuReader 中文 QA 數據集(包含 Zhidao 和 Search 兩個子數據集),并比較了模型生成的答案和人工標注的答案,從上圖(b)可以觀察到模型生成的答案比 DuReader 標注答案更好的情況接近50%,這反映了該模型強大的泛化能力,體現了WebCPM 數據標注的高質量。
WebCPM案例分析
為了探究查詢模塊所學習到的人類行為,作者抽樣不同測試問題生成的查詢語句來進行案例分析。下圖展示了部分結果,以研究查詢模塊的性能。可以看出,該模塊已經學會了復制原始問題,將問題分解為多個子問題,用相關術語改寫問題等多種人類搜索策略。這些策略使查詢語句更加多樣化,有助于從更多的來源收集更豐富的信息。
WebCPM成功實踐BMTools
近年來,大模型在諸多領域展現出驚人的應用價值,持續刷新各類下游任務的效果上限。盡管大模型在很多方面取得了顯著的成果,但在特定領域的任務上,仍然存在一定的局限性。這些任務往往需要專業化的工具或領域知識才能有效解決。因此,大模型需要具備調用各種專業化工具的能力,這樣才能為現實世界任務提供更為全面的支持。
最近,新的范式大模型工具學習(Tool Learning)應運而生。這一范式的核心在于將專業工具與基礎模型的優勢相融合,以在問題解決方面達到更高的準確性、效率和自主性,工具學習極大地釋放了大模型的潛力。
在應用方面,ChatGPT Plugins 的出現補充了 ChatGPT 最后的短板,使其可以支持連網、解決數學計算,被稱為 OpenAI 的 “App Store” 時刻。然而直到現在,它僅支持部分 OpenAI Plus 用戶,大多數開發者仍然無法使用。為此,面壁智能前段時間也推出了工具學習引擎 BMTools,一個基于語言模型的開源可擴展工具學習平臺,它將是面壁智能在大模型體系布局中的又一重要模塊。
研發團隊將各種各樣的工具(例如文生圖模型、搜索引擎、股票查詢等)調用流程都統一到一個框架上,使整個工具調用流程標準化、自動化。開發者可以通過 BMTools,使用給定的模型(ChatGPT、GPT-4)調用多種多樣的工具接口,實現特定功能。此外,BMTools 工具包也已集成最近爆火的 Auto-GPT 與 BabyAGI。
BMTools 工具包:https://github.com/OpenBMB/BMTools
工具學習綜述鏈接:
https://arxiv.org/abs/2304.08354
工具學習論文列表:
https://github.com/thunlp/ToolLearningPapers
WebCPM 是 BMTools 的一次成功實踐,相信在不斷發展和完善大模型工具學習技術的過程中,面壁智能將讓大模型落地賦能更多產業。期待大模型在更多領域展現出令人驚喜的應用價值。
審核編輯 :李倩
-
微軟
+關注
關注
4文章
6598瀏覽量
104063 -
模型
+關注
關注
1文章
3243瀏覽量
48840 -
信息檢索
+關注
關注
0文章
12瀏覽量
7595
原文標題:清華ACL2023 | WebCPM:首個聯網支持中文問答開源模型
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論