1998 年,一些斯坦福大學的研究生發表了一篇論文,描述了一種新型的搜索引擎:“在本文中,我們將會介紹 Google 這種大型搜索引擎的原型。該原型大量使用了超文本形式的結構。Google 旨在有效地對萬維網數據進行檢索和編制索引,并生成比現有系統更令人滿意的搜索結果。”
該研究的關鍵創新是一種稱為 PageRank 的算法,該算法通過基于用戶在網絡上查詢內容與網絡上其他頁面鏈接的相關性來計算搜索結果,并且對搜索結果進行排序。在 PageRank 的支持下,Google 成為了通往互聯網的門戶,而謝爾蓋?布林和拉里?佩奇建立了世界上最大的公司之一。
現在,一組 Google 研究人員發布了一項提議,要求對引擎進行徹底的重新設計,從而排除現有排序的方法,并用單一的大型 AI 語言模型(例如 BERT 或 GPT-3,以及它們的未來版本)來代替。
這樣一來,用戶將不再用在龐大的網頁列表中搜索信息,而是通過對這些頁面上經過訓練的語言模型提出問題來直接尋找答案。
這種方法不但可以改變搜索引擎的工作方式,而且可以改變它們可以做的事情,以及我們如何與之互動的方式。
即使網絡的規模激增,搜索引擎也在變得越來越快,且越來越準確。現在我們使用 AI 來對結果進行排序,而 Google 可以通過 BERT 來更好地理解用戶搜索的內容。
然而,在這些調整之下,所有主流搜索引擎的工作方式仍與 20 年前相同:爬蟲將網頁編入索引(可不間斷地讀取網絡并維護找到的所有內容的列表的軟件),在與用戶查詢相匹配的結果索引中收集數據,然后對結果進行排序。
唐納德?麥茨勒(Donald Metzler)和他在 Google 研究部的同事寫道:“這種索引檢索然后排序的藍圖經受得住時間的考驗,但也很少受到挑戰或被認真地重新考慮一下。”
問題就在于,即使是當今最好的搜索引擎,它仍然會以包含所需信息的文檔列表來進行響應,而不是包含信息本身。
搜索引擎也并不擅長回答需要從多個來源獲得答案的查詢任務,就像你看病時,醫生給你一篇需要閱讀的文章列表,而不是直接給你答案一樣。
麥茨勒和他的同事對能像真人專家那樣工作的搜索引擎十分感興趣,它應當以自然語言生成答案,并由多個文檔合成,而且像維基百科的文章一樣,以支持證據的形式備份其答案。
大型語言模型為這樣的想法奠定了一些基礎,GPT-3 在大多數網絡和數百本書上都接受過培訓,它可以從多種來源中獲取信息,以自然語言回答問題。
現在的問題在于它無法跟蹤這些來源,也無法提供證據來支持這些答案。我們無法判斷 GPT-3 是在模仿可信賴的信息還是虛假信息,或者只是散播自己的廢話。
麥茨勒和他的同事們稱語言模型為 Dilettantes——“人們以為它懂的很多,但實際上它的知識很膚淺。”
他們聲稱,解決方案是構建和培訓未來的 BERT 和 GPT-3,以保留其單詞來源的記錄。目前尚無此類模型能夠做到這一點,但原則上是可行的,并且朝著這個方向的早期工作也已被提上日程。
來自英國謝菲爾德大學研究網絡信息檢索的張子琦說,在不同的搜索領域,從響應用戶查詢、到總結文檔、再到結構化信息,已經有了數十年的發展。
但是,這些技術都沒有徹底改革過搜索,因為它們每個都只是解決特定的問題而無法被通用化。他說,這篇論文中提到的令人興奮的事情就是一些大型語言模型能夠同時完成所有這些操作。
然而,張也指出,語言模型在技術性或專業學科上表現不佳,因為訓練這些語言的文本中很少有這類范例。
他說:“網絡上關于電子商務的數據可能比有關量子力學的數據多數百倍。” 而且當今的語言模型也偏向英語,這會使網絡上的非英語部分無法得到充分服務。
但張還是很喜歡這個主意,他說:“要是在過去,這么做是不可能的,因為大型語言模型只是最近才興起的。如果成功了,它將改變我們的搜索體驗。”
原文標題:GPT-3或宣告新型搜索引擎的誕生:通過語言模型提問即可找到答案
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
AI
+關注
關注
87文章
30894瀏覽量
269085 -
語言
+關注
關注
1文章
97瀏覽量
24242 -
GPT
+關注
關注
0文章
354瀏覽量
15373
原文標題:GPT-3或宣告新型搜索引擎的誕生:通過語言模型提問即可找到答案
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論