在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

檢索增強型語言表征模型預訓練

Tensorflowers ? 來源:TensorFlow ? 2020-09-27 14:50 ? 次閱讀

自然語言處理的最新進展以 無監督預訓練 為基礎,使用大量文本訓練通用語言表征模型 (Language Representation Models),無需人工標注或標簽。這些預訓練模型,如 BERT和 RoBERTa,經證明可以記憶大量世界知識,例如“the birthplace of Francesco Bartolomeo Conti”、“the developer of JDK”和“the owner of Border TV”。

RoBERTa
https://arxiv.org/abs/1907.11692

經證明可以記憶大量世界知識
https://arxiv.org/pdf/1909.01066.pdf

雖然知識編碼能力對于某些自然語言處理任務(如問題回答、信息檢索和文本生成等)尤為重要,但這些模型是 隱式地 記憶知識,也就是說世界知識在模型權重中以抽象的方式被捕獲,導致已存儲的知識及其在模型中的位置都難以確定。此外,存儲空間以及模型的準確率也受到網絡規模的限制。為了獲取更多的世界知識,標準做法是訓練更大的網絡,這可能非常緩慢或非常昂貴。

如果有一種預訓練方法可以 顯式地 獲取知識,如引用額外的大型外部文本語料庫,在不增加模型大小或復雜性的情況下獲得準確結果,會怎么樣?

例如,模型可以引用外部文集中的句子“Francesco Bartolomeo Conti was born in Florence”來確定這位音樂家的出生地,而不是依靠模型隱晦的訪問存儲于自身參數中的某個知識。像這樣檢索包含顯性知識的文本,將提高預訓練的效率,同時使模型能夠在不使用數十億個參數的情況下順利完成知識密集型任務。

在 2020 ICML 我們介紹的 “REALM: Retrieval-Augmented Language Model Pre-Training”中,我們分享了一種語言預訓練模型的新范例,用 知識檢索器 (Knowledge Retriever) 增強語言模型,讓 REALM 模型能夠從原始文本文檔中 顯式 檢索文本中的世界知識,而不是將所有知識存儲在模型參數中。我們還開源了 REALM 代碼庫,以演示如何聯合訓練檢索器和語言表示。

REALM: Retrieval-Augmented Language Model Pre-Training
https://arxiv.org/abs/2002.08909

REALM 代碼庫
https://github.com/google-research/language/tree/master/language/realm

背景:預訓練語言表征模型

要了解標準語言表征模型記憶世界知識的方式,首先應該回顧這些模型的預訓練過程。自從 BERT 問世以來,稱為遮蔽語言建模 (Masked Language Modeling) 的填空任務已廣泛用于預訓練語言表征模型。給定某些單詞被遮蓋的文本,任務是填充缺失的單詞。任務的樣本如下所示:

I am so thirsty. I need to __ water.

預訓練期間,模型將遍歷大量樣本并調整參數,預測缺失的單詞(上述樣本中的答案:answer: drink)。于是,填空任務使模型記住了世界中的某些事實。例如,在以下樣本中,需要了解愛因斯坦的出生地才能填補缺失單詞:

Einstein was a __-born scientist. (answer: German)

但是,模型捕獲的世界知識存儲在模型權重中,因此是抽象的,難以模型到底理解存儲了哪些信息。

檢索增強型語言表征模型預訓練

與標準語言表征模型相比,REALM 通過 知識檢索器 增強語言表征模型,首先從外部文檔集中檢索另一段文本作為支持知識,在實驗中為 Wikipedia 文本語料庫,然后將這一段支持文本與原始文本一起輸入語言表征模型。

Wikipedia 文本語料庫
https://archive.org/details/wikimediadownloads

REALM 的關鍵理念是檢索系統應提高模型填補缺失單詞的能力。因此,應該獎勵提供了更多上下文填補缺失單詞的檢索。如果檢索到的信息不能幫助模型做出預測,就應該進行阻攔,為更好的檢索騰出空間。

假定預訓練期間只有未標記的文本,那么該如何訓練知識檢索器?事實證明,可以使用填補單詞的任務來間接訓練知識檢索器,無需任何人工標注。假設查詢的輸入為:

We paid twenty __ at the Buckingham Palace gift shop.

在沒有檢索的情況下,很難填補句子中缺失的單詞 (answer: pounds),因為模型需要隱式存儲白金漢宮所在國家和相關貨幣的知識,并在兩者之間建立聯系。如果提供了一段與從外部語料庫中檢索的必要知識顯式連接的段落,模型會更容易填補缺失的單詞。

在此例中,檢索器會因為檢索以下句子獲得獎勵。

Buckingham Palace is the London residence of the British monarchy.

由于檢索步驟需要添加更多上下文,因此可能會有多個檢索目標對填補缺失單詞有所幫助,例如“The official currency of the United Kingdom is the Pound.”。下圖演示了整個過程:

REALM 的計算挑戰

擴展 REALM 預訓練使模型從數百萬個文檔中檢索知識具有一定挑戰性。在 REALM 中,最佳文檔選擇為最大內積搜索 (Maximum Inner Product Search,MIPS)。檢索前,MIPS 模型需要首先對集合中的所有文檔進行編碼,使每個文檔都有一個對應的文檔向量。輸入到達時會被編碼為一個查詢向量。在 MIPS 中,給定查詢就會檢索出集合中文檔向量和查詢向量之間具有最大內積值的文檔,如下圖所示:

REALM 采用 ScaNN軟件包高效執行 MIPS,在預先計算文檔向量的情況下,相對降低了尋找最大內積值的成本。但是,如果在訓練期間更新了模型參數,通常有必要對整個文檔集重新編碼文檔向量。為了解決算力上的挑戰,檢索器經過結構化設計可以緩存并異步更新對每個文檔執行的計算。另外,要實現良好性能并使訓練可控,應每 500 個訓練步驟更新文檔向量而不是每步都更新。

將 REALM 應用于開放域問答

將 REALM 應用于開放域問答 (Open-QA) 評估其有效性,這是自然語言處理中知識最密集的任務之一。任務的目的是回答問題,例如“What is the angle of the equilateral triangle(等邊三角形的一角是多少度)?”

在標準問答任務中(例如 SQuAD 或 Natural Questions),支持文檔是輸入的一部分,因此模型只需要在給定文檔中查找答案。Open-QA 中沒有給定文檔,因此 Open-QA 模型需要自主查找知識,這就使 Open-QA 成為檢查 REALM 有效性的絕佳任務。

SQuAD
https://arxiv.org/abs/1606.05250

Natural Questions
https://ai.google.com/research/NaturalQuestions/

下圖是 OpenQA 版本 Natural Question 的結果。我們主要將結果與 T5 進行比較,T5 是另一種無需標注文檔即可訓練模型的方法。從圖中可以清楚地看到,REALM 預訓練生成了非常強大的 Open-QA 模型,僅使用少量參數 (300M),性能就比更大的 T5 (11B) 模型要高出近 4 個點。

結論

REALM 有助于推動人們對端到端檢索增強型模型的關注,包括最近的一個檢索增強型生成模型。我們期待以多種方式擴展這一工作范圍,包括 :

將類似 REALM 的方法應用于需要知識密集型推理和可解釋出處的新應用(超越 Open-QA)

了解對其他形式的知識進行檢索的好處,例如圖像、知識圖譜結構甚至其他語言的文本。我們也很高興看到研究界開始使用開源 REALM 代碼庫!

檢索增強型生成模型
https://arxiv.org/abs/2005.11401

REALM 代碼庫
https://github.com/google-research/language/tree/master/language/realm

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48970
  • 代碼
    +關注

    關注

    30

    文章

    4808

    瀏覽量

    68812
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13599

原文標題:REALM:將檢索集成到語言表征模型,搞定知識密集型任務!

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    檢索增強型生成(RAG)系統詳解

    成流暢且類似人類的文本方面表現出色,但它們有時在事實準確性上存在困難。當準確性非常重要時,這可能是一個巨大的問題。 那么,這個問題的解決方案是什么呢?答案是檢索增強型生成(RAG)系統。 RAG集成了像GPT這樣的模型的強大功能
    的頭像 發表于 12-24 10:44 ?250次閱讀
    <b class='flag-5'>檢索</b><b class='flag-5'>增強型</b>生成(RAG)系統詳解

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發表于 11-25 09:29 ?2053次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量無標簽文本數據上學習
    發表于 08-02 11:03

    增強型MOS管的結構解析

    增強型MOS管(Enhancement MOSFET)是一種重要的場效應晶體管,具有高輸入阻抗、低輸入電流、高速開關和低噪聲等優點,被廣泛應用于電子設備中。以下是對增強型MOS管結構的詳細解析。
    的頭像 發表于 07-24 10:51 ?1738次閱讀

    mos管增強型與耗盡的區別是什么

    MOSFET(金屬-氧化物-半導體場效應晶體管)是一種廣泛應用于電子設備中的半導體器件,具有高輸入阻抗、低驅動功率和良好的線性特性等優點。根據導電溝道的形成方式,MOSFET可以分為增強型和耗盡
    的頭像 發表于 07-14 11:32 ?4231次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使
    的頭像 發表于 07-11 10:11 ?476次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    在人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過在大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?1161次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?3007次閱讀

    語言模型:原理與工程時間+小白初識大語言模型

    語言模型進行訓練,此處訓練為自然語言處理領域的
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型訓練

    訓練數據時,數量、質量和多樣性三者缺一不可。 數據的多樣性對于大語言模型至關重要,這主要體現在數據的類別和來源兩個方面。豐富的數據類別能夠提供多樣的語言表達特征,如官方知識
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型技術的前提。接著,詳細介紹自然
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    的復雜模式和長距離依賴關系。 訓練策略: 訓練是LLMs訓練過程的第一階段,模型在大量的
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了如BERT和GPT等劃時代的模型。BERT通過雙向訓練增強了文本理解能力,而GPT則展示了強大的文本生成能力。 大語言模型,擁有數百億甚
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中訓練架構Transformer,以及這些技術在現實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當前技術面臨的挑戰和局限性。
    發表于 04-30 15:35
    主站蜘蛛池模板: 亚洲黄色成人| 四虎影院免费在线播放| 黑人40厘米全进去xxxx猛交| 婷婷六月色| 午夜免费福利片| 性免费网站| 饥渴少妇videos| 性福利视频| 欧美在线高清视频| 久久久久99精品成人片三人毛片| 久精品视频村上里沙| 高清人妖shemale japan| 你懂的手机在线| 天堂电影免费在线资源| 伊人草| 亚洲免费在线看| 国内视频一区二区三区| 午夜精品久久久久久久四虎| 三级视频在线| 黄色三级录像| 五月天婷婷在线观看| 九九视频只有精品| 久久啊| 黄色的视频网站| 成年人污视频| 91华人在线视频| 4399一级成人毛片| 亚洲资源在线观看| 13日本xxxxxxxxx18| 日本毛片大全| 美女扒开尿口给男的桶个爽| 亚洲一区免费在线观看| 中文字幕天堂网| 成人国产三级精品| 四虎地址8848最新章节| 女性一级全黄生活片免费看 | 久久夜夜视频| 天堂在线资源网| 手机看片精品国产福利盒子| 夜恋秀场欧美成人影院| 二级片在线|