在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自然語言推理數據集“人工痕跡”嚴重,模型性能被高估

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-03-14 18:11 ? 次閱讀

編者按:自然語言推理所用的數據集再近年得到了研究和發展,但是在本文中,來自華盛頓大學、卡內基梅隆大學和紐約大學等機構的研究人員發現,這些數據集中不可避免出現了明顯的“人工痕跡”,使得模型的表現被高估了,評估自然語言推理模型的問題仍然存在。以下是論智的編譯。

自然語言推理是NLP領域被廣泛研究的領域之一,有了這一技術,許多復雜的語義任務如問題回答和文本總結都能得到解決。而用于自然語言推理的大規模數據集是通過向眾包工作者提供一個句子(前提)p,然后讓他們創作出三個新的與之相關的句子(假設)h創造出來的。自然語言推理的目的就是判斷是否能根據p的語義推斷出h。我們證明,利用這種方法,使得數據中的很大一部分只需查看新生成的句子,無需看“前提”,就能了解到數據的標簽。具體來說,一個簡單的文本分類模型在SNLI數據集上對句子分類的正確率達到了67%,在MultiNLI上的正確率為53%。分析表明,特定的語言現象,比如否定和模糊與某些推理類別非常相關。所以這一研究表示,目前的自然語言推理模型的成功被高估了,這一問題仍然難以解決。

2015年,Bowman等人通過眾包標記的方法創造了大規模推斷數據集SNLI;2018年,Williams等人又推出了MultiNLI數據集。在這一過程中,研究人員從一些語料中抽取某個前提句子p,讓眾包標注者基于p創作三個新句子,創作的句子與p有三種關系標準:

包含(Entailment):h與p非常相關;

中立(Neutral):h與p可能相關;

矛盾(Contradiction):h與p絕對不相關。

下面是SNLI數據集中具體的例子:

在這篇論文中,我們發現,通過眾包生成的句子人工痕跡太過明顯,以至于分類器無需查看條件句子p就能將其正確分類。下面我們將詳細講解分析過程。

注釋中的“人工痕跡”其實很明顯

我們猜想,注釋任務的框架對眾包人員編寫句子時會產生顯著的影響,這一影響會反映在數據中,我們稱之為“人工注釋(annotation artifacts)”。

為了確定這種人為行為對數據的影響程度,我們訓練一個模型來預測生成句子的標簽,無需查看前提句子。具體來說,我們使用現成的文本分類器fastText,它可以將文本模型化為許多單詞和二元語法(bigrams),以預測句子的標簽。

下表顯示,每個測試集中大部分數據都能在不看前提句子的情況下被正確分類,這也證明了即使不用對自然語言推理建模,分類器也能表現得很好。

人工注釋的特點

之前我們說到,超過一半的MultiNLI數據和三分之二的SNLI數據都有明顯的人工痕跡,為了從中總結出它們的特點,我們將對數據進行大致分析,重點關注詞匯的選擇和句子的長度。

詞匯選擇

為了了解特定詞匯的選擇是否會影響句子的分類,我們計算了訓練集中每個單詞和類別之間的點互信息(PMI):

下表顯示了每個分類中與類別最相關的幾個單詞,以及訓練語句中包含這些單詞的比例。

相關句子(Entailment)

與前提句子完全相關的生成句子都含有通用詞匯,如動物、樂器和戶外等,這些詞語還有可能衍生出更具體的詞語例如小狗、吉他、沙灘等等。另外,這些據此都會用確切的數字代替近似值(一些、至少、各種等等),并且會移除明確的性別。有些還會帶有具體的環境,例如室內或室外,這些都是SNLI數據集中圖片的個性特征。

中立句子

中立關系的句子中,最常見的就是修飾詞(高、悲傷、受歡迎)和最高級詞語(第一、最愛、最多)。除此之外,中立句子比較常見的是原因和目的從句,例如因為。

不相關句子

否定詞例如“沒有人”、“不”、“從不”、“沒有”等都是不相關句子的常見詞語。

句子長度

我們發現,生成句子中tokens的數量在不同的推理類別中并不是平均分配的。下圖顯示,中性的句子中token往往較長,而相關句子往往較短。句子長度的差異可能表明,眾包工作者在生成相關句子時只是簡單地從前提句子p中刪除了幾個單詞。而事實上,當每個句子都用bag of words表示時,SNLI中有8.8%的相關生成句子完全包含在前提句子之中,而只有0.2%的中性和矛盾句子包含前提。

結論

通過觀察結果,并對比其他人工注釋分析,我們得到了三個主要結論。

很多數據集都包含有“人工痕跡”

監督模型需要利用人工注釋。Levy等人證明了監督詞匯推理模型在很大程度上以來數據集中人工生成的詞匯。

人工注釋會高估模型性能。大多數測試集都能單獨依靠人工注釋解決問題,所以我們鼓勵開發額外的標準,能夠給讓人了解NLI模型的真實性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13364

原文標題:自然語言推理數據集“人工痕跡”嚴重,模型性能被高估

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    PyTorch教程-16.7。自然語言推理:微調 BERT

    實驗室在 SageMaker Studio Lab 中打開筆記本 在本章前面的部分中,我們為 SNLI 數據上的自然語言推理任務(如第 16.4 節所述)設計了一個基于注意力的架
    的頭像 發表于 06-05 15:44 ?1267次閱讀
    PyTorch教程-16.7。<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:微調 BERT

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然語
    發表于 05-04 23:55

    python自然語言

    學和人工智能,但同樣受到諸如機器學習,計算統計學和認知科學這些相對新興的學科影響。python下面只要安裝自然語言工具包nltk,下面版主開始正式進入學習。Natural Language
    發表于 05-02 13:50

    自然語言處理的語言模型

    自然語言處理——53 語言模型數據平滑)
    發表于 04-16 11:11

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務有哪些?自然語言處理的方法是什么?
    發表于 09-08 06:51

    什么是人工智能、機器學習、深度學習和自然語言處理?

    領域,包括機器學習、深度學習、數據挖掘、計算機視覺、自然語言處理和其他幾個學科。首先,人工智能涉及使計算機具有自我意識,利用計算機視覺、自然語言理解和模仿其他感官。其次,
    發表于 03-22 11:19

    自然語言處理常用模型解析

    自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言
    發表于 12-28 15:42 ?5908次閱讀
    <b class='flag-5'>自然語言</b>處理常用<b class='flag-5'>模型</b>解析

    一種注意力增強的自然語言推理模型aESIM

    自然語言處理任務中使用注意力機制可準確衡量單詞重要度。為此,提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應方向權重層添加到ESIM模型的雙向LSTM網絡中,從而
    發表于 03-25 11:34 ?9次下載
    一種注意力增強的<b class='flag-5'>自然語言</b><b class='flag-5'>推理模型</b>aESIM

    PyTorch教程16.4之自然語言推理數據

    電子發燒友網站提供《PyTorch教程16.4之自然語言推理數據.pdf》資料免費下載
    發表于 06-05 10:57 ?0次下載
    PyTorch教程16.4之<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>和<b class='flag-5'>數據</b><b class='flag-5'>集</b>

    PyTorch教程16.5之自然語言推理:使用注意力

    電子發燒友網站提供《PyTorch教程16.5之自然語言推理:使用注意力.pdf》資料免費下載
    發表于 06-05 10:49 ?0次下載
    PyTorch教程16.5之<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:使用注意力

    PyTorch教程16.7之自然語言推理:微調BERT

    電子發燒友網站提供《PyTorch教程16.7之自然語言推理:微調BERT.pdf》資料免費下載
    發表于 06-05 10:52 ?0次下載
    PyTorch教程16.7之<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:微調BERT

    PyTorch教程-16.4。自然語言推理數據

    16.4。自然語言推理數據? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Col
    的頭像 發表于 06-05 15:44 ?563次閱讀

    PyTorch教程-16.5。自然語言推理:使用注意力

    實驗室在 SageMaker Studio Lab 中打開筆記本 我們在16.4 節介紹了自然語言推理任務和 SNLI 數據。鑒于許多基于復雜和深層架構的
    的頭像 發表于 06-05 15:44 ?580次閱讀
    PyTorch教程-16.5。<b class='flag-5'>自然語言</b><b class='flag-5'>推理</b>:使用注意力

    自然語言處理的概念和應用 自然語言處理屬于人工智能嗎

      自然語言處理(Natural Language Processing)是一種人工智能技術,它是研究自然語言與計算機之間的交互和通信的一門學科。自然語言處理旨在研究機器如何理解人類
    發表于 08-23 17:31 ?1675次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠從數據中學習并做出預測或決策。自然語言處理與機器學習之間有著密切的關系,因為機器學習提供了一種強大的工具,用于從大量文本
    的頭像 發表于 12-05 15:21 ?553次閱讀
    主站蜘蛛池模板: 亚洲视频在线一区二区| 黄视频免费在线观看| 最新欧美一级视频| 成人三级电影在线观看| ts人妖在线观看| 99精品久久久久久久婷婷| 在线视频 亚洲| 天天干天天干天天天天天天爽| 男男np主受高h啪啪肉| 夜夜嘿视频免费看| 欧美深深色噜噜狠狠yyy| aaaaaaa欧美黄色大片| 性视频在线| 天堂免费在线视频| 欧美videos 另类| 国产毛片农村妇女系列| 亚洲午夜网站| 国产无套视频在线观看香蕉| 国产h在线| 中文字幕88页| 日韩欧美不卡片| 亚洲成人在线免费观看| 四虎新网站| 久久免费视频99| 2021韩国理论片ok电影天堂| 日本在线黄色网址| 国产最新网站| 亚洲宅男天堂a在线| 日本三级在线播放线观看2021| 四虎884| 欧美一区a| a毛片基地免费全部香蕉| 天天干在线播放| 欧美黑人xxxx猛牲大交| 最新版天堂资源中文官网| 色aaa| 艹逼视频免费看| 77788色淫视频免费观看| 色3344| 在线视频毛片| 天堂中文在线资源|