在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

文本噪聲標簽在預訓練語言模型(PLMs)上的特性

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-10-12 09:50 ? 次閱讀

數(shù)據(jù)的標簽錯誤隨處可見,如何在噪聲數(shù)據(jù)集上學習到一個好的分類器,是很多研究者探索的話題。在 Learning With Noisy Labels 這個大背景下,很多方法在圖像數(shù)據(jù)集上表現(xiàn)出了非常好的效果。

而文本的標簽錯誤有時很難鑒別。比如對于一段文本,可能專家對于其主旨類別的看法都不盡相同。這些策略是否在語言模型,在文本數(shù)據(jù)集上表現(xiàn)好呢?本文探索了文本噪聲標簽在預訓練語言模型(PLMs)上的特性,提出了一種新的學習策略 SelfMix,并機器視覺上常用的方法應用于預訓練語言模型作為 baseline。

為什么選 PLMs

我們對于常見語言分類模型在帶噪文本數(shù)據(jù)集上做了一些前期實驗,結果如下:

26bb6bd2-497f-11ed-a3b6-dac502259ad0.png

首先,毫無疑問,預訓練模型(BERT,RoBERTa)的表現(xiàn)更好。其次,文章提到,預訓練模型已經(jīng)在大規(guī)模的預訓練語料上獲得了一定的類別先驗知識。故而在有限輪次訓練之后,依然具有較高的準確率,如何高效利用預訓練知識處理標簽噪聲,也是一個值得探索的話題。

預訓練模型雖然有一定的抗噪學習能力,但在下游任務的帶噪數(shù)據(jù)上訓練時也會受到噪聲標簽的影響,這種現(xiàn)象在少樣本,高噪聲比例的設置下更加明顯。

26d1e2ae-497f-11ed-a3b6-dac502259ad0.png

方法

由此,我們提出了 SelfMix,一種對抗文本噪聲標簽的學習策略。

基礎模型上,我們采用了 BERT encoder + MLP 這一常用的分類范式。

270fa0da-497f-11ed-a3b6-dac502259ad0.png

針對帶噪學習策略,主要可以分為兩個部分

Sample Selection

Semi-supervised Learning

Sample Selection

Sample Selection 部分對于原始數(shù)據(jù)集 ,經(jīng)過模型的一次傳播,根據(jù)每個樣本對應的 loss,通過 2 核的 GMM 擬合將數(shù)據(jù)集分為干凈和帶噪聲的兩個部分,分別為 和 。因為其中 被認為是噪聲數(shù)據(jù)集,所以其標簽全部被去除,認為是無標簽數(shù)據(jù)集。

這里的 GMM,簡單的來講其實可以看作是根據(jù)整體的 loss 動態(tài)擬合出一個閾值(而不是規(guī)定一個閾值,因為在訓練過程中這個閾值會變化),將 loss 位于閾值兩邊的分別分為 clean samples 和 noise samples。

Semi-supervised Learning

關于 Semi-supervised Learning 部分,SelfMix 首先利用模型給給無標簽的數(shù)據(jù)集打偽標簽(這里采用了 soft label 的形式),得到 。因為打偽標簽需要模型在這個下游任務上有一定的判別能力,所以模型需要預先 warmup 的少量的步數(shù)。

Textual Mixup」:文中采用了句子 [CLS] embedding 做 mixup。Mixup 也是半監(jiān)督和魯棒學習中經(jīng)常采用的一個策略。

27757996-497f-11ed-a3b6-dac502259ad0.png

「Pseudo-Loss」:文中的解釋比較拗口,其實本質也是一種在半監(jiān)督訓練過程中常用的對模型輸出墑的約束。

27a9d40c-497f-11ed-a3b6-dac502259ad0.png

「Self-consistency Regularization」:其他的很多帶噪學習方法大都是多模型集成決策的想法,但我們認為可以利用 dropout 機制來使得單個模型做自集成。噪聲數(shù)據(jù)因為與標簽的真實分布相悖,往往會導致子模型之間產生很大的分歧,我們不希望在高噪聲環(huán)境下子模型的分歧越來越大,故而采用了 R-Drop 來約束子模型。具體的做法是,計算兩次傳播概率分布之間的 KL 散度,作為 loss 的一部分,并且消融實驗證明這個方法是十分有效的。

27c65db6-497f-11ed-a3b6-dac502259ad0.png

實驗

我們在 IDN (Instance-Dependent Noise) 和 Asym (Asymmetric Noise) 做了實驗,并且對數(shù)據(jù)集做了切分來擬合數(shù)據(jù)充分和數(shù)據(jù)補充的情況,并設置了不同比例的標簽噪聲來擬合微量噪聲至極端噪聲下的情況,上圖!

ASYM 噪聲實驗結果

ASYM 噪聲按照一個特定的噪聲轉移矩陣將一個類別樣本的標簽隨機轉換為一個特定類別的標簽,來形成類別之間的混淆。

27e07714-497f-11ed-a3b6-dac502259ad0.png

IDN 噪聲實驗結果

為了擬合基于樣本特征的錯標情況,我們訓練了一個LSTM文本分類,對于一個樣本,將LSTM對于其預測結果中更容易錯的類別作為其可能的噪聲標簽。

27ff3d48-497f-11ed-a3b6-dac502259ad0.png

其他的一些討論

GMM 是否有效:從 a-c, d-f 可看出高斯混合模型能夠比較充分得擬合 clean 和 noise 樣本的 loss 分布。

SelfMix 對防止模型過擬合噪聲的效果是否明顯:d, h 兩張圖中,BERT-base 和 SelfMix 的 warmup 過程是完全一致的,warmup 過后 SelfMix 確實給模型的性能帶來了一定的提升,并且趨于穩(wěn)定,有效避免了過擬合噪聲的現(xiàn)象。285999be-497f-11ed-a3b6-dac502259ad0.png

考慮到模型最終的優(yōu)化目標包括三個項,我們做了消融實驗,分別去掉其中一個約束來看看模型表現(xiàn)如何,最終證明每個約束確實對于處理噪聲標簽有幫助。

287fbe82-497f-11ed-a3b6-dac502259ad0.png

審核編輯:彭靜

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 噪聲
    +關注

    關注

    13

    文章

    1122

    瀏覽量

    47420
  • 語言模型
    +關注

    關注

    0

    文章

    525

    瀏覽量

    10277
  • 數(shù)據(jù)集

    關注

    4

    文章

    1208

    瀏覽量

    24710

原文標題:COLING'22 | SelfMix:針對帶噪數(shù)據(jù)集的半監(jiān)督學習方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一文詳解知識增強的語言訓練模型

    隨著訓練語言模型(PLMs)的不斷發(fā)展,各種NLP任務設置都取得了不俗的性能。盡管
    的頭像 發(fā)表于 04-02 17:21 ?9632次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    之后,成為文本建模領域的熱門架構。不僅如此,它還對自然語言處理領域產生了深遠的影響。基于Transformer的訓練模型,如GPT系列和B
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養(yǎng)通用的處理能力。然而,隨著學習容量的增加,對
    發(fā)表于 05-07 17:10

    訓練語言模型設計的理論化認識

    在這篇文章中,我會介紹一篇最新的訓練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經(jīng)典的
    的頭像 發(fā)表于 11-02 15:09 ?2715次閱讀

    基于BERT的中文科技NLP訓練模型

    深度學習模型應用于自然語言處理任務時依賴大型、高質量的人工標注數(shù)據(jù)集。為降低深度學習模型對大型數(shù)據(jù)集的依賴,提出一種基于BERT的中文科技自然語言處理
    發(fā)表于 05-07 10:08 ?14次下載

    如何向大規(guī)模訓練語言模型中融入知識?

    本文關注于向大規(guī)模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發(fā)表于 06-23 15:07 ?4249次閱讀
    如何向大規(guī)模<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識?

    Multilingual多語言訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM訓練語言模型,整體思路基于BERT,并提出了針
    的頭像 發(fā)表于 05-05 15:23 ?2986次閱讀

    一種基于亂序語言模型訓練模型-PERT

    由于亂序語言模型不使用[MASK]標記,減輕了訓練任務與微調任務之間的gap,并由于預測空間大小為輸入序列長度,使得計算效率高于掩碼語言
    的頭像 發(fā)表于 05-10 15:01 ?1551次閱讀

    利用視覺語言模型對檢測器進行訓練

    訓練通常被用于自然語言處理以及計算機視覺領域,以增強主干網(wǎng)絡的特征提取能力,達到加速訓練和提高模型泛化性能的目的。該方法亦可以用于場景
    的頭像 發(fā)表于 08-08 15:33 ?1409次閱讀

    CogBERT:腦認知指導的訓練語言模型

    另一方面,從語言處理的角度來看,認知神經(jīng)科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設計了訓練模型來捕捉大腦如何表示
    的頭像 發(fā)表于 11-03 15:07 ?1078次閱讀

    復旦&amp;微軟提出?OmniVL:首個統(tǒng)一圖像、視頻、文本的基礎訓練模型

    根據(jù)輸入數(shù)據(jù)和目標下游任務的不同,現(xiàn)有的VLP方法可以大致分為兩類:圖像-文本訓練和視頻-文本訓練
    的頭像 發(fā)表于 12-14 15:26 ?923次閱讀

    訓練數(shù)據(jù)大小對于訓練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學習到的文本表征能力。那么如何從語言
    的頭像 發(fā)表于 03-03 11:20 ?1442次閱讀

    基于訓練模型語言增強的零樣本視覺學習

    Stable Diffusion 多模態(tài)訓練模型 考慮多標簽圖像分類任務——每幅圖像大于一個類別 如果已有圖文對齊模型——能否用
    的頭像 發(fā)表于 06-15 16:36 ?571次閱讀
    基于<b class='flag-5'>預</b><b class='flag-5'>訓練</b><b class='flag-5'>模型</b>和<b class='flag-5'>語言</b>增強的零樣本視覺學習

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發(fā)表于 07-03 18:20 ?2859次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發(fā)展的關鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行
    的頭像 發(fā)表于 07-11 10:11 ?435次閱讀
    主站蜘蛛池模板: 两人性潮高免费视频看| 最新亚洲情黄在线网站| 午夜视频在线免费播放| 午夜视频免费在线观看| 天天摸天天操天天射| 日韩一级片免费在线观看| 五月婷婷在线视频观看| 亚洲国产成人精品女人久久久| 网络色综合久久| 色噜噜在线视频| 亚洲欧美婷婷| 特级黄色免费片| 日本三级吹潮| 四虎.com| 性欧美xxxxhd| 日韩成人午夜| 六月婷婷视频| 亚洲最大成人| 天堂成人在线观看| 日本人zzzwww| 韩国免费特一级毛片| 夜色爽爽| 亚洲国产午夜看片| 久久精品免费观看久久| xxxx性欧美高清| 在线高清国产| 日本wwwwwwwww| 成人精品一区二区不卡视频| 天天骑夜夜操| 亚洲成成品网站有线| 1000rt人体1000欧美| 热99精品视频| 四虎永久在线精品免费观看地址| 美女18黄| 国产中出视频| 天天插天天狠| 男人操女人的网站| 中文字幕一区在线观看| 亚洲天堂h| 久久夜色精品| 天天干天天看|