在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

面向NLP任務的遷移學習新模型ULMFit

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-22 08:11 ? 次閱讀

本文介紹了面向NLP任務的遷移學習新模型ULMFit,只需使用極少量的標記數據,文本分類精度就能和數千倍的標記數據訓練量達到同等水平。在數據標記成本高數量少的情況下,這個通用語言微調模型可以大幅降低你的NLP任務訓練時間和成本。

在本文中,我們將介紹自然語言處理(NLP)在遷移學習上的最新應用趨勢,并嘗試執行一個分類任務:使用一個數據集,其內容是亞馬遜網站上的購物評價,已按正面或負面評價分類。然后在你可以按照這里的說明,用你自己的數據重新進行實驗。

遷移學習模型的思路是這樣的:既然中間層可以用來學習圖像的一般知識,我們可以將其作為一個大的特征化工具使用。下載一個預先訓練好的模型(模型已針對ImageNet任務訓練了數周時間),刪除網絡的最后一層(完全連接層),添加我們選擇的分類器,執行適合我們的任務(如果任務是對貓和狗進行分類,就選擇二元分類器),最后僅對我們的分類層進行訓練。

由于我們使用的數據可能與之前訓練過的模型數據不同,我們也可以對上面的步驟進行微調,以在相當短的時間內對所有的層進行訓練。

除了能夠更快地進行訓練之外,遷移學習也是特別有趣的,僅在最后一層進行訓練,讓我們可以僅僅使用較少的標記數據,而對整個模型進行端對端訓練則需要龐大的數據集。標記數據的成本很高,在無需大型數據集的情況下建立高質量的模型是很可取的方法。

遷移學習NLP的尷尬

目前,深度學習在自然語言處理上的應用并沒有計算機視覺領域那么成熟。在計算機視覺領域中,我們可以想象機器能夠學習識別邊緣、圓形、正方形等,然后利用這些知識去做其他事情,但這個過程對于文本數據而言并不簡單。

最初在NLP任務中嘗試遷移學習的趨勢是由“嵌入模型”一詞帶來的。

實驗證明,事先將預先訓練好的詞向量加入模型,可以在大多數NLP任務中改進結果,因此已經被NLP社區廣泛采用,并由此繼續尋找質量更高的詞/字符/文檔表示。與計算機視覺領域一樣,預訓練的詞向量可以被視為特征化函數,轉換一組特征中的每個單詞。

不過,詞嵌入僅代表大多數NLP模型的第一層。之后,我們仍然需要從頭開始訓練所有RNN / CNN /自定義層。

高階方法:微調語言模型,在上面加一層分類器

今年早些時候,Howard和Ruder提出了ULMFit模型作為在NLP遷移學習中使用的更高級的方法(論文地址:https://arxiv.org/pdf/1801.06146.pdf)。

他們的想法是基于語言模型(Language Model)。語言模型是一種能夠根據已經看到的單詞預測下一個單詞的模型(比如你的智能手機在你發短信時,可以為你猜測下一個單詞)。就像圖像分類器通過對圖像分類來獲得圖像的內在知識一樣,如果NLP模型能夠準確地預測下一個單詞,似乎就可以說它已經學會了很多關于自然語言結構的知識。這些知識可以提供高質量的初始化狀態,然后針對自定義任務進行訓練。

ULMFit模型一般用于非常大的文本語料庫(如維基百科)上訓練語言模型,并將其作為構建任何分類器的基礎架構。由于你的文本數據可能與維基百科的編寫方式不同,因此你可以對語言模型的參數進行微調。然后在此語言模型的頂部添加分類器層,僅僅對此層進行訓練。

Howard和Ruder建議向下逐層“解凍”,逐步對每一層進行訓練。他們還在之前關于學習速度(周期性學習)的研究成果基礎上,提出了他們自己的三角學習速率(triangular learning rates)。

用100個標記數據,達到用20000個標記數據從頭訓練的結果

這篇文章得出的神奇結論是,使用這種預訓練的語言模型,讓我們能夠在使用更少的標記數據的情況下訓練分類器。盡管網絡上未標記的數據幾乎是無窮無盡的,但標記數據的成本很高,而且非常耗時。

下圖是他們從IMDb情感分析任務中報告的結果:

該模型只用了100個示例進行訓練,錯誤率與20000個示例從頭到尾進行完全訓練的模型相仿。

此外,他們在文中還提供了代碼,讀者可以自選語種,對語言模型進行預訓練。由于維基百科上的語言多種多樣,因此我們可以使用維基百科數據快速完成語種的轉換。眾所周知,公共標簽數據集更難以使用英語以外的語言進行訪問。在這里,你可以對未標記數據上的語言模型進行微調,花幾個小時對幾百個至幾千個數據點進行手動標注,并使分類器頭適應您預先訓練的語言模型,完成自己的定制化任務。

為了加深對這種方法的理解,我們在公共數據集上進行了嘗試。我們在Kaggle上找了一個數據集。它包含400萬條關于亞馬遜產品的評論,并按積極/消極情緒(即好評和差評)加上了標記。我們用ULMfit模型對這些評論按好評/差評進行分類。結果發現,該模型用了1000個示例,其分類準確度已經達到了在完整數據集上從頭開始訓練的FastText模型的水平。甚至在僅僅使用100個標記示例的情況下,該模型仍然能夠獲得良好的性能。

所以,語言模型了解的是語法還是語義?

我們使用ULMFit模型進行了監督式和無監督式學習。訓練無監督的語言模型的成本很低,因為您可以在線訪問幾乎無限數量的文本數據。但是,使用監督模型就很昂貴了,因為需要對數據進行標記。

雖然語言模型能夠從自然語言的結構中捕獲大量相關信息,但尚不清楚它是否能夠捕捉到文本的含義,也就是“發送者打算傳達的信息或概念”或能否實現“與信息接收者的交流”。

我們可以這樣認為,語言模型學到的更多是語法而不是語義。然而,語言模型比僅僅預測語法的模型表現更好。比如,“I eat this computer“(我吃這臺電腦)和“I hate this computer”(我討厭這臺電腦),兩句話在語法上都是正確的,但表現更優秀的語言模型應該能夠明白,第二句話比第一句話更加“正確”。語言模型超越了簡單的語法/結構理解。因此,我們可以將語言模型視為對自然語言句子結構的學習,幫助我們理解句子的意義。

由于篇幅所限,這里就不展開探討語義的概念(盡管這是一個無窮無盡且引人入勝的話題)。如果你有興趣,我們建議你觀看Yejin Choi在ACL 2018上的演講,深入探討這一主題。

微調遷移學習語言模型,大有前景

ULMFit模型取得的進展推動了面向自然語言處理的遷移學習研究。對于NLP任務來說,這是一個激動人心的事情,其他微調語言模型也開始出現,尤其是微調遷移語言模型(FineTuneTransformer LM)。

我們還注意到,隨著更優秀的語言模型的出現,我們甚至可以完善這種知識遷移。高效的NLP框架對于解決遷移學習的問題是非常有前景的,尤其是對一些常見子詞結構的語言,比如德語,經過詞級訓練的語言模型的表現前景非常好。

怎么樣?趕緊試試吧~

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24703
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22038
  • 遷移學習
    +關注

    關注

    0

    文章

    74

    瀏覽量

    5562

原文標題:只有100個標記數據,如何精確分類400萬用戶評論?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    介紹用遷移學習處理NLP任務的大致思路

    文本分類是NLP領域重要的部分,它與現實生活中的場景密切相關,例如機器人、語音助手、垃圾或詐騙信息監測、文本分類等等。這項技術的用途十分廣泛,幾乎可以用在任意語言模型上。本論文的作者進行的是文本分類,直到現在,很多學術研究人員仍然用詞嵌入訓練
    的頭像 發表于 08-02 09:18 ?6204次閱讀

    遷移學習

    、目標檢測、行人重識別等任務中的應用,學習圖像/視頻風格遷移方法,了解風格遷移在實際生活中的應用。七、小樣本學習、Transformer等前
    發表于 04-21 15:15

    NLP任務學習案例分享:一種層次增長的神經網絡結構

    NLP 領域研究者們開始研究基于神經網絡的多任務學習。大多數方法通過網絡參數共享來學習任務間的關聯,提升各
    發表于 01-05 16:10 ?4410次閱讀

    一個深度學習模型能完成幾項NLP任務

    對于機器翻譯、文本摘要、Q&A、文本分類等自然語言處理任務來說,深度學習的出現一遍遍刷新了state-of-the-art的模型性能記錄,給研究帶來諸多驚喜。但這些任務一般都有各自的度
    的頭像 發表于 06-26 15:19 ?4611次閱讀

    NLP中的深度學習技術概述

    該項目是對基于深度學習的自然語言處理(NLP)的概述,包括用來解決不同 NLP 任務和應用的深度學習模型
    的頭像 發表于 03-01 09:13 ?4817次閱讀
    <b class='flag-5'>NLP</b>中的深度<b class='flag-5'>學習</b>技術概述

    8個免費學習NLP的在線資源

    此在線課程涵蓋從基礎到高級NLP,它是Coursera上高級機器學習專業化的一部分。你可以免費注冊本課程,你將學習情緒分析、總結、對話狀態跟蹤等。你將學習的主題包括文本分類介紹、語言建
    的頭像 發表于 07-07 07:44 ?7341次閱讀

    遷移學習模型預訓練:何去何從

    把我們當前要處理的NLP任務叫做T(T稱為目標任務),遷移學習技術做的事是利用另一個任務S(S稱
    的頭像 發表于 07-18 11:29 ?7887次閱讀
    <b class='flag-5'>遷移</b><b class='flag-5'>學習</b>與<b class='flag-5'>模型</b>預訓練:何去何從

    NLP遷移學習面臨的問題和解決

    自然語言處理(NLP)最近取得了巨大的進步,每隔幾天就會發布最新的結果。排行榜瘋狂是指最常見的NLP基準,如GLUE和SUPERGLUE,它們的得分越來越接近人類的水平。這些結果大多是通過超大(數十億個參數)模型從大規模數據集中
    的頭像 發表于 05-04 12:03 ?3155次閱讀
    <b class='flag-5'>NLP</b><b class='flag-5'>遷移</b><b class='flag-5'>學習</b>面臨的問題和解決

    如何利用機器學習思想,更好地去解決NLP分類任務

    NLP分類任務我們每個NLPer都異常熟悉了,其在整個NLP業務中占據著舉足輕重的地位,更多領域的子任務也常常轉化為一個分類任務,例如新聞分
    的頭像 發表于 08-28 10:02 ?2273次閱讀
    如何利用機器<b class='flag-5'>學習</b>思想,更好地去解決<b class='flag-5'>NLP</b>分類<b class='flag-5'>任務</b>

    基于遷移學習的駕駛分心行為識別模型

    為了提高駕駛分心識別的應用性及識別模型的可解釋性,利用遷移學習方法硏究構建駕駛人駕駛分心行為識別模型并采用神經網絡可視化技術硏究對模型進行解
    發表于 04-30 13:46 ?10次下載
    基于<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>的駕駛分心行為識別<b class='flag-5'>模型</b>

    基于WordNet模型遷移學習文本特征對齊算法

    基于WordNet模型遷移學習文本特征對齊算法
    發表于 06-27 16:14 ?8次下載

    如何實現更綠色、經濟的NLP預訓練模型遷移

    NLP中,預訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預訓練得到的Bert、GPT等模型,在下游不同任務上分別進行finetune,得到下游
    的頭像 發表于 03-21 15:33 ?2208次閱讀

    遷移學習Finetune的四種類型招式

    遷移學習方法。例如NLP中的預訓練Bert模型,通過在下游任務上Finetune即可取得比直接使用下游數據
    的頭像 發表于 04-02 17:35 ?3178次閱讀

    NLP中的遷移學習:利用預訓練模型進行文本分類

    遷移學習徹底改變了自然語言處理(NLP)領域,允許從業者利用預先訓練的模型來完成自己的任務,從而大大減少了訓練時間和計算資源。在本文中,我們
    發表于 06-14 09:30 ?454次閱讀

    一文詳解遷移學習

    遷移學習需要將預訓練好的模型適應新的下游任務。然而,作者觀察到,當前的遷移學習方法通常無法關注與
    的頭像 發表于 08-11 16:56 ?6329次閱讀
    一文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>
    主站蜘蛛池模板: 日本在线观看高清不卡免v| 久久久一本| 成年网站在线看| 美女视频黄a视频免费全过程| 色吧在线视频在线观看| 国产午夜在线观看视频播放| 免费观看黄视频| 免费一级毛片无毒不卡| 好看的一级毛片| 久久天天躁夜夜躁狠狠85麻豆| 涩综合| 亚洲欧美日韩在线观看你懂的| 久久久久久久网站| 人人干在线| 国产亚洲一区二区三区啪| 玖玖玖精品视频免费播放| 欧美女同在线| 成人男女啪啪免费观看网站| 高h细节肉爽文男男| 谁有毛片网站| 夜夜骑首页| 成人夜夜| 久久99热精品| 日韩欧美中文字幕在线视频| 国模私拍在线视频| va国产| 中国美女毛片| 国产二区三区毛片| 久久精品亚洲| 亚洲色图 欧美| 91精选视频在线观看| 亚洲国产毛片aaaaa无费看| 男人不识本网站上遍色站也枉然| 日本加勒比官网| 亚洲欧美高清| 午夜高清免费观看视频| 啪啪免费看视频| 欧美日韩亚洲国产| 午夜亚洲视频| 在线天堂bt中文www在线| 成人伊人电影|