在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

詳解多任務學習的方法與現(xiàn)實

深度學習自然語言處理 ? 來源:煉丹筆記 ? 作者:十方 ? 2021-04-09 10:03 ? 次閱讀

大家在做模型的時候,往往關注一個特定指標的優(yōu)化,如做點擊率模型,就優(yōu)化AUC,做二分類模型,就優(yōu)化f-score。然而,這樣忽視了模型通過學習其他任務所能帶來的信息增益和效果上的提升。通過在不同的任務中共享向量表達,我們能夠讓模型在各個任務上的泛化效果大大提升。這個方法就是我們今天要談論的主題-多任務學習(MTL)。

所以如何判定是不是多任務學習呢?不需要看模型結構全貌,只需要看下loss函數(shù)即可,如果loss包含很多項,每一項都是不同目標,這個模型就是在多任務學習了。有時,雖然你的模型僅僅是優(yōu)化一個目標,同樣可以通過多任務學習,提升該模型的泛化效果。比如點擊率模型,我們可以通過添加轉化樣本,構建輔助loss(預估轉化率),從而提升點擊率模型的泛化性。

為什么多任務學習會有效?舉個例子,一個模型已經(jīng)學會了區(qū)分顏色,如果直接把這個模型用于蔬菜和肉類的分類任務呢?模型很容易學到綠色的是蔬菜,其他更大概率是肉。正則化算不算多任務?正則化的優(yōu)化的loss不僅有本身的回歸/分類產(chǎn)生的loss,還有l(wèi)1/l2產(chǎn)生的loss,因為我們認為“正確且不過擬合”的模型的參數(shù)應該稀疏,且不易過大,要把這種假設注入到模型中去學習,就產(chǎn)生了正則化項,本質也是一個額外的任務。

MTL兩個方法

第一種是hard parameter sharing,如下圖所示:

f855993c-98d3-11eb-8b86-12bb97331649.png

比較簡單,前幾層dnn為各個任務共享,后面分離出不同任務的layers。這種方法有效降低了過擬合的風險: 模型同時學習的任務數(shù)越多,模型在共享層就要學到一個通用的嵌入式表達使得每個任務都表現(xiàn)較好,從而降低過擬合的風險。

第二種是soft parameter sharing,如下圖所示:

f86393b6-98d3-11eb-8b86-12bb97331649.png

在這種方法下,每個任務都有自己的模型,有自己的參數(shù),但是對不同模型之間的參數(shù)是有限制的,不同模型的參數(shù)之間必須相似,由此會有個distance描述參數(shù)之間的相似度,會作為額外的任務加入到模型的學習中,類似正則化項。

多任務學習能提效,主要是由于以下幾點原因:

隱式數(shù)據(jù)增強:每個任務都有自己的樣本,使用多任務學習的話,模型的樣本量會提升很多。而且數(shù)據(jù)都會有噪聲,如果單學A任務,模型會把A數(shù)據(jù)的噪聲也學進去,如果是多任務學習,模型因為要求B任務也要學習好,就會忽視掉A任務的噪聲,同理,模型學A的時候也會忽視掉B任務的噪聲,因此多任務學習可以學到一個更精確的嵌入表達。

注意力聚焦:如果任務的數(shù)據(jù)噪聲非常多,數(shù)據(jù)很少且非常高維,模型對相關特征和非相關特征就無法區(qū)分。多任務學習可以幫助模型聚焦到有用的特征上,因為不同任務都會反應特征與任務的相關性。

特征信息竊取:有些特征在任務B中容易學習,在任務A中較難學習,主要原因是任務A與這些特征的交互更為復雜,且對于任務A來說其他特征可能會阻礙部分特征的學習,因此通過多任務學習,模型可以高效的學習每一個重要的特征。

表達偏差:MTL使模型學到所有任務都偏好的向量表示。這也將有助于該模型推廣到未來的新任務,因為假設空間對于足夠多的訓練任務表現(xiàn)良好,對于學習新任務也表現(xiàn)良好。

正則化:對于一個任務而言,其他任務的學習都會對該任務有正則化效果。

多任務深度學習模型

Deep Relationship Networks:從下圖,我們可以看到卷積層前幾層是預訓練好的,后幾層是共享參數(shù)的,用于學習不同任務之間的聯(lián)系,最后獨立的dnn模塊用于學習各個任務。

f88c2d4e-98d3-11eb-8b86-12bb97331649.png

Fully-Adaptive Feature Sharing:從另一個極端開始,下圖是一種自底向上的方法,從一個簡單的網(wǎng)絡開始,并在訓練過程中利用相似任務的分組準則貪婪地動態(tài)擴展網(wǎng)絡。貪婪方法可能無法發(fā)現(xiàn)一個全局最優(yōu)的模型,而且只將每個分支分配給一個任務使得模型無法學習任務之間復雜的交互。

f89bdcf8-98d3-11eb-8b86-12bb97331649.png

cross-stitch Networks: 如上文中所談到的soft parameter sharing,該模型是兩個完全分離的模型結構,該結構用了cross-stitch單元去讓分離的模型學到不同任務之間的關系,如下圖所示,通過在pooling層和全連接層后分別增加cross-stitch對前面學到的特征表達進行線性融合,再輸出到后面的卷積/全連接模塊。

f8b228dc-98d3-11eb-8b86-12bb97331649.png

A Joint Many-Task Model:如下圖所示,預定義的層級結構由各個NLP任務組成,低層級的結構通過詞級別的任務學習,如此行分析,組塊標注等。中間層級的結構通過句法分析級別的任務學習,如句法依存。高層級的結構通過語義級別的任務學習。

f8cabf14-98d3-11eb-8b86-12bb97331649.png

weighting losses with uncertainty:考慮到不同任務之間相關度的不確定性,基于高斯似然最大化的多任務損失函數(shù),調整每個任務在成本函數(shù)中的相對權重。結構如下圖所示,對像素深度回歸、語義和實例分割。

f8f02e34-98d3-11eb-8b86-12bb97331649.png

sluice networks: 下圖模型概括了基于深度學習的MTL方法,如硬參數(shù)共享和cross-stitch網(wǎng)絡、塊稀疏正則化方法,以及最近創(chuàng)建任務層次結構的NLP方法。該模型能夠學習到哪些層和子空間應該被共享,以及網(wǎng)絡在哪些層學習了輸入序列的最佳表示。

f90a94e0-98d3-11eb-8b86-12bb97331649.png

ESSM: 在電商場景下,轉化是指從點擊到購買。在CVR預估時候,我們往往會遇到兩個問題:樣本偏差和數(shù)據(jù)系數(shù)問題。樣本偏差是指訓練和測試集樣本不同,拿電商舉例,模型用點擊的數(shù)據(jù)來訓練,而預估的卻是整個樣本空間。數(shù)據(jù)稀疏問題就更嚴重了,本身點擊樣本就很少,轉化就更少了,所以可以借鑒多任務學習的思路,引入輔助學習任務,擬合pCTR和pCTCVR(pCTCVR = pCTR * pCVR),如下圖所示:

f9222772-98d3-11eb-8b86-12bb97331649.png

對于pCTR來說,可將有點擊行為的曝光事件作為正樣本,沒有點擊行為的曝光事件作為負樣本

對于pCTCVR來說,可將同時有點擊行為和購買行為的曝光事件作為正樣本,其他作為負樣本

對于pCVR來說,只有曝光沒有點擊的樣本中的梯度也能回傳到main task的網(wǎng)絡中

另外這兩個子網(wǎng)絡的embedding層是共享的,由于CTR任務的訓練樣本量要遠超過CVR任務的訓練樣本量,從而能夠緩解訓練數(shù)據(jù)稀疏性問題。

DUPN:模型分為行為序列層、Embedding層、LSTM層、Attention層、下游多任務層(CTR、LTR、時尚達人關注預估、用戶購買力度量)。如下圖所示

f988fc86-98d3-11eb-8b86-12bb97331649.png

f9c070b2-98d3-11eb-8b86-12bb97331649.png

f9cefc54-98d3-11eb-8b86-12bb97331649.png

MMOE: 如下圖所示,模型(a)最常見,共享了底層網(wǎng)絡,上面分別接不同任務的全連接層。模型(b)認為不同的專家可以從相同的輸入中提取出不同的特征,由一個Gate(類似) attention結構,把專家提取出的特征篩選出各個task最相關的特征,最后分別接不同任務的全連接層。MMOE的思想就是對于不同任務,需要不同專家提取出的信息,因此每個任務都需要一個獨立的gate。

fa157c56-98d3-11eb-8b86-12bb97331649.png

PLE:即使通過MMoE這種方式減輕負遷移現(xiàn)象,蹺蹺板現(xiàn)象仍然是廣泛存在的(蹺蹺板現(xiàn)象指多任務之間相關性不強時,信息共享就會影響模型效果,會出現(xiàn)一個任務泛化性變強,另一個變?nèi)醯默F(xiàn)象)。PLE的本質是MMOE的改進版本,有些expert是任務專屬,有些expert是共享的,如下圖CGC架構,對于任務A而言,通過A的gate把A的expert和共享的expert進行融合,去學習A。

fa58e4dc-98d3-11eb-8b86-12bb97331649.png

最終PLE結構如下,融合了定制的expert和MMOE,堆疊多層CGC架構,如下所示:

fa8c8c92-98d3-11eb-8b86-12bb97331649.png

參考文獻

1. An overview of multi-task learning in deep neural networks. Retireved from https://arxiv.org/pdf/1706.05098.pdf

2. Long, M., & Wang, J. (2015)。 Learning Multiple Tasks with Deep Relationship Networks. arXiv Preprint arXiv:1506.02117. Retrieved from http://arxiv.org/abs/1506.02117

3. Lu, Y., Kumar, A., Zhai, S., Cheng, Y., Javidi, T., & Feris, R. (2016)。 Fully-adaptive Feature Sharing in Multi-Task Networks with Applications in Person Attribute Classification. Retrieved from http://arxiv.org/abs/1611.05377

4. Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016)。 Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. https://doi.org/10.1109/CVPR.2016.433

5. Hashimoto, K., Xiong, C., Tsuruoka, Y., & Socher, R. (2016)。 A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks. arXiv Preprint arXiv:1611.01587. Retrieved from http://arxiv.org/abs/1611.01587

6. Yang, Y., & Hospedales, T. (2017)。 Deep Multi-task Representation Learning: A Tensor Factorisation Approach. In ICLR 2017. https://doi.org/10.1002/joe.20070

7. Ruder, S., Bingel, J., Augenstein, I., & S?gaard, A. (2017)。 Sluice networks: Learning what to share between loosely related tasks. Retrieved from http://arxiv.org/abs/1705.08142

8. Entire Space Multi-Task Model: An Effective Approach forEstimating Post-Click Conversion Rate. Retrieved from: https://arxiv.org/pdf/1804.07931.pdf

9. Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks. Retrieved from: https://arxiv.org/pdf/1805.10727.pdf
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 多任務
    +關注

    關注

    0

    文章

    18

    瀏覽量

    9066
  • AUC
    AUC
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6662
  • 深度學習
    +關注

    關注

    73

    文章

    5503

    瀏覽量

    121170

原文標題:一文"看透"多任務學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發(fā)表于 10-28 14:05 ?215次閱讀
    Pytorch深度<b class='flag-5'>學習</b>訓練的<b class='flag-5'>方法</b>

    機器學習中的數(shù)據(jù)分割方法

    在機器學習中,數(shù)據(jù)分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數(shù)據(jù)分割的方法,包括常見的分割
    的頭像 發(fā)表于 07-10 16:10 ?1794次閱讀

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習和深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統(tǒng)監(jiān)測、金融預測、醫(yī)療診斷等多個領域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?921次閱讀

    深度學習中的無監(jiān)督學習方法綜述

    應用中往往難以實現(xiàn)。因此,無監(jiān)督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監(jiān)督學習方法,包括自編碼器、生成對抗網(wǎng)絡、聚類算法等,并分析它們的原理、應用場景以及優(yōu)
    的頭像 發(fā)表于 07-09 10:50 ?736次閱讀

    遷移學習的基本概念和實現(xiàn)方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個相關任務或領域的
    的頭像 發(fā)表于 07-04 17:30 ?1674次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數(shù)據(jù)中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習算法原理,包括線性回歸、邏輯回歸、支持向量機(SVM)、決策樹和K近鄰(KNN)算法,探
    的頭像 發(fā)表于 07-02 11:25 ?1045次閱讀

    esp32-c3工程中怎么創(chuàng)建多個freertos任務?

    ESP-IDF中給出的ESP32-C3的例程都只有一個任務。即void app_main() 而且沒看見這個app_main任務是在哪里被創(chuàng)建的??? 如果我想建一個ESP32-C3的多任務的工程該
    發(fā)表于 06-27 06:37

    鋰電池充放電測試方法詳解

    為了確保鋰電池在實際使用中的性能和安全性,一個重要的環(huán)節(jié)就是對電池進行充放電測試。這些測試能夠評估電池的容量、功率、穩(wěn)定性及其長期的可靠性。本文將詳解不同的鋰電池充放電測試方法,以及如何正確執(zhí)行這些測試程序。
    的頭像 發(fā)表于 06-13 09:21 ?3117次閱讀
    鋰電池充放電測試<b class='flag-5'>方法</b><b class='flag-5'>詳解</b>

    【大語言模型:原理與工程實踐】核心技術綜述

    的具體需求,這通常需要較少量的標注數(shù)據(jù)。 多任務學習和遷移學習: LLMs利用在預訓練中積累的知識,可以通過遷移學習在相關任務上快速適應
    發(fā)表于 05-05 10:56

    學習平板電腦主板定制_基于展銳T610/T618平臺解決方案

    學習平板電腦主板方案基于紫光展銳T610強芯真八核處理器,并采用先進的12納米工藝,為用戶提供了高速運轉、流暢無卡頓、秒開秒反應的學習體驗。不論是應對日常學習任務
    的頭像 發(fā)表于 04-18 19:58 ?488次閱讀
    <b class='flag-5'>學習</b>平板電腦主板定制_基于展銳T610/T618平臺解決方案

    手機信號屏蔽器:功能、原理及使用方法詳解

    深圳特信電子|手機信號屏蔽器:功能、原理及使用方法詳解
    的頭像 發(fā)表于 04-01 09:09 ?3115次閱讀

    EMI電磁干擾:原理、影響及解決方法詳解

    EMI電磁干擾:原理、影響及解決方法詳解?|深圳比創(chuàng)達電子
    的頭像 發(fā)表于 03-21 10:02 ?883次閱讀
    EMI電磁干擾:原理、影響及解決<b class='flag-5'>方法</b><b class='flag-5'>詳解</b>?

    verilog中函數(shù)和任務對比

    對比,方便學習理解。 比較 函數(shù) 任務 輸入 函數(shù)至少需要包含一個輸入,端口類型不能包含inout類型 任務可以沒有或者有多個輸入,且端口聲明可以為inout類型 輸出 函數(shù)無輸出 任務
    的頭像 發(fā)表于 02-12 18:43 ?892次閱讀

    基于多任務優(yōu)化和人工智能賦能態(tài)勢感知技術

    隨著作戰(zhàn)任務和系統(tǒng)的復雜性不斷增加,在正確的時間做出正確的作戰(zhàn)決策需要 (1) 實時態(tài)勢感知,以及 (2) 提供自動建議的決策支持系統(tǒng)。這兩項功能是作戰(zhàn)任務管理系統(tǒng) (MMS) 的核心。
    的頭像 發(fā)表于 01-18 15:22 ?655次閱讀

    請教:有SPC560B的多任務實時系統(tǒng)的例程嗎(freertos)

    請教:有SPC560B的多任務實時系統(tǒng)的例程嗎(freertos)
    發(fā)表于 01-15 17:04
    主站蜘蛛池模板: 欧美性猛交xxx嘿人猛交| 热re久久精品国产99热| 二区中文字幕| 全部在线播放免费毛片| 2021国内精品久久久久影院| 国产精品久线观看视频| 调教r18车肉高h男男| 免费看黄色毛片| 天天撸视频| 日本aaaa毛片在线看| 欧美色图网站| 日本高清视频色| 最新bt合集| 黄色aaa大片| 国产精品波多野结衣| 亚洲精品视频网| 操美女视频网站| semimi亚洲综合在线观看| 色婷婷综合网| 天天骑天天干| 女生扒开尿口让男生舔| 美女三级网站| 国产美女影院| 特一级黄色毛片| 五月天婷婷在线观看视频| 性生交酡| 黄色欧美视频| 欧美另类激情| 青草99| 久久99爱爱| 特级全黄大片| 天天看天天干| 亚洲网在线| 一本一本大道香蕉久在线精品| 亚洲视频在线播放| 黄色尤物| 69pao强力打造在线| 免费人成观看在线网| 国产美女视频爽爽爽| 日日噜噜夜夜狠狠tv视频免费| 天堂在线www在线资源|