在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MIND:高質量的新聞推薦數據集

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2021-01-07 14:42 ? 次閱讀

MIND簡介

個性化新聞推薦技術是諸多在線新聞網站和應用的關鍵技術,可以提升用戶的新聞閱讀體驗并減輕信息過載。目前,許多有關新聞推薦的研究是在私有數據集上開展的,而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。因此,微軟亞洲研究院聯合微軟新聞產品團隊在 ACL 2020上發布了一個大規模的英文新聞推薦數據集 MIcrosoft News Dataset (MIND[1]),并于2020年7月-9月在condalab平臺舉辦了MIND新聞推薦比賽。比賽吸引了來自加拿大、法國、韓國等全球各地的技術團隊,最終來自搜狗搜索的隊伍以AUC0.7131獲得比賽冠軍。我們也在賽后開源了比賽過程中的代碼[2]。

5d73b4fc-5036-11eb-8b86-12bb97331649.png

5dab183e-5036-11eb-8b86-12bb97331649.png

非常值得贊許的是賽后微軟繼續開放了MIND比賽系統允許提交測試結果并實時更新排行榜[3]。我們在近期提交了新的結果,相對比賽結果有了進一步提升,在截止到2021-01-04的榜單以AUC0.7187的成績排在第一位。

5e0da10c-5036-11eb-8b86-12bb97331649.png

希望有更多的同學能參與到MIND這個高質量的新聞推薦數據集評測,目前的榜單成績仍然有很大的提升空間。(個人覺得MIND真的是非常好的數據集,很奇怪并沒有引起特別大的業界關注,也許是因為比賽放到了codalab平臺而不是社區及分享更加完善的kaggle平臺)。

新聞推薦簡介

5e37d17a-5036-11eb-8b86-12bb97331649.png

這里新聞推薦主要指基于用戶的點擊歷史,預測用戶對未來展現的新聞點擊概率從而用于指導對于展現給用戶的召回新聞排序。新聞推薦是一個經典的推薦排序問題,主要面臨的困難包括新聞和用戶的有效建模,新聞及用戶冷啟動等等問題。

MIND數據分析及處理

MIND數據集是從六周內 Microsoft News 用戶的匿名化新聞點擊記錄中構建的,它包含16萬多條新聞條目,1500余萬次展示記錄,以及來自100萬匿名用戶的2400余萬次點擊行為。在 MIND 數據集中,每個新聞條目都具有豐富的文本信息,例如標題、摘要、正文、類別和實體。

5ec883aa-5036-11eb-8b86-12bb97331649.png

下面介紹MIND數據的特點及處理策略:

ID失效

MIND數據是來自于工業界真實的點擊數據但是和傳統的工業界實際的推薦系統使用的數據還是有較大的差異性,這種差異主要來自定位的不同,MIND更加強調推薦算法的泛化性,而實際工業界強調時效性實用性,因此工業界推薦系統最重要的特征往往是ID特征特別是docid特征,工業界的模型特別是ID對應的embedding基本也是實時快速更新的。

但對應MIND這個數據ID特征依然存在但不再是最重要的特征,甚至絕大部分的參賽隊伍沒有使用ID特征,這使得MIND數據更像是一個純NLP比賽數據。為什么?這主要來自于Dev和Test數據的差異。

Info Dev Test
新用戶 15.3% 22.1%
新文檔 32.3% 87.5%

MIND數據的訓練數據是5周的點擊日志,除去最后一天作為Dev數據,而Test數據是要對第6周數據做預測。

由于新聞的時效性非常強,所以顯然未來一周中的新文檔的占比可以預見是非常多的(87.5%)。

由于這樣的數據特點,因此主要依賴的ID的模型顯然是失效的,傳統的gbdt模型也不太適用這個數據。 這個數據的重點是如何能更好的對新聞內容建模。

這樣的Dev和Test的劃分,也帶來了本地Dev驗證和提交Test驗證的不一致性,為了消除這個不一致性,如果在訓練中使用了docid特征需要注意在驗證的時候Mask掉92%(保持新文檔比例和Test一致)或者干脆Mask掉全部的docid,當做UNK處理。

在比賽前期這個策略非常有效基本確保了驗證和測試的一致性,但是比賽后期模型分數相對較高的情況下還是發現Dev和Test有較大不一致性,比如引入刷次(impression)內部的特征在Dev數據提升非常大但是在Test無效,加大正樣本權重從1.0到4.0也能大幅度提升Dev AUC但是同樣在Test無效。

因此更進一步的也許自行重新劃分Train/Dev為4周數據訓練第5周整周做Dev可以更好確保的Dev和Test的一致性,由于時間原因筆者沒有做這個實驗有興趣的同學可以測試一下。

樣本不均衡的處理

MIND數據的另外一個重要特點是類別不均衡,正樣本率很低只有4%。

處理類別不均衡的樣本有很多策略,比如

正樣本加權

正樣本過采樣

負樣本降采樣

等等,這里考慮到訓練樣本量非常大,模型計算較為耗時,綜合多種因素和實驗結果我們采用了無放回的負樣本隨機采樣,將原始訓練數據的負樣本劃分成5個部分,配合全部的正樣本構造了5個不同訓練數據集,Dataset0-4,每個數據集的正樣本率約為16.5%。

這樣我們的單模型訓練只基于Dataset0實驗,這極大的降低了模型訓練時間(不使用bert只需要45-60分鐘完成單模型訓練并在不使用Dev數據的前提下達到Test AUC 0.7074,而使用bert-tiny的模型可以在大約7-8個小時完成訓練),同時提交結果顯示相對使用全量訓練數據,降采樣數據訓練的單模型的效果并沒有明顯下降。

而當需要最佳榜單成績的時候我們采用了同樣策略針對Train+Dev數據整體構造5個數據集,并且并行訓練5個基于不同Dataset的模型,將結果平均作為最終結果。實驗表明訓練數據多樣性帶來的模型集成收益非常明顯。

單模型與集成模型的定義

單模型:基于Dataset0(1/5負樣本+全部正樣本,不包含Dev數據)訓練的單一模型。

集成模型:基于Dataset0-4(包含Dev數據)5份數據訓練的5個模型結果的平均。

模型結構

我們采用了經典的推薦系統中的精排模型架構,而沒有采用官方基線模型提供的各種基于雙塔向量匹配的模型結構(NRMS,NAML等等)。

我們認為雙塔結構更加適合召回階段,因為新聞和用戶分別建模向量雖然快速靈活但是由于其分開獨立建模缺乏前期交互,整體效果一般是不如完整的所有特征統一交互建模的方式。

我們使用的結構基本和Facebook提出的DLRM模型結構一致,與DLRM只用到特征交叉不同,考慮到特征組不是特別多,這里同時采用特征交叉和特征合并兩種組合方式,保證MLP層的輸入有足夠的信息量(當然也可以考慮引入更多組合信息如max pooling,attention pooling,self attention pooling等等)。

5f092f86-5036-11eb-8b86-12bb97331649.png

在對應對具體文本建模的時候,我們采用了基于glove預訓練的詞向量,文本分詞采用了bert bpe切詞器。

我們針對ID表示的向量采用了簡單的自注意力(attention pooling)方式建模,而針對復雜文本如正文,標題,摘要采用了DIN attention pooling的方式,以便更好的動態建模當前新聞和用戶閱讀歷史新聞的相關性。

單特征重要性分析

5f660940-5036-11eb-8b86-12bb97331649.png

通過驗證集合來看文本正文是最重要的信息,有點出乎意料是不是,最重要的特征是正文而不是標題。

整體特征重要性順序依次是:正文,標題,摘要,類別,實體,ID。

ID特征的重要性

在比賽中我們和其他隊伍的一個重要區別是,其他隊伍大都基本基于官方基線做的改進,并沒有使用ID特征,而我們在訓練中使用了ID特征。

在驗證中Mask掉了ID特征來保證驗證和Test的一致性,在Test的時候我們保留在訓練中出現的docid而mask掉了其他docid。

盡管Test的有效docid比例非常之少,但是我們得到一個很重要的結論,就是訓練數據中的docid可以幫助更好的進行整體建模,ID特征和文本特征的交互能夠幫助學習得到更好的文本表示。

Single Model Test AUC
No ID 0.6988
With ID 0.7074

Bert Encoder

顯然單純的詞向量模型在NLP相關的競賽中已經是屬于上古時代了,現在是屬于bert的時代,但是MIND這個數據由于需要對用戶歷史新聞的正文,標題,摘要建模,假設取top50的歷史這個計算量是非常巨大的,因此大的bert模型并不是非常實用。

在比賽過程中我沒有采用bert作為encoder。賽后我嘗試使用小的bert模型比如bert-tiny,在經過MIND語料continue train 語言模型之后,作為文本encoder。

實驗結果似乎相對詞向量優勢也并不是很明顯(后面的模型迭代部分會貼出實驗結果),當然這個原因可能是多方面包括參數的調整(特別的比如bert模型finetune對于學習率異常敏感)以及bert-tiny本身的表示能力不夠強大,再或者和推薦數據特點有關等等需要更進一步的分析。

我相信這部分顯然還可以做的更好,也許目前榜單第二第三的UNBERT和UniUM在這方面做的更好(猜測使用UniLM)期待后續有機會交流以找到更好的bert打開方式。

盡管沒有取得特別驚艷的單模型效果,bert模型依然帶來了很好的模型多樣性,這幫助我們取得了目前MIND dataset的STOA,當然這也說明MIND榜單的提升空間顯然還是很大的。

迭代過程

比賽中

Model Dev AUC Test AUC
uid,docid,history_docids 0.514 0.5272
+cat,entity 0.6829 0.6763
+title,abstract 0.6987 0.6979
adjust parameters 0.7004 0.7036
+body 0.7042 0.707
+dev data NA 0.7104
ensemble(5 datasets) NA 0.7131

賽后

賽后的集成模型提升主要是來自于模型差異性的引入,從比賽過程中的單一算法模型變成了多算法模型(引入了bert)。

那么單模型提升在哪里呢?

單模型方面并沒有做大的調整,主要提升點是兩個細節:

Multi-Sample Dropout降低過擬合提升模型泛化能力。

不只是MIND數據,Multi-Sample Dropout是一種通用且時空代價極小的方法,在很多場景下用其取代最終的Linear層都能帶來效果提升,感興趣可以在kaggle搜索相關的分享。

5fa76002-5036-11eb-8b86-12bb97331649.png

Batch size 調整, 從2048調小到256。

batch size減小會使得訓練速度變慢一點,并且val loss會變高,但是Test指標會提升,可能原因是更多的梯度迭代次數,特別是當前采用1輪訓練方式,另外小的batch size對應單一模型不同Dataset可能有更高的單模型差異性從而有利于模型集成。

以下只列出Test的指標,注意集成模型base復現的起點0.7124比比賽中最終的模型0.7131低一些,可能源自tf1,2的切換和一些隨機性因素,暫未查明。

單模型

Model AUC MRR NDCG@5 NDCG@10
base復現 0.7074 0.3554 0.3895 0.4460
+multi-sample dropout 0.7086 0.3557 0.3900 0.4464
+smaller batch size 0.7089 0.3574 0.3916 0.4478
bert-tiny 0.707 0.3563 0.3902 0.4464
base add bert-tiny 0.7085 0.3577 0.3920 0.4482

集成模型

Model AUC MRR NDCG@5 NDCG@10
base復現 0.7124 0.3598 0.3949 0.4512
+multi-sample dropout 0.7139 0.3614 0.3967 0.4529
+smaller batch size 0.7145 0.3625 0.3976 0.4537
bert-tiny 0.7145 0.3622 0.3973 0.4533
base add bert-tiny 0.7158 0.3630 0.3983 0.4544
avg of above 3 0.7187 0.3659 0.4018 0.4576

注:base add bert-tiny表示模型的文本表示在同一個模型同時保留glove詞向量和bert-tiny encode作為特征。其實采用單一模型結構多數據集/多fold的模型平均某種意義上也是單模型,從上面的結果來看,base add bert-tiny應該是相對base表現更好的模型結構。

TODO

更好的文本表示,如UniLM等,這也是MIND數據集合的根本意義所在,期待找到效果更好效率更高的文本表示方法。

更好的用戶歷史閱讀序列表示,當前沒有引入位置信息,沒有考慮用戶歷史順序,沒有做復雜的歷史建模。

更好的模型泛化,從實驗來看test集合的提升很大概率來自模型泛化效果的提升,更好的集成方法(當前只是簡單平均),包括單模型自身集成方法如SWA等等應該可以進一步提升效果。

更多輪次迭代?由于使用了ID特征容易過擬合,當前只采用了1輪訓練的方。

降采樣負樣本是否是最好的方案?顯然值得更多的嘗試,至少在單模型效果使用全量負樣本做一定正樣本過采樣但是同時注意避免過擬合應該理論上能得到更好的單一模型,畢竟當前的單模型都只用了部分訓練數據。

作者簡介

程惠閣,搜狗搜索專家研究員。

曾任百度貼吧和信息流反作弊,圖片搜索部圖文相關性技術負責人。

數據挖掘,深度學習愛好者,曾多次單人參賽并獲得AI競賽冠亞軍:

NAIC 2020 全國人工智能大賽 AI+遙感影像語義分割 第二名。

ACL 2020 MIND 新聞推薦 第一名。

AI Challenger 2018 美團細粒度情感分類 第一名。

AI Challenger 2017 Image Caption 第二名。

目前是Kaggle Expert,個人夢想是退休后成為Kaggle Grandmaster。

參考資料

[1]

MIND: https://msnews.github.io/

[2]

代碼: https://github.com/chenghuige/mind

[3]

排行榜: https://competitions.codalab.org/competitions/24122#results

責任編輯:xj

原文標題:MIND新聞推薦冠軍分享細節揭秘

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31359

    瀏覽量

    269762
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24767
  • 大數據
    +關注

    關注

    64

    文章

    8903

    瀏覽量

    137610
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121375

原文標題:MIND新聞推薦冠軍分享細節揭秘

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電動工具EMC測試整改:邁向高質量生產的必經之路

    深圳南柯電子|電動工具EMC測試整改:邁向高質量生產的必經之路
    的頭像 發表于 01-14 14:29 ?92次閱讀
    電動工具EMC測試整改:邁向<b class='flag-5'>高質量</b>生產的必經之路

    立洋光電助力城市照明高質量發展

    為促進湖南省照明行業向高端化、智能化、綠色化產業升級,湖南省城鄉建設行業協會照明分會在長沙隆重舉行了2023年湖南省照明行業年會暨“創新驅動、以新質生產力賦能城市照明高質量發展”技術交流活動。
    的頭像 發表于 10-22 10:49 ?357次閱讀

    中興通訊引領5G-A高質量發展新紀元

    中國5G商用5周年之際,以“智聯未來 無限可能”為主題的2024移動通信高質量發展論壇在北京舉辦。本屆論壇系統呈現總結我國移動通信,特別是5G產業自身高質量發展和引領數字經濟高質量發展的成果和經驗,展望5G-A、6G協同創新發展
    的頭像 發表于 10-15 10:32 ?548次閱讀

    揭秘高質量點焊機的五大標準:打造焊接性能的基石

    在現代工業生產領域,點焊機的重要性不言而喻。高質量的點焊機如同一位技藝精湛的工匠,確保了不同材料間的牢固連接,其出色的焊接性能、穩定的工作狀態和用戶友好的操作界面,已經獲得了業界的高度評價。那么
    的頭像 發表于 09-12 15:26 ?543次閱讀
    揭秘<b class='flag-5'>高質量</b>點焊機的五大標準:打造焊接性能的基石

    科技創新!國產自主三坐標測量機推動產業高質量發展

    科技創新推動高質量發展,精密幾何測量儀器是核心。中圖三坐標測量機采用創新技術,提升測量精度和穩定性,擁有自主可控軟件,助力產業升級,實現高質量發展。
    的頭像 發表于 07-12 11:32 ?1368次閱讀
    科技創新!國產自主三坐標測量機推動產業<b class='flag-5'>高質量</b>發展

    TVP5146M2高質量單芯片數字視頻解碼器數據

    電子發燒友網站提供《TVP5146M2高質量單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-09 11:35 ?0次下載
    TVP5146M2<b class='flag-5'>高質量</b>單芯片數字視頻解碼器<b class='flag-5'>數據</b>表

    TVP5147高質量、單芯片數字視頻解碼器數據

    電子發燒友網站提供《TVP5147高質量、單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-09 11:34 ?0次下載
    TVP5147<b class='flag-5'>高質量</b>、單芯片數字視頻解碼器<b class='flag-5'>數據</b>表

    TVP5147M1高質量、單芯片數字視頻解碼器數據

    電子發燒友網站提供《TVP5147M1高質量、單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-09 11:25 ?1次下載
    TVP5147M1<b class='flag-5'>高質量</b>、單芯片數字視頻解碼器<b class='flag-5'>數據</b>表

    TVP5146高質量、單芯片數字視頻解碼器數據

    電子發燒友網站提供《TVP5146高質量、單芯片數字視頻解碼器數據表.pdf》資料免費下載
    發表于 07-04 10:00 ?0次下載
    TVP5146<b class='flag-5'>高質量</b>、單芯片數字視頻解碼器<b class='flag-5'>數據</b>表

    維信諾高質量發展創新大會暨全球合作伙伴大會召開

    4月18日,維信諾高質量發展創新大會暨全球合作伙伴大會在合肥舉行。大會以“聚智同行,質勝未來”為主題,合肥市相關領導、專家學者及數百家維信諾核心供應伙伴齊聚一堂,共謀新興顯示產業高質量發展之路。
    的頭像 發表于 04-19 09:26 ?573次閱讀

    云知聲入選中國信通院《數字醫療產品及服務高質量發展全景圖》

    3月15日,中國人工智能產業發展聯盟醫學人工智能委員會2024年第一次工作會在??谡匍_,會上發布首批《數字醫療產品及服務高質量發展全景圖》與《數字醫療產品及服務高質量發展案例》,憑借在智慧醫療領域
    的頭像 發表于 03-15 19:23 ?2185次閱讀

    北斗芯片產業的高質量發展之路

    高質量發展是全面建設社會主義現代化國家的首要任務”,二十大報告中對高質量發展有著明確的論斷和要求。在2023年的全國兩會中還指出,加快實現高水平科技自立自強,是推動高質量發展的必由之路。中國衛星
    的頭像 發表于 03-15 14:03 ?417次閱讀
    北斗芯片產業的<b class='flag-5'>高質量</b>發展之路

    富捷電子被授予“高質量發展突出貢獻獎”

    在近日舉行的馬鞍山新區高質量發展表彰大會上,富捷電子在推動地區經濟發展中的卓越貢獻,被授予“高質量發展突出貢獻獎”。
    的頭像 發表于 02-23 15:16 ?704次閱讀

    穩中創新?產業升級?高質量發展 | 聯誠發高質量發展工作推進會議召開

    2月21日下午,聯誠發LCF以“穩中創新?產業升級?高質量發展”為主題的企業高質量發展工作推進大會在聯誠發深圳總部隆重召開。擂起奮進催征的戰鼓,爭分奪秒搶抓寶貴春光,明確企業重點目標任務,全力以赴
    的頭像 發表于 02-22 11:33 ?490次閱讀
    穩中創新?產業升級?<b class='flag-5'>高質量</b>發展 | 聯誠發<b class='flag-5'>高質量</b>發展工作推進會議召開

    捷易科技出席廣東省韶關市高質量發展大會

    ABSTRACT摘要2月19日,2024年韶關市高質量發展招商大會在韶關舉行,來自政府、科技、企業各界專家代表共同探討韶關高質量發展。捷易科技總經理韓運恒出席大會。JAEALOT2024年2月19日
    的頭像 發表于 02-22 08:25 ?514次閱讀
    捷易科技出席廣東省韶關市<b class='flag-5'>高質量</b>發展大會
    主站蜘蛛池模板: 色婷婷5月精品久久久久| 三级网在线| 亚洲成人网页| 亚洲精品资源在线| 全是肉的高h短篇列车| 国产一区在线mmai| 亚洲国产色图| 色多多网站在线观看| 欧美另类videos| 狠狠涩| www.五月婷| 在线干| 午夜激情福利| 日本tv欧美tv天堂| 丁香综合在线| 亚洲 欧美 视频| 亚洲爱爱网站| 人人爽人人爱| 国产精品资源站| 天天色亚洲| 4399一级成人毛片| 免费视频性| 四虎最新地址| 六月婷婷网| 男女爱爱视频免费看| 黄色一级片播放| 又大又粗进出白浆直流动态图| 日本黄色片视频| 高清欧美色欧美综合网站| 扒开末成年粉嫩的小缝强文| 四虎影视免费| 国产三a级日本三级日产三级| 五月天综合在线| 日本videosgratis教师69| 玖玖在线国产精品| 色多多视频在线观看免费大全| 韩国三级中文| 热99re久久精品2久久久| 中文字幕国产一区| 婷婷在线综合| 国产私拍视频|