在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)算法那家強(qiáng) 因子分解機(jī)(FM算法)工業(yè)落地能力最強(qiáng)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-12-31 00:01 ? 次閱讀

文 | 石塔西

源 | 夕小瑤的賣萌屋

盡管BERT為代表的預(yù)訓(xùn)練模型大肆流行,但是身處工業(yè)界才會知道它落地有多難,尤其是QPS動輒幾百的在線推薦、搜索系統(tǒng),哪怕在大廠也很難在線上系統(tǒng)見到它們。

今天就想反其道而行之,談?wù)劰I(yè)界搜索、推薦、廣告這類核心場景中落地能力最強(qiáng)的算法(之一):因子分解機(jī)(FM)。我不敢說它是最簡單的(FM的確很簡單),但是作為一個推薦算法調(diào)參工程師,掌握FM一定是性價比最高的。我推崇FM算法的原因,有以下三點(diǎn):

功能齊全

眾所周知,推薦算法有三個應(yīng)用領(lǐng)域:召回、粗排、精排。推薦算法千千萬,但是有的算法只能用于召回,有的算法只能用于排序。像FM這樣實(shí)現(xiàn)三個領(lǐng)域全覆蓋的多面手,目前為止,孤陋寡聞的我尚不知道有第二個。但是需要強(qiáng)調(diào)的是,我們不能只訓(xùn)練一個FM排序模型 ,然后直接拿這個排序模型用于召回。盡管都是基于FM算法,但是FM召回與排序,有以下不同:

使用的特征不同

FM召回,由于未來要依賴Faiss進(jìn)行線上檢索,所以不能使用user與doc的交叉特征。只有如此,我們才能獨(dú)立計算user embedding與doc embedding

FM排序,則沒有這方面的限制,可以使用user與doc的交叉特征。是的,你沒看錯。因?yàn)镕M所實(shí)現(xiàn)自動二階交叉,僅能代表“共現(xiàn)”。但是user與doc之間還有其他形式的交叉,比如user tag與doc tag之間的重合度,喂入這樣的交叉,對于排序性能提升,仍然有很大幫助。

使用的樣本不同

訓(xùn)練FM做排序時,必須使用“曝光未點(diǎn)擊”這樣的“真負(fù)”樣本。

訓(xùn)練FM做召回時,起碼不能只使用“曝光未點(diǎn)擊”做負(fù)樣本。大部分的負(fù)樣本必須通過隨機(jī)采樣得到。個中原因見我的文章《負(fù)樣本為王:評Facebook的向量化召回算法》。

使用的Loss不同

FM排序時,由于負(fù)樣本是真實(shí)的,可以采用CTR預(yù)估那樣的point-wise loss

FM召回時,由于負(fù)樣本是隨機(jī)采樣得到的,存在一定的噪聲,最好采用BPR, hinge這樣的pair-wise loss。

性能優(yōu)異

推薦系統(tǒng)的兩大永恒主題,“記憶”與“擴(kuò)展”,F(xiàn)M也能實(shí)現(xiàn)全覆蓋。

FM存在一階項,實(shí)際就是LR,能夠“記憶”高頻、常見模式

FM存在feature embedding。如我在《無中生有:論推薦算法中的Embedding思想》據(jù)說,Embedding是提升推薦算法“擴(kuò)展性”的法寶。FM通過feature embedding,能夠自動挖掘低頻、長尾模式。在這一點(diǎn)上,基于embedding的二階交叉,并不比DNN的高階交叉,遜色多少。

便于上線

現(xiàn)在深度學(xué)習(xí)是推薦領(lǐng)域的寵兒,LR/FM/GBDT這樣的傳統(tǒng)機(jī)器學(xué)習(xí)算法,不招人待見。

DNN雖然性能優(yōu)異,但是它有一個致命缺點(diǎn),就是上線困難。訓(xùn)練的時候,各位調(diào)參俠,把各種酷炫的結(jié)構(gòu),什么attention, transformer, capsule,能加上的都給它加上,看著離線指標(biāo)一路上漲,心里和臉上都樂開了花,卻全然無視旁邊的后端工程師恨得咬緊了牙根。模型越復(fù)雜,離線和線上指標(biāo)未必就更好,但是線上的時間開銷肯定會增加,輕則影響算法與后端的同事關(guān)系(打工人何苦為難打工人),重則你那離線指標(biāo)完美的模型壓根沒有上線的機(jī)會。雖說,目前已經(jīng)有TF Serving這樣的線上serving框架,但是它也不是開箱即用的,也需要一系列的性能調(diào)優(yōu),才能滿足線上的實(shí)時性要求。

所以,如果你身處一個小團(tuán)隊,后端工程人員的技術(shù)能力不強(qiáng),DNN的線上實(shí)時預(yù)測,就會成為一個難題,這個時候,F(xiàn)M這樣的傳統(tǒng)機(jī)器學(xué)習(xí)算法,就凸顯出其優(yōu)勢。

FM排序,雖然理論上需要所有特征進(jìn)行二階交叉,但是通過公式化簡,可以在 O(n)的時間復(fù)雜度下完成。n是樣本中非零的特征數(shù)目,由于推薦系統(tǒng)中的特征非常稀疏,所以預(yù)測速度是非常快的。

召回,由于候選集巨大,對于實(shí)時性的要求更高。很多基于DNN的召回算法,由于無法滿足線上實(shí)時生成user embedding的需求,只能退而離線生成user embedding ,對于用戶實(shí)時興趣的捕捉大打折扣。FM召回,這時就顯現(xiàn)其巨大的優(yōu)勢。事先把doc embedding計算好,存入Faiss建立索引,user embedding只需要把一系列的feature embedding相加就可以得到,再去faiss中進(jìn)行top-k近鄰搜索。FM召回,可以實(shí)現(xiàn)基于用戶最新的實(shí)時興趣,從千萬量級候選doc中完成實(shí)時召回。

總結(jié)與參考

由于以上優(yōu)點(diǎn),我心目中,將FM視為推薦、搜索領(lǐng)域的"瑞士軍刀"。風(fēng)頭上雖然不及DNN那么搶眼,但是論在推薦系統(tǒng)中發(fā)揮的作用,絲毫不比DNN遜色,有時還能更勝一籌。FM有如此眾多的優(yōu)點(diǎn),優(yōu)秀的調(diào)參俠+打工人,還等什么,還不趕快學(xué)起來。想迅速掌握FM,我推薦如下參考文獻(xiàn):

掌握FM原理,推薦讀美團(tuán)的博客《深入FFM原理與實(shí)踐》。FFM的部分可以忽略,在我看來,F(xiàn)FM更像是為了Kaggle專門訓(xùn)練的比賽型選手,損失了FM的很多優(yōu)點(diǎn)。這就好比,奧運(yùn)會上的射擊冠軍,未必能夠勝任當(dāng)狙擊手一樣。

FM用于召回,推薦讀《推薦系統(tǒng)召回四模型之:全能的FM模型》。注意,如我所述,F(xiàn)M雖然萬能,但是FM排序與FM召回,在特征、樣本、Loss都存在不同,不可能訓(xùn)練一個FM排序就能直接拿來做召回。這一點(diǎn),《全能FM》一文沒有提到,需要讀者特別注意。

如果想親手實(shí)踐,可以嘗試alphaFM。該項目只不過是作者八小時之外的課外作品,卻被很多公司拿來投入線上實(shí)際生產(chǎn)環(huán)境,足見該項目性能之優(yōu)異和作者功力之深厚,令人佩服。強(qiáng)烈建議不滿足只當(dāng)“調(diào)參俠”的同學(xué),通讀一遍alphaFM的源代碼,一定收獲滿滿。

[1] https://zhuanlan.zhihu.com/p/165064102

[2] https://zhuanlan.zhihu.com/p/320196402

[3] https://link.zhihu.com/?target=https%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

[4] https://zhuanlan.zhihu.com/p/58160982

[5] https://link.zhihu.com/?target=https%3A//github.com/CastellanZhang/alphaFM

原文標(biāo)題:談?wù)劰I(yè)界落地能力最強(qiáng)的機(jī)器學(xué)習(xí)算法

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4615

    瀏覽量

    93025
  • FM
    FM
    +關(guān)注

    關(guān)注

    1

    文章

    182

    瀏覽量

    59206
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8423

    瀏覽量

    132751
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    60

    瀏覽量

    9058

原文標(biāo)題:談?wù)劰I(yè)界落地能力最強(qiáng)的機(jī)器學(xué)習(xí)算法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook,學(xué)習(xí) AI,機(jī)器學(xué)習(xí)算法

    前言 由于本人最近在學(xué)習(xí)一些機(jī)器算法,AI 算法的知識,需要搭建一個學(xué)習(xí)環(huán)境,所以就在最近購買的華為云 Flexus X 實(shí)例上安裝了
    的頭像 發(fā)表于 01-02 13:43 ?90次閱讀
    華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook,<b class='flag-5'>學(xué)習(xí)</b> AI,<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>算法</b>

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?232次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-15 09:19 ?499次閱讀

    AIGC算法解析及其發(fā)展趨勢

    、AIGC算法解析 核心基礎(chǔ) 人工智能算法 :AIGC技術(shù)的基礎(chǔ)和靈魂,如深度學(xué)習(xí)、機(jī)器學(xué)習(xí)算法
    的頭像 發(fā)表于 10-25 15:35 ?465次閱讀

    LIBS結(jié)合機(jī)器學(xué)習(xí)算法的江西名優(yōu)春茶采收期鑒別

    以廬山云霧茶和狗牯腦茶的明前茶、雨前茶為對象,研究激光誘導(dǎo)擊穿光譜結(jié)合機(jī)器學(xué)習(xí)的茶葉鑒別方法。將茶葉茶,水?dāng)?shù)據(jù)融合可有效鑒別春茶采收期,且數(shù)據(jù)融合后表現(xiàn)出更好的穩(wěn)定性和魯棒性,LIBS結(jié)合機(jī)器
    的頭像 發(fā)表于 10-22 18:05 ?264次閱讀
    LIBS結(jié)合<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>算法</b>的江西名優(yōu)春茶采收期鑒別

    深度學(xué)習(xí)算法在嵌入式平臺上的部署

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)算法在各個領(lǐng)域的應(yīng)用日益廣泛。然而,將深度學(xué)習(xí)算法部署到資源受限的嵌入式平臺上,仍然是一個具有挑戰(zhàn)性的任務(wù)。本文將從嵌入式平臺的特點(diǎn)、深度
    的頭像 發(fā)表于 07-15 10:03 ?1478次閱讀

    深度學(xué)習(xí)工業(yè)機(jī)器視覺檢測中的應(yīng)用

    識別等任務(wù)。傳統(tǒng)的機(jī)器視覺檢測方法通常依賴于手工設(shè)計的特征和固定的算法,難以應(yīng)對復(fù)雜多變的工業(yè)環(huán)境。而深度學(xué)習(xí)的引入,為工業(yè)
    的頭像 發(fā)表于 07-08 10:40 ?1098次閱讀

    深度學(xué)習(xí)的基本原理與核心算法

    隨著大數(shù)據(jù)時代的到來,傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理復(fù)雜模式上的局限性日益凸顯。深度學(xué)習(xí)(Deep Learning)作為一種新興的人工智能技術(shù),以其強(qiáng)大的非線性表達(dá)能力和自
    的頭像 發(fā)表于 07-04 11:44 ?2179次閱讀

    神經(jīng)網(wǎng)絡(luò)反向傳播算法的優(yōu)缺點(diǎn)有哪些

    神經(jīng)網(wǎng)絡(luò)反向傳播算法(Backpropagation Algorithm)是一種廣泛應(yīng)用于深度學(xué)習(xí)機(jī)器學(xué)習(xí)領(lǐng)域的優(yōu)化算法,用于訓(xùn)練多層前饋
    的頭像 發(fā)表于 07-03 11:24 ?1062次閱讀

    神經(jīng)網(wǎng)絡(luò)算法的優(yōu)缺點(diǎn)有哪些

    的優(yōu)點(diǎn) 自學(xué)習(xí)能力:神經(jīng)網(wǎng)絡(luò)算法具有強(qiáng)大的自學(xué)習(xí)能力,能夠從大量數(shù)據(jù)中自動提取特征,無需人工干預(yù)。這使得神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-03 09:47 ?1456次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個重要分支,其目標(biāo)是通過讓計算機(jī)自動從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無需進(jìn)行明確的編程。本文將深入解讀幾種常見的機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-02 11:25 ?1117次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集,在統(tǒng)計學(xué)習(xí)
    的頭像 發(fā)表于 06-27 08:27 ?1677次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典<b class='flag-5'>算法</b>與應(yīng)用

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    應(yīng)用,將理論基礎(chǔ)與實(shí)踐案例相結(jié)合,作者憑借扎實(shí)的數(shù)學(xué)功底及其在企業(yè)界的豐富實(shí)踐經(jīng)驗(yàn),將機(jī)器學(xué)習(xí)與時間序列分析巧妙融合在書中。 全書書共分為8章,系統(tǒng)介紹時間序列的基礎(chǔ)知識、常用預(yù)測方法、異常檢測算法
    發(fā)表于 06-25 15:00

    運(yùn)動控制算法有哪些

    。 應(yīng)用 :廣泛應(yīng)用于工業(yè)自動化、機(jī)器人控制、航空航天等領(lǐng)域。 模糊控制算法 (Fuzzy Logic Control) 原理 :模
    的頭像 發(fā)表于 06-13 09:17 ?2646次閱讀

    AI算法的本質(zhì)是模擬人類智能,讓機(jī)器實(shí)現(xiàn)智能化

    視覺等領(lǐng)域。 ? AI 算法的核心是實(shí)現(xiàn)智能化的決策和行為 ? AI算法的本質(zhì)在于模擬人類智能的能力,讓計算機(jī)能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行模擬和模仿,從而達(dá)到智能化的目的。具體來說,AI算法可以
    的頭像 發(fā)表于 02-07 00:07 ?5834次閱讀
    主站蜘蛛池模板: 午夜视频高清在线aaa| 日本污全彩肉肉无遮挡彩色| 久久婷婷是五月综合色狠狠| 欧美啪啪小视频| 久久久噜噜噜久久中文字幕色伊伊| 久久新地址| 国产美女主播在线| www.亚洲视频.com| 亚洲精品网站日本xxxxxxx| 午夜毛片网站| 男人资源| 午夜cao| 亚洲成a人一区二区三区| 好爽好深太大了再快一点| 伊人伊成久久人综合网777| 午夜老司机福利| 色女人久久| 毛片免费看网站| 丁香花在线视频| 一级特黄a视频| 久久www免费人成看片色多多| 欧美社区| 中文字幕一区二区三区乱码aⅴ| 午夜欧美成人久久久久久| 欧美色视频在线| 给个网站可以在线观看你懂的| 婷婷爱五月| 最近国语视频免费观看在线播放| 特黄特a级特别特级特毛片 | 99pao在线视频精品免费| 天天拍天天干| 欧美三级在线| 在线电影亚洲| 欧美综合影院| gav久久| 国产未成女年一区二区| 亚洲一区二区三区在线视频| 网友偷自拍原创区| 黄色网一级片| 片黄免费| 饥渴少妇videos|