女人书籍排行榜,怎样写网络小说,性爱有声小说在线收听

之前有一段時(shí)間做過(guò)雙塔的召回模型[1]，線上各個(gè)指標(biāo)有了不錯(cuò)的提升。目前雙塔模型也是被各大公司鐘愛(ài)的召回模型。對(duì)主流召回模型的分享整理在：總結(jié)下自己做過(guò)的深度召回模型

雙塔模型在訓(xùn)練時(shí)是對(duì)一個(gè)batch內(nèi)樣本訓(xùn)練。一個(gè)batch內(nèi)每個(gè)樣本 (user和item對(duì))為正樣本，該user與batch內(nèi)其它item為負(fù)樣本。這樣訓(xùn)練的方式可能有以下問(wèn)題：

負(fù)樣本的個(gè)數(shù)不足。訓(xùn)練時(shí)負(fù)樣本個(gè)數(shù)限制在了batch內(nèi)樣本數(shù)減1，而線上serving時(shí)需要在所有候選集中召回用戶感興趣的樣本。模型只能從當(dāng)前batch內(nèi)區(qū)分出batch內(nèi)正樣本，無(wú)法很好地從所有候選集中區(qū)分正樣本。

未點(diǎn)擊的item沒(méi)有做負(fù)樣本。由于batch內(nèi)的item都是被點(diǎn)擊過(guò)的，因此沒(méi)有被點(diǎn)擊item無(wú)法成為負(fù)樣本，在線上serving容易它們被召回出來(lái)。一種解決方法是之前沒(méi)被點(diǎn)擊過(guò)的item不導(dǎo)出到候選集中，然而這樣存在的問(wèn)題是召回的item很多是之前點(diǎn)擊的熱門item，而很多冷門的item沒(méi)有機(jī)會(huì)召回。

最近，有兩篇文章提出了雙塔模型擴(kuò)量負(fù)樣本的方法。這兩種方法我也曾嘗試過(guò)，線下線上指標(biāo)也有一定的提升。

一、Two Tower Model

再介紹其它方法之前，先回顧一下經(jīng)典的雙塔模型建模過(guò)程。

用表示雙塔模型計(jì)算的user 和item 的相似性：

是表示user塔，輸出user表示向量；是item，輸出item表示向量。最后相似性是兩個(gè)向量的余弦值。batch內(nèi)概率計(jì)算公式為：表示一個(gè)batch的意思。損失函數(shù)是交叉熵。

作者在計(jì)算user和item的相似度時(shí)，用了兩個(gè)優(yōu)化方法：

。可以擴(kuò)大相似度范圍，擴(kuò)大差距。

。是item 在隨機(jī)樣本中被采樣的概率，也就是被點(diǎn)擊的概率。

關(guān)于優(yōu)化2的解釋有很多。論文中說(shuō)熱門item出現(xiàn)在batch內(nèi)概率較大，因此會(huì)被大量做負(fù)樣本。另一種解釋是增加對(duì)冷門item的相似度。相比熱門item，冷門item更能反映用戶興趣。

圖1反映了雙塔模型的batch采樣過(guò)程。query也可以表示user。我們采樣一個(gè)batch的user和對(duì)應(yīng)正樣本的item，計(jì)算各自的embedding后，通過(guò)點(diǎn)乘得到logits（B*B）的矩陣。label矩陣是一個(gè)單位矩陣。logit矩陣與label矩陣的每對(duì)行向量一起求交叉熵。

圖1：雙塔模型batch采樣

二、Mixed Negative Samping(MNS)

MNS[2]與雙塔模型[1]出自谷歌團(tuán)隊(duì)的同一批作者。用一個(gè)batch數(shù)據(jù)訓(xùn)練時(shí)，MNS還會(huì)在所有的數(shù)據(jù)集中采樣出個(gè)item。這樣可以讓所有的item參與到訓(xùn)練中，一些曝光未點(diǎn)擊的item也會(huì)當(dāng)作負(fù)樣本。同時(shí)，雙塔模型中使用的等于訓(xùn)練樣本中的頻率加上所有數(shù)據(jù)集中的頻率分布。概率公式重新定義如下：

作者在這里只對(duì)負(fù)樣本的相似性減去了頻率的log值。

MNS的batch采樣方法見圖2。最終計(jì)算的logits和label矩陣是一個(gè)B*(B+B')維的。其實(shí)就是在圖1展示的基礎(chǔ)上再增加B'列。logits的最后B'列是user與B‘內(nèi)的item計(jì)算的相似性，label的最后B'列是全0矩陣。

相比于每個(gè)樣本都隨機(jī)采樣出一定量的負(fù)樣本，為每個(gè)batch都采樣出B‘個(gè)負(fù)樣本的不僅有先前雙塔模型的計(jì)算效率，也緩和負(fù)樣本不足的問(wèn)題，并且讓每個(gè)樣本均有機(jī)會(huì)做負(fù)樣本。

圖2：MNS的batch采樣

三、Cross Batch Negative Samping(CBNS)

CBNS[2]是清華大學(xué)和華為合作提出的方法。文中提到，雙塔模型的計(jì)算優(yōu)勢(shì)在于利用了batch內(nèi)的負(fù)樣本，減小的計(jì)算量。如果我們想擴(kuò)大batch內(nèi)樣本個(gè)數(shù)，加大負(fù)樣本個(gè)數(shù)，需要很多的內(nèi)存。因此，作者提出一個(gè)使用之前訓(xùn)練過(guò)的item作為負(fù)樣本的方法。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練達(dá)到一定輪數(shù)后，會(huì)對(duì)相同的樣本產(chǎn)生穩(wěn)定的向量。作者在論文中定義了這個(gè)想法。因此把之前訓(xùn)練過(guò)的item作為當(dāng)前訓(xùn)練的負(fù)樣本時(shí)，模型只需要把這些item的向量拿過(guò)來(lái)使用，不需要再輸出到神經(jīng)網(wǎng)絡(luò)中產(chǎn)生新的向量，畢竟這兩種向量的差距較小。

作者使用了FIFO（先進(jìn)先出）隊(duì)列，item塔輸出向量時(shí)，會(huì)放進(jìn)FIFO中。當(dāng)warm-up training達(dá)到一定的輪數(shù)后，訓(xùn)練模型時(shí)，會(huì)從FIFO拿出一批向量作為負(fù)樣本的向量。這樣做不僅減少了計(jì)算量，在擴(kuò)充負(fù)樣本的時(shí)候也減少了內(nèi)存的使用。計(jì)算公式與MNS差別不大：

也就是內(nèi)容一中的優(yōu)化2。B'在這里是從FIFO中取出的一批向量。

圖3展示了CBNS與只用batch內(nèi)負(fù)樣本的不同。CBNS維持了一個(gè)memory bank。在訓(xùn)練時(shí)，會(huì)從里面拿出一定量的向量。

然而，CBNS的負(fù)樣本只有點(diǎn)擊過(guò)的樣本，未點(diǎn)擊的樣本無(wú)法作為負(fù)樣本。

圖3：CBNS采樣方法

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4777

瀏覽量
100995
fifo

fifo

+關(guān)注

關(guān)注
3

文章
389

瀏覽量
43796

原文標(biāo)題：雙塔模型如何選擇負(fù)樣本？

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

重復(fù)項(xiàng)或使用編輯距離算法比較文本相似度。數(shù)據(jù)標(biāo)注：高質(zhì)量的數(shù)據(jù)標(biāo)注直接影響模型的性能。標(biāo)注過(guò)程應(yīng)遵循明確標(biāo)注規(guī)則、選擇合適的標(biāo)注工具、進(jìn)行多輪審核和質(zhì)量控制等原則。數(shù)據(jù)增強(qiáng)：提高模型泛化能力的有效

發(fā)表于 01-14 16:51

云端語(yǔ)言模型開發(fā)方法

云端語(yǔ)言模型的開發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過(guò)程，涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個(gè)環(huán)節(jié)。下面，AI部落小編為您分享云端語(yǔ)言模型的開發(fā)方法。

發(fā)表于 12-02 10:48 ?176次閱讀

RNN與LSTM模型的比較分析

RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）與LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）模型在深度學(xué)習(xí)領(lǐng)域都具有處理序列數(shù)據(jù)的能力，但它們?cè)诮Y(jié)構(gòu)、功能和應(yīng)用上存在顯著的差異。以下是對(duì)RNN與LSTM模型的比較分析：一、基本原理與結(jié)構(gòu)

發(fā)表于 11-15 10:05 ?726次閱讀

常見AI大模型的比較與選擇指南

在選擇AI大模型時(shí)，明確具體需求、了解模型的訓(xùn)練數(shù)據(jù)、計(jì)算資源要求和成本，并考慮模型的可解釋性和社區(qū)支持情況等因素至關(guān)重要。以下是對(duì)常見AI大模型的

發(fā)表于 10-23 15:36 ?1016次閱讀

AI大模型的性能優(yōu)化方法

AI大模型的性能優(yōu)化是一個(gè)復(fù)雜而關(guān)鍵的任務(wù)，涉及多個(gè)方面和策略。以下是一些主要的性能優(yōu)化方法：一、模型壓縮與優(yōu)化模型蒸餾（Model Distillation）原理：通過(guò)訓(xùn)練一個(gè)

發(fā)表于 10-23 15:01 ?894次閱讀

氣密性檢測(cè)：為什么在負(fù)壓測(cè)試中泄漏量是正值，什么時(shí)候出現(xiàn)負(fù)值

本文介紹了氣密性檢測(cè)的基本原理，解釋了為什么在正壓和負(fù)壓測(cè)試中泄漏量都顯示為正值，還揭示了差壓氣密性檢測(cè)結(jié)果出現(xiàn)負(fù)值的有趣現(xiàn)象。通視頻案例，幫助讀者輕松理解氣密性檢測(cè)中的各種情況，提高實(shí)際工作中解決問(wèn)題的能力。

發(fā)表于 08-22 16:59 ?628次閱讀

OPA564能否補(bǔ)償擴(kuò)寬增益帶寬積？

OPA564有無(wú)方法擴(kuò)寬增益帶寬積，若無(wú)，是否有能滿足2Mhz正弦偏置電流輸出能力的方法

發(fā)表于 07-30 07:16

BP神經(jīng)網(wǎng)絡(luò)樣本的獲取方法

的訓(xùn)練樣本是至關(guān)重要的。數(shù)據(jù)收集數(shù)據(jù)收集是構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型的第一步。根據(jù)研究領(lǐng)域和應(yīng)用場(chǎng)景的不同，數(shù)據(jù)來(lái)源可以分為以下幾種： 1.1 實(shí)驗(yàn)數(shù)據(jù)：通過(guò)實(shí)驗(yàn)或觀察獲得的數(shù)據(jù)，如生物實(shí)驗(yàn)、化學(xué)實(shí)驗(yàn)等。 1.2 傳感器數(shù)據(jù)：通過(guò)傳感器收集的數(shù)據(jù)，如溫度、濕度、壓力等。

發(fā)表于 07-11 10:50 ?657次閱讀

人臉識(shí)別模型訓(xùn)練失敗原因有哪些

： 1.1 數(shù)據(jù)量不足人臉識(shí)別模型需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練，以提高模型的泛化能力。如果數(shù)據(jù)量不足，模型可能無(wú)法學(xué)習(xí)到足夠的特征，導(dǎo)致訓(xùn)練失敗

發(fā)表于 07-04 09:17 ?695次閱讀

助聽器降噪神經(jīng)網(wǎng)絡(luò)模型

用提前停止。該模型以 32 的批量大小進(jìn)行訓(xùn)練，每個(gè)樣本的長(zhǎng)度為 15 秒。 Nvidia RTX 2080 TI 上一個(gè)訓(xùn)練周期的平均時(shí)間約為 21 分鐘。使用尺度敏感的負(fù) SNR [20] 作為

發(fā)表于 05-11 17:15

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

類任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù)，類似于人類的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語(yǔ)言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛躍，除非有精心

發(fā)表于 05-07 17:21

請(qǐng)問(wèn)tc297外擴(kuò)的emux模擬量通道可以配置成硬件觸發(fā)嗎？

現(xiàn)在遇到問(wèn)題把a(bǔ)dc模塊都配置成了定時(shí)觸發(fā)，emux也配置成定時(shí)觸發(fā)，外擴(kuò)的采集不到

發(fā)表于 02-20 07:00

淺析比較器出現(xiàn)負(fù)輸入電壓的原因、影響及其解決辦法

比較器是一種常見的電子元件，用于將兩個(gè)輸入電壓進(jìn)行比較，并輸出相應(yīng)的電平。在實(shí)際應(yīng)用中，有時(shí)會(huì)出現(xiàn)負(fù)輸入電壓的情況，這可能會(huì)對(duì)比較器的正常工作產(chǎn)生影響。

發(fā)表于 02-17 14:56 ?3838次閱讀

小紅書搜索團(tuán)隊(duì)研究新框架：負(fù)樣本在大模型蒸餾中的重要性

在思維鏈（CoT）提示的幫助下，大語(yǔ)言模型（LLMs）展現(xiàn)出強(qiáng)大的推理能力。然而，思維鏈已被證明是千億級(jí)參數(shù)模型才具有的涌現(xiàn)能力。

發(fā)表于 01-30 10:37 ?1095次閱讀

大模型Reward Model的trick應(yīng)用技巧

借助對(duì)比學(xué)習(xí)和元學(xué)習(xí)的方法。增加對(duì)比學(xué)習(xí)的loss，對(duì)比學(xué)習(xí)通過(guò)增強(qiáng)模型區(qū)分能力，來(lái)增強(qiáng)RM的對(duì)好壞的區(qū)分水平。元學(xué)習(xí)則使獎(jiǎng)勵(lì)模型能夠維持區(qū)分分布外樣本的細(xì)微差異，這種

發(fā)表于 01-25 09:31 ?1092次閱讀