在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Feedly推薦系統(tǒng)背后使用的機(jī)器學(xué)習(xí)技術(shù)

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-25 10:34 ? 次閱讀

編者按:Feedly官方博客介紹了Feedly推薦系統(tǒng)背后使用的機(jī)器學(xué)習(xí)技術(shù)。

web的最大優(yōu)勢之一是其開放性和分布式本質(zhì)。這也是一大挑戰(zhàn):數(shù)百萬站點(diǎn),數(shù)千項(xiàng)主題,人們?nèi)绾螢g覽內(nèi)容并發(fā)現(xiàn)新的可信賴信息源?

Feedly對這一挑戰(zhàn)的解決方案是使用數(shù)據(jù)科學(xué)組織所有這些信息源,并幫助人們?yōu)g覽主題。

本文介紹了[Feedly新的發(fā)現(xiàn)體驗(yàn)]背后的一些技術(shù),以及我從這一項(xiàng)目中學(xué)習(xí)到的經(jīng)驗(yàn)。

從用戶生成數(shù)據(jù)中學(xué)習(xí)主題

根據(jù)用戶加入新站點(diǎn)或博客時(shí)所屬的分類(數(shù)據(jù)經(jīng)過匿名化處理),可以自動(dòng)創(chuàng)建新的英語主題分類。

所以,如果你是在“tech”(技術(shù))下加入The Verge和Engadget的45000人之一,那么你幫助創(chuàng)建了“tech”主題。

不過,這樣的主題列表仍然存在一些問題,主要是重復(fù)主題和“垃圾主題”。

想要理解我是如何訓(xùn)練模型識別主題的,可以想像一個(gè)矩陣或者表格,其中有關(guān)于主題和信息源的數(shù)據(jù)。

你注意到了上表第六行的“My favorites”(我的最愛)主題了沒有?這是一個(gè)極好的垃圾主題的例子,因?yàn)樗痪哂忻枋鲂浴D憧赡芤沧⒁獾搅恕皌ech”和“techonolgy”這一對重復(fù)主題。如果我們將矩陣擴(kuò)展至10000+主題和100000+信息源,我們會(huì)看到很多這樣的垃圾主題和重復(fù)主題。

所以我們?nèi)绾螖[脫這些垃圾主題和重復(fù)主題呢?這正是數(shù)據(jù)清洗的價(jià)值所在。

在上表中,每行有一個(gè)數(shù)字?jǐn)?shù)組,也稱為向量。所有數(shù)字同構(gòu)的行意味著垃圾主題,而特定站點(diǎn)在行中顯示為峰值的是好主題。

一圖勝千言:

我們可以通過測量相應(yīng)圖形的尖峰來檢測垃圾主題。從向量性質(zhì)的角度來說,我們可以,比方說,測量最大數(shù)字和非零值數(shù)字的比值。

類似地,下面的圖形顯示了重復(fù)主題:

我們同樣根據(jù)向量的性質(zhì)檢測這些重復(fù)主題。在我們的例子中,“Tech”向量的分量[50000, 30000, 5, 2]和“Technology”的[12000, 7500, 2, 0]在歸一化(將絕對數(shù)字轉(zhuǎn)換為百分比)后非常相似。我使用JS散度得出兩個(gè)向量的相似度。

一旦偵測出了相似向量,我們可以在系統(tǒng)中安全地合并兩者,并將搜索“technology”的用戶重定向至“tech”。

感謝使用Feedly的英語讀者的巨大社區(qū),我們得以將所有數(shù)據(jù)轉(zhuǎn)換為一個(gè)整潔、去重的包含超過2500良好主題的列表。

我們很高興地報(bào)告,我們的分類足夠深入,包含“真菌學(xué)”這樣的主題!

鏈接的強(qiáng)度與同屬兩個(gè)主題的信息源數(shù)量成正比

主題樹:創(chuàng)建層次結(jié)構(gòu)

既然我們的信息源已經(jīng)有了豐富的主題標(biāo)簽,下一個(gè)挑戰(zhàn)是引入連接相關(guān)主題的更好的組織系統(tǒng)。

有些主題是通用的(“tech”),而另一些則要專門一些(“iPad”)。“iPad”屬于“Apple”的子主題,“Apple”又是“Tech”的子主題,像這樣的主題層次結(jié)構(gòu)的內(nèi)部表示,有助于計(jì)算推薦。

我們使用模式匹配創(chuàng)建這樣的層次結(jié)構(gòu)。下圖顯示了三個(gè)主題(左側(cè))和與這些主題相關(guān)的信息源(右側(cè))的連接。線越粗,將信息源置于這一主題下的用戶就越多。

“Apple”連接“tech”主題信息源的一個(gè)子集,所以“Apple”是“tech”的子主題

上面的模式也確認(rèn)了人們以大致相同的方式使用“tech”和“technology”。“technology”的線要細(xì)一點(diǎn),因?yàn)槿藗冚^少使用這一術(shù)語。不過這兩個(gè)主題是重復(fù)的。同時(shí),“Apple”看起來是“tech”的子主題:它連接了更少的信息源,而且它的連接同時(shí)也和“tech”相關(guān)。

基于這些模式,我們可以構(gòu)建所有主題和子主題的樹形結(jié)構(gòu)。

現(xiàn)在,如果你訪問Feedly的Discover(發(fā)現(xiàn))頁面,你會(huì)找到一個(gè)特色主題列表。點(diǎn)擊任意主題即可開始瀏覽。相關(guān)主題有助于你進(jìn)一步深入層次結(jié)構(gòu)。

排列每個(gè)主題的推薦信息源

創(chuàng)建主題并組織為層次結(jié)構(gòu)后,我們?nèi)匀恍枰獩Q定推薦哪些信息源,以什么順序推薦。我們想要根據(jù)以下三個(gè)標(biāo)準(zhǔn)進(jìn)行優(yōu)化:

相關(guān)性 —— 用戶添加信息源至該主題與其他主題的比例

關(guān)注數(shù) —— 多少用戶連接了這一信息源

粘度 —— 質(zhì)量和關(guān)注的代理

前兩個(gè)標(biāo)準(zhǔn)很是直截了當(dāng)。人們期望看到和他們?yōu)g覽的主題相關(guān)的流行網(wǎng)站,同時(shí)常常需要折衷這兩個(gè)測度。

第三個(gè)標(biāo)準(zhǔn)更加主觀。它應(yīng)該反映網(wǎng)站的質(zhì)量,獨(dú)立于閱讀該站點(diǎn)的用戶絕對數(shù)量。事實(shí)上,我們相信,一些小眾站點(diǎn)可能讀者較少,但內(nèi)容更好。

“信息源之戰(zhàn)”試驗(yàn)

為了計(jì)算粘度評分,我們在Feedly社區(qū)中運(yùn)行了一項(xiàng)試驗(yàn)。我們選擇了一些和“tech”主題相關(guān)的信息源,并讓用戶投票更喜歡哪些信息源。

我們在一周內(nèi)收集了25000張票,生成了這些站點(diǎn)的排名。我們尋找和用戶喜歡程度最相關(guān)的特征。

例如,在下表中,我們展示了信息源得分和閱讀該信息源的平均時(shí)間之間的關(guān)系(“read_time”,閱讀時(shí)間,相關(guān)性大致等于0.45)。相關(guān)性是正的,這意味著評分越高,人們花在該信息源上的時(shí)間大概就越長。這里例子中的其他特征同樣顯示了正相關(guān)性,因?yàn)樗鼈兌际呛眯畔⒃吹闹笜?biāo)。我們的方法讓我們得以選出和投票結(jié)果最相關(guān)的特征。接著我們就可以加權(quán)組合這些特征,以稍微提升最好的那些信息源的排名。

感謝所有為“信息源之戰(zhàn)”試驗(yàn)投票的人。在Discover頁面瀏覽特色主題,或者搜索你最喜歡的主題的時(shí)候,都用到了這次試驗(yàn)的結(jié)果。

生成“你可能也喜歡”信息源和更多“相關(guān)主題”

相關(guān)主題不僅包括上面提到的子主題(取自層次結(jié)構(gòu)),還包括基于item2vec協(xié)同過濾得到的主題。

我們同樣基于item2vec技術(shù),根據(jù)你已經(jīng)關(guān)注的信息源,推薦“你可能也喜歡”(You Might Also Like)的信息源。

結(jié)語

十分感謝Feedly社區(qū)為發(fā)現(xiàn)項(xiàng)目所做的直接和間接貢獻(xiàn)。祝探索愉快!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Feedly推薦系統(tǒng)背后的數(shù)據(jù)科學(xué)

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于機(jī)器學(xué)習(xí)的應(yīng)用系統(tǒng)指紋識別技術(shù)研究

    摘要: 在信息安全測試領(lǐng)域,基于機(jī)器學(xué)習(xí)的應(yīng)用系統(tǒng)深度指紋識別技術(shù)對應(yīng)用系統(tǒng)進(jìn)行漏洞檢測時(shí),可快速獲取應(yīng)用
    的頭像 發(fā)表于 11-03 11:50 ?1247次閱讀
    基于<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用<b class='flag-5'>系統(tǒng)</b>指紋識別<b class='flag-5'>技術(shù)</b>研究

    學(xué)習(xí)鴻蒙背后的價(jià)值?星河版開放如何學(xué)習(xí)

    鴻蒙原生內(nèi)核。 實(shí)現(xiàn)了AI框架、大模型、設(shè)計(jì)系統(tǒng)、編程框架、編程語言、編譯器等全棧自研,有核心技術(shù)、全棧能力、底座和生態(tài),是真正的操作系統(tǒng),而非安卓套皮。關(guān)鍵是有了鴻蒙星河版本也就意味著國內(nèi)市場有了
    發(fā)表于 02-22 20:55

    如何系統(tǒng)性地學(xué)習(xí)工業(yè)機(jī)器技術(shù)

    `如何系統(tǒng)性地學(xué)習(xí)工業(yè)機(jī)器技術(shù)?對于一個(gè)還沒入門的想學(xué)機(jī)器人的小白而言,想快速見到成效的的話,找一所對自己胃口的機(jī)器人培訓(xùn)機(jī)構(gòu)是很關(guān)鍵的,
    發(fā)表于 03-06 12:56

    【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》

    創(chuàng)建能夠最好地捕捉數(shù)據(jù)預(yù)測能力的精確模型。3.將機(jī)器學(xué)習(xí)模型集成到企業(yè)系統(tǒng)、集群和云中,并且將模型輸出到實(shí)時(shí)嵌入式硬件。聽說,最近有一個(gè)深圳地區(qū)線下學(xué)習(xí)和交流的
    發(fā)表于 06-01 15:49

    射頻頻譜+機(jī)器學(xué)習(xí)=無線電技術(shù)新浪潮

    人工智能的發(fā)展浪潮風(fēng)靡一時(shí)。隨著在數(shù)字化書寫、口語詞句、圖像、視頻流以及其他數(shù)字化內(nèi)容方面的訓(xùn)練,機(jī)器學(xué)習(xí)已成為語音識別、自動(dòng)駕駛汽車和其他以前僅能想象的能力的基礎(chǔ)。據(jù)DARPA微系統(tǒng)技術(shù)
    發(fā)表于 09-02 09:04

    基于深度學(xué)習(xí)技術(shù)的智能機(jī)器

    圖像分析軟件。其中硬件負(fù)責(zé)獲取特定條件下的理想圖像,軟件負(fù)責(zé)獲取圖像中的有用信息。基于機(jī)器學(xué)習(xí)的模式識別系統(tǒng)三、深度學(xué)習(xí)在圖像處理中的應(yīng)用圖像處理
    發(fā)表于 05-31 09:36

    介紹機(jī)器學(xué)習(xí)的基礎(chǔ)內(nèi)容

    參考右邊的幫助文檔文章目錄嵌入式系統(tǒng)之硬件總復(fù)習(xí)前言一、pandas是什么?二、使用步驟1.引入庫2.讀入數(shù)據(jù)總結(jié)前言提示:這里可以添加本文要記錄的大概內(nèi)容:例如:隨著人工智能的不斷發(fā)展,機(jī)器學(xué)習(xí)這門
    發(fā)表于 12-16 06:27

    機(jī)器技術(shù)機(jī)器學(xué)習(xí)

    機(jī)器技術(shù)機(jī)器學(xué)習(xí)正成為嵌入式系統(tǒng)硬件和軟件供應(yīng)商的下一個(gè)重大事件。嵌入式系統(tǒng)可以通過網(wǎng)絡(luò)連接
    發(fā)表于 12-20 06:03

    什么是TinyML?微型機(jī)器學(xué)習(xí)

    影響范圍,并在這一過程中開啟一個(gè)應(yīng)用的新時(shí)代,我們必須找到方法,在更小、更資源受限的設(shè)備上促進(jìn)機(jī)器學(xué)習(xí)的推理。這種追求導(dǎo)致了微型機(jī)器學(xué)習(xí)或 TinyML (TinyML 基金會(huì)的商標(biāo)名
    發(fā)表于 04-12 10:20

    什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

    本文旨在為硬件和嵌入式工程師提供機(jī)器學(xué)習(xí)(ML)的背景,它是什么,它是如何工作的,它為什么重要,以及 TinyML 是如何適應(yīng)的機(jī)器學(xué)習(xí)是一個(gè)始終存在并經(jīng)常被誤解的
    發(fā)表于 06-21 11:06

    周志華演講:很多AI應(yīng)用背后關(guān)鍵支撐就是機(jī)器學(xué)習(xí)技術(shù)

    6月1日上午,2018中新人工智能高峰論壇在南京舉行。會(huì)上,南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系主任、人工智能學(xué)院院長、歐洲科學(xué)院外籍院士周志華發(fā)表了演講,闡述了他對于機(jī)器學(xué)習(xí)前沿思考。周志華表示,機(jī)器
    發(fā)表于 06-04 13:13 ?1557次閱讀

    電氣系統(tǒng)為什么要去采用機(jī)器學(xué)習(xí)技術(shù)

    機(jī)器學(xué)習(xí)技術(shù)在企業(yè)電氣系統(tǒng)中的工作和維護(hù)中發(fā)揮重要作用,人們需要了解采用機(jī)器學(xué)習(xí)的益處。
    發(fā)表于 12-18 08:56 ?1384次閱讀

    企業(yè)電氣系統(tǒng)為什么采用機(jī)器學(xué)習(xí)技術(shù)

    機(jī)器學(xué)習(xí)技術(shù)在企業(yè)電氣系統(tǒng)中的工作和維護(hù)中發(fā)揮重要作用,人們需要了解采用機(jī)器學(xué)習(xí)的益處。
    發(fā)表于 04-26 17:59 ?868次閱讀

    機(jī)器學(xué)習(xí)可以分為哪幾類?機(jī)器學(xué)習(xí)技術(shù)有哪些?

    機(jī)器學(xué)習(xí)可以分為哪幾類?機(jī)器學(xué)習(xí)技術(shù)有哪些 機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 08-17 16:11 ?5724次閱讀

    機(jī)器學(xué)習(xí)技術(shù)是什么?機(jī)器學(xué)習(xí)技術(shù)在新型電力系統(tǒng)安全穩(wěn)定中的應(yīng)用

    機(jī)器學(xué)習(xí)技術(shù)是什么?機(jī)器學(xué)習(xí)技術(shù)在新型電力系統(tǒng)安全穩(wěn)
    的頭像 發(fā)表于 08-17 16:30 ?1130次閱讀
    主站蜘蛛池模板: 影音先锋午夜资源网站| 亚洲系列中文字幕一区二区| 国产亚洲欧美一区二区| 亚洲欧美经典| 国产精品久久免费观看| 亚洲国产精品综合久久久| 婷婷久久综合| 日韩色网站| 女人被男人免费播放网站| 久久久精品免费视频| αv天堂| 天天操夜夜夜| 澳门久久| 欧美丝袜一区| 小说老卫陈红张敏陈法蓉| 日本国产高清色www视频在线| 久草视频这里只有精品| www.色网| 欧美成人免费大片888| 视色4se在线视频播放| 国产又大又黄又粗又爽| 奇米影视亚洲狠狠色777不卡| 午夜视频网址| 亚洲第九页| 免费无遮挡很爽很污很黄| 欧美一区二区三区综合色视频| 萝l在线精品社区资源| www成人在线观看| 免费国内精品久久久久影院| 免费视频网站在线看视频| 在线观看免费视频网站色| 日韩精品一区二区三区免费视频| 就去色综合| 天天拍夜夜添久久精品免费 | 亚洲aa在线| 欧美三级日韩三级| bt天堂资源| 成人激情视频网| 黄视频在线免费看| 人人澡人| 一级毛片免费不卡在线视频|