在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于無監督學習和圖學習的大數據挖掘

1ujk_Tencent_TE ? 來源:騰訊技術工程官方號 ? 2019-12-08 10:57 ? 次閱讀

在IJCAI-2019期間舉辦的騰訊TAIC晚宴和Booth Talk中,來自TEG數據平臺的張長旺向大家介紹了自己所在用戶畫像組的前沿科研結果:

1. 非監督短文本層級分類;

2. 大規模復雜網絡挖掘和圖表示學習。

其所在團隊積極與學術界科研合作,并希望有夢想、愛學習的實力派加入,共同研究和應用半監督/弱監督/無監督學習、小樣本學習、大規模復雜網絡挖掘和圖表示學習等做大數據挖掘。

科研結果1:非監督短文本層級分類

首先以下用戶和AI算法的對話,顯示了現實業務中使用現有監督文本分類算法的遇到的一些困境和問題:

算法需要海量訓練數據

算法模型用戶不可控

算法不能很好的適應類目的變化

我們分析現有監督算法的主要問題在于沒有真正的知識, 沒有對于文本和類目的真正的理解。現有算法只是在學習大量人工標注訓練樣本里面的模式。為了解決這個問題,我們啟動了一個叫做: 基于關鍵詞知識與類目知識的非監督短文本層級分類的探索項目。

項目的主要思想是引入關鍵詞和類目兩種知識來幫助算法理解關鍵詞和類目的含義。然后基于知識進行文本的分類和標注。關鍵詞知識主要來自3個方面包括:關鍵詞的網絡搜索上下文、關鍵詞的百科上下文、關鍵詞到類目詞的后驗關聯概率。我們提出類目語義表達式來支持用戶表達豐富的類目本身和類目之間的關系的語義。這兩樣知識的引入幫助算法擺脫了對于大量人工標注訓練樣本的依賴,同時算法分類的過程做到了人工可理解,人工可控制。

pIYBAF3sZiCAD0NcAAGXC_cWyhc920.jpg

基于關鍵詞和類目知識的無監督文本層級分類算法流程如下:

對文本提取關鍵詞

根據關鍵詞知識計算關鍵詞到類目詞的相關度詞向量

根據關鍵詞的相關度詞向量計算文本的相關度詞向量

根據文本的相關度詞向量和類目語義表達式計算文本與每個類目的匹配度

每個文本被分為與之匹配度最高的類目

pIYBAF3sZiCAc4I1AAFF-PRpshM196.jpg

通過在兩個文本分類數據集合上面的實驗,我們發現,我們自研的算法能夠在沒有訓練樣本的情況下提供質量可用的結果,其一級類目準確率能夠達到80%,并且明顯高于現有其他非監督算法。

pIYBAF3sZiCAPnfmAAGamuFnOPU555.jpg

科研結果2:大規模復雜網絡挖掘和圖表示學習

Network Representation Learning 或者說 Graph Embedding 是復雜網絡最新的研究課題,意在通過神經網絡模型,把圖結構向量化,為節點分類、鏈路預測、社團發現等挖掘任務提供方便有效的特征,以克服圖結構難以應用到機器學習算法中的難題。

本次我們在IJCAI發表的學術論文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”創新性提出結合邊屬性的圖卷積神經網絡模型,彌補了現有算法無法利用邊屬性為節點分類提供更多信息的不足。

pIYBAF3sZiCAf4jWAADyry40GSc801.jpg

現有的圖學習算法,絕大部分都忽視了邊上信息的價值。在這里我們提出了一種可以把邊的信息傳輸到節點表示結果的改進的GCN算法。算法主要思路是在做GCN里面周邊鄰居節點向量的聚合計算之前,把每個節點連接邊的Embedding向量拼接在對應鄰居節點的Embedding向量后面。實驗顯示,我們的算法對于金融分類問題具有更優的結果。我們團隊正在進一步優化模型,正在研發利用時序的GCN模型,以可以利用邊的時序交互信息,從而更好的表示動態網絡。

pIYBAF3sZiGAcZ4XAAGfvV5Mbk0987.jpg

pIYBAF3sZiGAVDl_AAEtrHfo7Kk905.jpg

同時,數平數據中心研發的Angel參數服務器平臺,針對關系型數據結構,在計算性能上對圖算法做了優化,極大加速了PageRank等算法的計算速度,比如計算用戶中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下圖顯示對于大型圖的計算,我們Angle框架的速度具有明顯的優勢。

pIYBAF3sZiGANHYUAAEl0_C2wBk224.jpg

pIYBAF3sZiGAXUHmAAEim4GgRxY047.jpg

我們所在團隊積極與學術界科研合作,并希望有夢想、愛學習的實力派加入,共同研究和應用半監督/弱監督/無監督學習、小樣本學習、復雜網絡挖掘和圖表示學習做大數據挖掘。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4612

    瀏覽量

    92901
  • 大數據
    +關注

    關注

    64

    文章

    8889

    瀏覽量

    137446

原文標題:IJCAI2019報告:基于無監督學習和圖學習的大數據挖掘

文章出處:【微信號:Tencent_TEG,微信公眾號:騰訊技術工程官方號】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?257次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    基于大數據與深度學習的穿戴式運動心率算法

    性能的關鍵手段。然而,在復雜多變的運動環境中,準確測量心率數據對于傳統算法而言具有較大的技術瓶頂。本文將探討如何運用大數據和深度學習技術來開發創新的穿戴式運動心率算
    的頭像 發表于 09-10 08:03 ?268次閱讀
    基于<b class='flag-5'>大數據</b>與深度<b class='flag-5'>學習</b>的穿戴式運動心率算法

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習是一種重要的訓練策略。監督學習旨在從未標記的
    的頭像 發表于 07-09 18:06 ?801次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?736次閱讀

    機器學習數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據
    的頭像 發表于 07-02 11:22 ?631次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的監督圖像識別類腦計算系統

    STDP 監督學習算法,可運用于圖像的 監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模類腦計算平臺,搭載 PYNN,NEST 等
    發表于 06-25 18:35

    機器學習入門:基本概念介紹

    機器學習(GraphMachineLearning,簡稱GraphML)是機器學習的一個分支,專注于利用圖形結構的數據。在圖形結構中,數據
    的頭像 發表于 05-16 08:27 ?508次閱讀
    <b class='flag-5'>圖</b>機器<b class='flag-5'>學習</b>入門:基本概念介紹

    監督深度學習實現單次非相干全息3D成像

    論文信息 背景引入 數字全息術因其能夠從單一視點對3D場景進行成像而備受關注。與直接成像相比,數字全息是一種間接的多步驟成像過程,包括光學記錄全息和數值計算重建,為包括深度學習在內的計算成像方法
    的頭像 發表于 05-13 17:38 ?450次閱讀
    <b class='flag-5'>無</b><b class='flag-5'>監督</b>深度<b class='flag-5'>學習</b>實現單次非相干全息3D成像

    機器學習基礎知識全攻略

    監督學習通常是利用帶有專家標注的標簽的訓練數據學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X),訓練數據通常是(n×x,y)的形式,其中n代表訓練樣本的大小,x和y分
    發表于 02-25 13:53 ?244次閱讀
    機器<b class='flag-5'>學習</b>基礎知識全攻略

    Meta發布新型監督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監督視頻預測模型,名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來進行學習,提供了一種全新的視頻處理方法。
    的頭像 發表于 02-19 11:19 ?1022次閱讀

    數據挖掘的應用領域,并舉例說明

    數據挖掘(Data Mining)是一種從大量數據中提取出有意義的信息和模式的技術。它結合了數據庫、統計學、機器學習和人工智能等領域的理論和
    的頭像 發表于 02-03 14:19 ?3114次閱讀

    描繪未知:數據缺乏場景的缺陷檢測方案

    Neuro-T 視覺平臺 克服了數據缺乏狀況的困難,通過零代碼設置 GAN模型 和 監督學習模型 ,輕松實現缺陷圖像的標注、繪制和導出。 工業應用中存在較多的缺陷檢測需求。針對缺陷檢測需求,常見的解決方案有兩種: 基于目標正
    的頭像 發表于 01-25 10:46 ?574次閱讀
    描繪未知:<b class='flag-5'>數據</b>缺乏場景的缺陷檢測方案

    2024年AI領域將會有哪些新突破呢?

    傳統的機器學習需要大量的標記數據進行訓練,但自監督學習可以通過監督的方式從大規模未標記的數據
    的頭像 發表于 01-24 09:58 ?2013次閱讀
    主站蜘蛛池模板: 日本精品三级| 国产精品美女在线| 最近高清免费观看视频大全| 国产午夜三区视频在线| 国产一区二区在线视频播放| 欧美爱爱网址| 天天操天天干天天玩| 午夜影音| 欧美精品综合一区二区三区| 天天综合网在线| 日本一区二区在线不卡| 欧美在线一区二区三区| 天堂网www在线| aaaaa国产毛片| 国精视频一区二区视频| 操人网站| 神马电影天堂网| 午夜一级毛片看看| 日本一级高清不卡视频在线| 男人边吃奶边爱边做视频日韩| 视频一本大道香蕉久在线播放 | 免费毛片软件| 看片午夜| 天天摸日日舔| 夜夜偷影视| 美女扒开内裤无遮挡禁18| 久久夜色tv网站免费影院| 九九福利| 色屋在线| 日日操免费视频| 亚洲特级毛片| 亚洲操图| 抽搐一进一出gif免费男男| 国产精品人成在线播放新网站| 男人视频网| 狼狼色丁香久久女婷婷综合| 国产v69| 日本韩国三级视频| 日韩欧美伦理| 婷婷sese| 日日草天天干|