如何使用改進(jìn)后的K-Means進(jìn)行網(wǎng)絡(luò)自媒體空間數(shù)據(jù)挖掘概述
資料介紹
在手機(jī)、平板電腦等電子媒介的人均持有率大于一的今天,網(wǎng)絡(luò)自媒體的傳播達(dá)到了前所未有的巔峰。本文通過基于Hadoop平臺(tái)的mahout數(shù)據(jù)挖掘框架,選用經(jīng)過Canopy算法優(yōu)化后的K-means聚類分析算法,對(duì)數(shù)據(jù)進(jìn)行聚類分析,對(duì)內(nèi)涵眾多信息的網(wǎng)絡(luò)自媒體推文進(jìn)行數(shù)據(jù)挖掘,以發(fā)現(xiàn)微博數(shù)據(jù)中蘊(yùn)含的與當(dāng)下社會(huì)和生活相關(guān)的熱點(diǎn)詞,后通過ArcGIS,對(duì)文本類簇進(jìn)行核密度分析,再做漁網(wǎng)柵格化分析,使離散的類簇樣本具備鄰接性,能在可視化中直觀地看到類簇主題的主要分布情況,以研究人們?nèi)粘I钪械牧?xí)慣、了解單一個(gè)人的喜好,以及對(duì)某個(gè)社會(huì)事件的評(píng)價(jià)等日常生活中隱含著關(guān)于社會(huì)和生活相關(guān)的信息。
在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的今天,網(wǎng)絡(luò)自媒體在近些年得到了爆炸式的增長(zhǎng),它以病毒傳播的形式快速地滲透到了各行各業(yè)中,給予了所有人展示自我和了解他人的途徑[1]。新浪微博作為國(guó)內(nèi)大型網(wǎng)絡(luò)自媒體平臺(tái)之一,它具有龐大的用戶基礎(chǔ),以及由這基數(shù)龐大的用戶群體所產(chǎn)生的與個(gè)人生活或社會(huì)現(xiàn)象等與各行各業(yè)相關(guān)的大量信息;隨著Web2.0 時(shí)代的發(fā)展成熟,微博除了基于常規(guī)數(shù)據(jù)的數(shù)據(jù)挖掘以外,還有大量的包含有經(jīng)緯度位置屬性的數(shù)據(jù);這些空間位置數(shù)據(jù)可以很好地將我們的信息挖掘結(jié)果通過各大地圖的前端API 很直觀地展示出來,讓我們能很好地發(fā)現(xiàn)各種個(gè)人生活或社會(huì)現(xiàn)象等與各行各業(yè)、個(gè)人相關(guān)的話題或者感興趣的商品等事物的空間分布規(guī)律等的空間信息,因此基于微博的數(shù)據(jù)挖掘研究是十分有價(jià)值的科研方向。
空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(SDMKD, Spatial Data Mining and Knowledge Discovery)是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的分支學(xué)科,它通過對(duì)空間數(shù)據(jù)集進(jìn)行一系列的處理,最終得到空間特征規(guī)則、空間聚類規(guī)則以及空間分布規(guī)律等能夠直觀展現(xiàn)空間實(shí)體的信息。最早開始關(guān)注、了解空間數(shù)據(jù)挖掘這一領(lǐng)域的人,是李德仁院士,他曾經(jīng)在二十世紀(jì)末期召開的國(guó)際地理信息系統(tǒng)學(xué)術(shù)會(huì)議上,由他首次提出空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)理論,且研究并提出了空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的理論框架。在現(xiàn)存的空間數(shù)據(jù)庫(kù)里蘊(yùn)含著巨量的信息,其中包括山高、河寬等可以使用地理信息系統(tǒng)的查詢工具發(fā)現(xiàn)的淺層信息;但除了淺層信息以外還有很多深層次的,如空間分類規(guī)則、空間偏差等信息則難以利用地理信息系統(tǒng)的查詢方法來獲取,只能通過運(yùn)算或者挖掘等手段才能夠發(fā)現(xiàn)這些信息。
由于云計(jì)算的迅速崛起,為我們?cè)诮鉀Q機(jī)器學(xué)習(xí)中的聚類問題時(shí)面臨的復(fù)雜、大量的迭代計(jì)算提供了出色的解決方案;其中在眾多的分布式計(jì)算框架中,開源框架Hadoop 以其穩(wěn)定的性能和廉價(jià)的成本被眾多企業(yè)和科研機(jī)構(gòu)所青睞,與傳統(tǒng)并行框架相比,它具有高效、高可用、易部署等特點(diǎn);apache 組織在該平臺(tái)基礎(chǔ)上開發(fā)了一個(gè)針對(duì)機(jī)器學(xué)習(xí)算法的計(jì)算框架——mahout;本文將以使用mahout 加上Hadoop組成的平臺(tái)為基礎(chǔ):Hadoop 生態(tài)中的HDFS 為數(shù)據(jù)存儲(chǔ)系統(tǒng);Hadoop 生態(tài)中的MapReduce 為分布式計(jì)算框架;然后選用Canopy 算法優(yōu)化后的K-means 聚類分析算法,利用搭載在Hadoop 集群上的Mahout數(shù)據(jù)挖掘框架來實(shí)現(xiàn)并行的聚類算法操作,最后,使用可視化分析的手段,將帶有主題的類簇展示在地圖上,用這種更直觀的方式來分析這些微博數(shù)據(jù)所蘊(yùn)含的信息,以研究網(wǎng)絡(luò)輿論中隱含著關(guān)于社會(huì)和生活中相關(guān)的信息,為社會(huì)的和諧、穩(wěn)定的發(fā)展提供支持。
- 基于Oracle-Spatial空間數(shù)據(jù)共享系統(tǒng)設(shè)計(jì)
- 如何使用數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)空間數(shù)據(jù)共享系統(tǒng)的設(shè)計(jì) 13次下載
- 海量空間數(shù)據(jù)庫(kù)應(yīng)該如何進(jìn)行實(shí)施策略 4次下載
- 如何使用K-Means聚類算法改進(jìn)的特征加權(quán)算法詳細(xì)資料概述 10次下載
- 如何使用多維網(wǎng)格空間進(jìn)行改進(jìn)K-means聚類算法資料概述 1次下載
- 什么是空間數(shù)據(jù)庫(kù)?有什么特點(diǎn)?如何進(jìn)行空間數(shù)據(jù)庫(kù)的設(shè)計(jì)? 21次下載
- 基于ORDB的空間數(shù)據(jù)庫(kù)的研究 0次下載
- GML空間數(shù)據(jù)壓縮技術(shù)研究 0次下載
- 論空間數(shù)據(jù)處理與空間數(shù)據(jù)挖掘 0次下載
- 改進(jìn)的k-means聚類算法在供電企業(yè)CRM中的應(yīng)用
- 基于Agent的分布式空間數(shù)據(jù)挖掘系統(tǒng)
- 基于MapObjcts的空間數(shù)據(jù)歷史管理研究
- 空間數(shù)據(jù)插件技術(shù)研究
- 基于改進(jìn)演化算法的空間數(shù)據(jù)聚類方法
- 面向網(wǎng)絡(luò)的海量影像空間數(shù)據(jù)在線分發(fā)技術(shù)
- 深入理解 Sora 的技術(shù)原理 1721次閱讀
- GIS可處理非地理空間數(shù)據(jù)嗎 388次閱讀
- 賦能現(xiàn)代時(shí)空數(shù)據(jù):PIE-Engine Server全面支持STAC時(shí)空資產(chǎn)目錄規(guī)范 1448次閱讀
- 基于距離的聚類算法K-means的設(shè)計(jì)實(shí)現(xiàn) 2088次閱讀
- 基于GIs和webGIS技術(shù)實(shí)現(xiàn)區(qū)域空間資源綜合管理系統(tǒng)的子系統(tǒng)設(shè)計(jì) 1307次閱讀
- 基本的k-means算法流程 1.9w次閱讀
- 基于FPGA上的仿真分析確定適合空間應(yīng)用的AES算法設(shè)計(jì)詳解 908次閱讀
- K-Means算法的簡(jiǎn)單介紹 4835次閱讀
- Python無監(jiān)督學(xué)習(xí)的幾種聚類算法包括K-Means聚類,分層聚類等詳細(xì)概述 3w次閱讀
- K-means算法原理理論+opencv實(shí)現(xiàn) 6031次閱讀
- K-means的優(yōu)缺點(diǎn)及改進(jìn) 3.1w次閱讀
- k-means算法原理解析 8260次閱讀
- 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn) 9325次閱讀
- 怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘 4725次閱讀
- 什么叫數(shù)據(jù)挖掘_數(shù)據(jù)挖掘技術(shù)解析 1.9w次閱讀
下載排行
本周
- 1TC358743XBG評(píng)估板參考手冊(cè)
- 1.36 MB | 330次下載 | 免費(fèi)
- 2開關(guān)電源基礎(chǔ)知識(shí)
- 5.73 MB | 11次下載 | 免費(fèi)
- 3嵌入式linux-聊天程序設(shè)計(jì)
- 0.60 MB | 3次下載 | 免費(fèi)
- 4DIY動(dòng)手組裝LED電子顯示屏
- 0.98 MB | 3次下載 | 免費(fèi)
- 5基于FPGA的C8051F單片機(jī)開發(fā)板設(shè)計(jì)
- 0.70 MB | 2次下載 | 免費(fèi)
- 651單片機(jī)窗簾控制器仿真程序
- 1.93 MB | 2次下載 | 免費(fèi)
- 751單片機(jī)大棚環(huán)境控制器仿真程序
- 1.10 MB | 2次下載 | 免費(fèi)
- 8基于51單片機(jī)的RGB調(diào)色燈程序仿真
- 0.86 MB | 2次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費(fèi)
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費(fèi)
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費(fèi)
- 4開關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21549次下載 | 免費(fèi)
- 5電氣工程師手冊(cè)免費(fèi)下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費(fèi)
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費(fèi)
- 7電子制作實(shí)例集錦 下載
- 未知 | 8113次下載 | 免費(fèi)
- 8《LED驅(qū)動(dòng)電路設(shè)計(jì)》 溫德爾著
- 0.00 MB | 6656次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191186次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183279次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138040次下載 | 免費(fèi)
評(píng)論
查看更多