在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

來看看Pythoner志朋的爬蟲實驗

馬哥Linux運維 ? 來源:未知 ? 作者:李倩 ? 2018-11-23 15:43 ? 次閱讀

下面我們來看看Pythoner志朋的爬蟲實驗。

一、使用的技術棧:

爬蟲:python27 +requests+json+bs4+time

分析工具: ELK套件

開發工具:pycharm

二、數據成果

爬取了知乎部分的用戶數據信息。

三、簡單的可視化分析

1.性別分布

0 綠色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性別不確定

可見知乎的用戶男性頗多。

2.粉絲最多的top30

粉絲最多的前三十名:依次是張佳瑋、李開復、黃繼新等等,去知乎上查這些人,也差不多這個排名,說明爬取的數據具有一定的說服力。

3.寫文章最多的top30

四、爬蟲架構

爬蟲架構圖如下:

說明:

選擇一個活躍的用戶(比如李開復)的url作為入口url.并將已爬取的url存在set中。

抓取內容,并解析該用戶的關注的用戶的列表url,添加這些url到另一個set中,并用已爬取的url作為過濾。

解析該用戶的個人信息,并存取到本地磁盤。

logstash取實時的獲取本地磁盤的用戶數據,并給elsticsearch

kibana和elasticsearch配合,將數據轉換成用戶友好的可視化圖形。

五.編碼

爬取一個url:

解析內容:

存本地文件:

代碼說明:

需要修改獲取requests請求頭的authorization。

需要修改你的文件存儲路徑。

源碼下載:https://github.com/forezp/ZhihuSpiderMan,記得star哦!

六.如何獲取authorization

打開chorme,打開https://www.zhihu.com/,

登陸,首頁隨便找個用戶,進入他的個人主頁,F12(或鼠標右鍵,點檢查)

點擊關注,刷新頁面,見圖:

七、可改進的地方

可增加線程池,提高爬蟲效率

存儲url的時候我才用的set(),并且采用緩存策略,最多只存2000個url,防止內存不夠,其實可以存在redis中。

存儲爬取后的用戶我說采取的是本地文件的方式,更好的方式應該是存在mongodb中。

對爬取的用戶應該有一個信息的過濾,比如用戶的粉絲數需要大與100或者參與話題數大于10等才存儲。防止抓取了過多的僵尸用戶。

八.關于ELK套件

關于elk的套件安裝就不討論了,具體見官網就行了。網站:https://www.elastic.co/

另外logstash的配置文件如下:

九、結語

從爬取的用戶數據可分析的地方很多,比如地域、學歷、年齡等等,我就不一一列舉了。

另外,我覺得爬蟲是一件非常有意思的事情,在這個內容消費升級的年代,如何在廣闊的互聯網的數據海洋中挖掘有價值的數據,是一件值得思考和需不斷踐行的事情。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 互聯網
    +關注

    關注

    54

    文章

    11168

    瀏覽量

    103481
  • python
    +關注

    關注

    56

    文章

    4799

    瀏覽量

    84820

原文標題:碉堡了!一小時爬取百萬知乎用戶信息的Python神器曝光

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    很熱鬧,常來看看!

    很熱鬧,常來看看
    發表于 02-15 14:39

    天天來看看~~~

    天天來看看~~~
    發表于 12-15 16:42

    每天上來看看

    每天上來看看挺好,
    發表于 12-22 22:53

    來看看怎么樣 下來看看怎么樣 下來看看怎么樣

    來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下
    發表于 05-13 19:01

    來看看怎么樣 下來看看怎么樣 下來看看怎么樣

    來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下
    發表于 05-13 19:03

    VR全景聲巨幕VR影院值不值購買?詳細體驗總結

    多大的解析流。   大VR自身平臺上具有100+的巨幕視頻、普通電影大概有1000+的視頻、藍光電影40+,在來看看支持的視頻應用,愛奇藝VR、優酷VR、2大視頻巨頭的VR應用,這VR視頻不要太多
    發表于 10-04 09:24

    網絡爬蟲nodejs爬蟲代理配置

    隨著互聯網的發展進步,現在互聯網上也有許多網絡爬蟲。網絡爬蟲通過自己爬蟲程序向目標網站采集相關數據信息。當然互聯網的網站會有反爬策略。比如某電商網站就會限制一個用戶IP的訪問頻率,從而出現驗證碼
    發表于 09-01 17:23

    什么是爬蟲

    什么是爬蟲?爬蟲的價值?最簡單的python爬蟲爬蟲基本架構
    發表于 11-05 06:13

    如何運行imdb爬蟲?

    imdbcn爬蟲實例 imdbcn網站結構分析 創建爬蟲項目 運行imdb爬蟲
    發表于 11-05 07:07

    ADS設計實驗教程

    ADS設計實驗教程,又需要的喲許下來看看。
    發表于 01-25 10:28 ?0次下載

    爬蟲是如何實現數據的獲取爬蟲程序如何實現

    進入大數據時代,爬蟲技術越來越重要,因為它是獲取數據的一個重要手段,是大數據和云計算的基礎。那么,爬蟲到底是如何實現數據的獲取的呢?今天和大家分享的就是一個系統學習爬蟲技術的過程:先掌握爬蟲
    發表于 01-02 16:30 ?10次下載
    <b class='flag-5'>爬蟲</b>是如何實現數據的獲取<b class='flag-5'>爬蟲</b>程序如何實現

    Python爬蟲 你真的會寫爬蟲嗎?

    你以為你真的會寫爬蟲了嗎?快來看看真正的爬蟲架構!
    的頭像 發表于 05-02 17:02 ?3915次閱讀
    Python<b class='flag-5'>爬蟲</b> 你真的會寫<b class='flag-5'>爬蟲</b>嗎?

    如何使用表格做爬蟲

    很多人不知道,其實我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數據規整,不需要花太多時間進行數據清洗,來看看是怎么實現的。
    的頭像 發表于 02-03 15:15 ?4929次閱讀
    如何使用表格做<b class='flag-5'>爬蟲</b>

    利用Python編寫簡單網絡爬蟲實例

    利用 Python編寫簡單網絡爬蟲實例2 實驗環境python版本:3.3.5(2.7下報錯
    發表于 02-24 11:05 ?14次下載

    導熱凝膠的特色有哪些,來看看

    導熱凝膠的特色有哪些,來看看,15年行業老經驗共享
    的頭像 發表于 03-07 17:12 ?3130次閱讀
    導熱凝膠的特色有哪些,<b class='flag-5'>來看看</b>
    主站蜘蛛池模板: 伊人久久天堂| 中文字幕日本一区波多野不卡| 一级做a爱片久久毛片| 在线观看一区二区三区四区| 4438全国最大成人免费高清| 性做久久久久久免费观看| 美女张开腿露出尿口让男人桶| 久久国产精品自在自线| 在线视频免费视频网站| 人人插人人草| 国产小视频在线免费观看| 午夜视频在线观看免费高清| 成人在线91| 亚洲永久免费视频| 成人看的一级毛片| 亚洲免费黄色网| 国产高清免费| 久久99精品久久久久久牛牛影视| 经典三级影院| 激情五月婷婷丁香| 国产nv精品你懂得| 手机在线看片福利盒子| 特黄一级视频| 国产永久免费爽视频在线| 另类五月| 34pao强力打造免费永久视频| 巨臀中文字幕一区二区翘臀| 亚洲综合春色另类久久| 影音先锋ady69色资源网站 | 亚洲午夜免费| 久久天天躁狠狠躁夜夜| 欧美特黄一免在线观看| 天天插天天射天天干| 天天射天天色天天干| 天天天综合网| 超级乱淫视频播放日韩| 26uuu欧美性色| 久久国产精品免费看| 色天使色婷婷在线影院亚洲| 色草视频| 国产精品女人在线观看|