在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

來看看Pythoner志朋的爬蟲實驗

下面我們來看看Pythoner志朋的爬蟲實驗。

一、使用的技術棧：

爬蟲：python27 +requests+json+bs4+time

分析工具： ELK套件

開發工具：pycharm

二、數據成果

爬取了知乎部分的用戶數據信息。

三、簡單的可視化分析

1.性別分布

0 綠色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性別不確定

可見知乎的用戶男性頗多。

2.粉絲最多的top30

粉絲最多的前三十名：依次是張佳瑋、李開復、黃繼新等等，去知乎上查這些人，也差不多這個排名，說明爬取的數據具有一定的說服力。

3.寫文章最多的top30

四、爬蟲架構

爬蟲架構圖如下：

說明：

選擇一個活躍的用戶（比如李開復）的url作為入口url.并將已爬取的url存在set中。

抓取內容，并解析該用戶的關注的用戶的列表url，添加這些url到另一個set中，并用已爬取的url作為過濾。

解析該用戶的個人信息，并存取到本地磁盤。

logstash取實時的獲取本地磁盤的用戶數據，并給elsticsearch

kibana和elasticsearch配合，將數據轉換成用戶友好的可視化圖形。

五.編碼

爬取一個url:

解析內容：

存本地文件：

代碼說明：

需要修改獲取requests請求頭的authorization。

需要修改你的文件存儲路徑。

源碼下載：https://github.com/forezp/ZhihuSpiderMan，記得star哦！

六.如何獲取authorization

打開chorme，打開https://www.zhihu.com/，

登陸，首頁隨便找個用戶，進入他的個人主頁，F12(或鼠標右鍵，點檢查)

點擊關注，刷新頁面，見圖：

七、可改進的地方

可增加線程池，提高爬蟲效率

存儲url的時候我才用的set(),并且采用緩存策略，最多只存2000個url，防止內存不夠，其實可以存在redis中。

存儲爬取后的用戶我說采取的是本地文件的方式，更好的方式應該是存在mongodb中。

對爬取的用戶應該有一個信息的過濾，比如用戶的粉絲數需要大與100或者參與話題數大于10等才存儲。防止抓取了過多的僵尸用戶。

八.關于ELK套件

關于elk的套件安裝就不討論了，具體見官網就行了。網站：https://www.elastic.co/

另外logstash的配置文件如下：

九、結語

從爬取的用戶數據可分析的地方很多，比如地域、學歷、年齡等等，我就不一一列舉了。

另外，我覺得爬蟲是一件非常有意思的事情，在這個內容消費升級的年代，如何在廣闊的互聯網的數據海洋中挖掘有價值的數據，是一件值得思考和需不斷踐行的事情。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

互聯網

互聯網

+關注

關注
54

文章
11168

瀏覽量
103481
python

python

+關注

關注
56

文章
4799

瀏覽量
84820

原文標題：碉堡了！一小時爬取百萬知乎用戶信息的Python神器曝光

文章出處：【微信號：magedu-Linux，微信公眾號：馬哥Linux運維】歡迎添加關注！文章轉載請注明出處。

下來看看怎么樣下來看看怎么樣下來看看怎么樣

下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下

發表于 05-13 19:01

下來看看怎么樣下來看看怎么樣下來看看怎么樣

下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下

發表于 05-13 19:03

大朋VR全景聲巨幕VR影院值不值購買？詳細體驗總結

多大的解析流。　　大朋VR自身平臺上具有100+的巨幕視頻、普通電影大概有1000+的視頻、藍光電影40+，在來看看支持的視頻應用，愛奇藝VR、優酷VR、2大視頻巨頭的VR應用，這VR視頻不要太多

發表于 10-04 09:24

網絡爬蟲nodejs爬蟲代理配置

隨著互聯網的發展進步，現在互聯網上也有許多網絡爬蟲。網絡爬蟲通過自己爬蟲程序向目標網站采集相關數據信息。當然互聯網的網站會有反爬策略。比如某電商網站就會限制一個用戶IP的訪問頻率，從而出現驗證碼

發表于 09-01 17:23

什么是爬蟲？

什么是爬蟲？爬蟲的價值？最簡單的python爬蟲爬蟲基本架構

發表于 11-05 06:13

如何運行imdb爬蟲？

imdbcn爬蟲實例　imdbcn網站結構分析　創建爬蟲項目　運行imdb爬蟲

發表于 11-05 07:07

ADS設計實驗教程

ADS設計實驗教程，又需要的朋喲許下來看看。

發表于 01-25 10:28 ?0次下載

爬蟲是如何實現數據的獲取爬蟲程序如何實現

進入大數據時代，爬蟲技術越來越重要，因為它是獲取數據的一個重要手段，是大數據和云計算的基礎。那么，爬蟲到底是如何實現數據的獲取的呢？今天和大家分享的就是一個系統學習爬蟲技術的過程：先掌握爬蟲

發表于 01-02 16:30 ?10次下載

Python爬蟲你真的會寫爬蟲嗎？

你以為你真的會寫爬蟲了嗎？快來看看真正的爬蟲架構！

發表于 05-02 17:02 ?3915次閱讀

如何使用表格做爬蟲

很多人不知道，其實我們最常用的表格，在某些情況下也是可以用來做爬蟲的，而且爬下來的數據規整，不需要花太多時間進行數據清洗，來看看是怎么實現的。

發表于 02-03 15:15 ?4929次閱讀

利用Python編寫簡單網絡爬蟲實例

利用 Python編寫簡單網絡爬蟲實例2 實驗環境python版本：3.3.5（2.7下報錯

發表于 02-24 11:05 ?14次下載

導熱凝膠的特色有哪些，來看看

導熱凝膠的特色有哪些，來看看，15年行業老經驗共享

發表于 03-07 17:12 ?3130次閱讀

馬哥Linux運維
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot Linux如何使用XFS?
Hot keepalived及LVS概述,KeepAlived工作原理

New 一文看懂TCP三次握手工作原理
New 詳解Linux sort命令之掌握排序技巧與實用案例

精選推薦
更多

文章

資料

帖子

ElfBoard技術貼|如何通過TF卡啟動ELF 2學習板

ElfBoard
2小時前

163 閱讀

恩智浦i.MX95打造高級數字互聯儀表盤方案顛覆兩輪車騎行體驗

NXP客棧
3小時前

190 閱讀

飛凌嵌入式i.MX8M Mini核心板已支持Linux6.1

飛凌嵌入式
3小時前

140 閱讀

DC/DC轉換器電路中MOSFET的選擇指南(上)

駿龍電子
3小時前

196 閱讀

eIQ Time Series Studio工具使用攻略(三)-工程創建

恩智浦MCU加油站
20小時前

306 閱讀

集成電路設計方法學概論

yezi888
470 KB

免費

36下載

iMACcheck網口測試、MAC管控工具

廉鼎琮
0.26 MB

免費

0下載

WifiDog無線熱點認證解決方案

尤立虔
0.33 MB

2積分

1下載

4V~28V 寬輸入電壓，8A 負載電流同步降壓轉換器PCD3202產品手冊

pc16211
0.96 MB

免費

1下載

4kW 650V工業電機控制電源板SECO-MDK-4KW-65SPM31-GEVB數據手冊

43.15 MB

免費

2下載

backdrill legend 顯示參數如何編輯

jf_86378909
12小時前

59 閱讀

迅為RK3568開發板篇OpenHarmony配置HDF驅動控制LED-配置創建私有配置文件

jf_23361246
12小時前

60 閱讀

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-初識設備樹之設備組織架構

jf_13411809
12小時前

122 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-初識設備樹之Makefile修改

jf_13411809
12小時前

128 閱讀

尋找DC/DC 4.5-60V同步降壓芯片

254712S
1天前

417 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

來看看Pythoner志朋的爬蟲實驗

評論

很熱鬧，常來看看！

天天來看看~~~

每天上來看看

下來看看怎么樣下來看看怎么樣下來看看怎么樣

下來看看怎么樣下來看看怎么樣下來看看怎么樣

大朋VR全景聲巨幕VR影院值不值購買？詳細體驗總結

網絡爬蟲nodejs爬蟲代理配置

什么是爬蟲？

如何運行imdb爬蟲？

ADS設計實驗教程

爬蟲是如何實現數據的獲取爬蟲程序如何實現

Python爬蟲你真的會寫爬蟲嗎？

如何使用表格做爬蟲

利用Python編寫簡單網絡爬蟲實例

導熱凝膠的特色有哪些，來看看