網絡爬蟲,是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。網絡爬蟲是搜索引擎系統中十分重要的組成部分,它負責從互 聯網中搜集網頁,采集信息,這些網頁信息用于建立索引從而為搜索 引擎提供支持,它決定著整個引擎系統的內容是否豐富,信息是否即 時,因此其性能的優劣直接影響著搜索引擎的效果。
網絡爬蟲程序的優劣,很大程度上反映了一個搜索引擎的好差。不信,你可以隨便拿一個網站去查詢一下各家搜索對它的網頁收錄情況,爬蟲強大程度跟搜索引擎好壞基本成正比。
1.世界上最簡單的爬蟲——三行情詩
我們先來看一個最簡單的最簡單的爬蟲,用python寫成,只需要三行。
import requests url="http://www.cricode.com" r=requests.get(url)
上面這三行爬蟲程序,就如下面這三行情詩一般,很干脆利落。
是好男人,
就應該在和女友吵架時,
抱著必輸的心態。
2.一個正常的爬蟲程序
上面那個最簡單的爬蟲,是一個不完整的殘疾的爬蟲。因為爬蟲程序通常需要做的事情如下:
1)給定的種子URLs,爬蟲程序將所有種子URL頁面爬取下來
2)爬蟲程序解析爬取到的URL頁面中的鏈接,將這些鏈接放入待爬取URL集合中
3)重復1、2步,直到達到指定條件才結束爬取
因此,一個完整的爬蟲大概是這樣子的:
import requests #用來爬取網頁 from bs4 import BeautifulSoup #用來解析網頁 seds = ["http://www.hao123.com", #我們的種子 "http://www.csdn.net", "http://www.cricode.com"] sum = 0 #我們設定終止條件為:爬取到100000個頁面時,就不玩了 while sum < 10000 : if sum < len(seds): r = requests.get(seds[sum]) sum = sum + 1 do_save_action(r) soup = BeautifulSoup(r.content) urls = soup.find_all("href",.....) //解析網頁 for url in urls: seds.append(url) else: break
3.現在來找茬
上面那個完整的爬蟲,不足20行代碼,相信你能找出20個茬來。因為它的缺點實在是太多。下面一一列舉它的N宗罪:
1)我們的任務是爬取1萬個網頁,按上面這個程序,一個人在默默的爬取,假設爬起一個網頁3秒鐘,那么,爬一萬個網頁需要3萬秒鐘。MGD,我們應當考慮開啟多個線程(池)去一起爬取,或者用分布式架構去并發的爬取網頁。
2)種子URL和后續解析到的URL都放在一個列表里,我們應該設計一個更合理的數據結構來存放這些待爬取的URL才是,比如隊列或者優先隊列。
3)對各個網站的url,我們一視同仁,事實上,我們應當區別對待。大站好站優先原則應當予以考慮。
4)每次發起請求,我們都是根據url發起請求,而這個過程中會牽涉到DNS解析,將url轉換成ip地址。一個網站通常由成千上萬的URL,因此,我們可以考慮將這些網站域名的IP地址進行緩存,避免每次都發起DNS請求,費時費力。
5)解析到網頁中的urls后,我們沒有做任何去重處理,全部放入待爬取的列表中。事實上,可能有很多鏈接是重復的,我們做了很多重復勞動。
6)…..
4.找了這么多茬后,很有成就感,真正的問題來了,學挖掘機到底哪家強?
現在我們就來一一討論上面找茬找出的若干問題的解決方案。
1)并行爬起問題
我們可以有多重方法去實現并行。
多線程或者線程池方式,一個爬蟲程序內部開啟多個線程。同一臺機器開啟多個爬蟲程序,如此,我們就有N多爬取線程在同時工作。能大大減少時間。
此外,當我們要爬取的任務特別多時,一臺機器、一個網點肯定是不夠的,我們必須考慮分布式爬蟲。常見的分布式架構有:主從(Master——Slave)架構、點對點(Peer to Peer)架構,混合架構等。
說道分布式架構,那我們需要考慮的問題就有很多,我們需要分派任務,各個爬蟲之間需要通信合作,共同完成任務,不要重復爬取相同的網頁。分派任務我們要做到公平公正,就需要考慮如何進行負載均衡。負載均衡,我們第一個想到的就是Hash,比如根據網站域名進行hash。
負載均衡分派完任務之后,千萬不要以為萬事大吉了,萬一哪臺機器掛了呢?原先指派給掛掉的哪臺機器的任務指派給誰?又或者哪天要增加幾臺機器,任務有該如何進行重新分配呢?
一個比較好的解決方案是用一致性Hash算法。
2)待爬取網頁隊列
如何對待待抓取隊列,跟操作系統如何調度進程是類似的場景。
不同網站,重要程度不同,因此,可以設計一個優先級隊列來存放待爬起的網頁鏈接。如此一來,每次抓取時,我們都優先爬取重要的網頁。
當然,你也可以效仿操作系統的進程調度策略之多級反饋隊列調度算法。
3)DNS緩存
為了避免每次都發起DNS查詢,我們可以將DNS進行緩存。DNS緩存當然是設計一個hash表來存儲已有的域名及其IP。
4)網頁去重
說到網頁去重,第一個想到的是垃圾郵件過濾。垃圾郵件過濾一個經典的解決方案是Bloom Filter(布隆過濾器)。布隆過濾器原理簡單來說就是:建立一個大的位數組,然后用多個Hash函數對同一個url進行hash得到多個數字,然后將位數組中這些數字對應的位置為1。下次再來一個url時,同樣是用多個Hash函數進行hash,得到多個數字,我們只需要判斷位數組中這些數字對應的為是全為1,如果全為1,那么說明這個url已經出現過。如此,便完成了url去重的問題。當然,這種方法會有誤差,只要誤差在我們的容忍范圍之類,比如1萬個網頁,我只爬取到了9999個,剩下那一個網頁,who cares!
5)數據存儲的問題
數據存儲同樣是個很有技術含量的問題。用關系數據庫存取還是用NoSQL,抑或是自己設計特定的文件格式進行存儲,都大有文章可做。
6)進程間通信
分布式爬蟲,就必然離不開進程間的通信。我們可以以規定的數據格式進行數據交互,完成進程間通信。
7)……
廢話說了那么多,真正的問題來了,問題不是學挖掘機到底哪家強?而是如何實現上面這些東西?。海?/p>
實現的過程中,你會發現,我們要考慮的問題遠遠不止上面這些。紙上得來終覺淺,覺知此事要躬行!
-
算法
+關注
關注
23文章
4612瀏覽量
92891 -
數據結構
+關注
關注
3文章
573瀏覽量
40130 -
爬蟲
+關注
關注
0文章
82瀏覽量
6880
原文標題:網頁爬蟲及其用到的算法和數據結構
文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數據結構】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論