網(wǎng)絡(luò)爬蟲原理
網(wǎng)絡(luò)爬蟲指按照一定的規(guī)則(模擬人工登錄網(wǎng)頁的方式),自動抓取網(wǎng)絡(luò)上的程序。簡單的說,就是講你上網(wǎng)所看到頁面上的內(nèi)容獲取下來,并進(jìn)行存儲。網(wǎng)絡(luò)爬蟲的爬行策略分為深度優(yōu)先和廣度優(yōu)先。如下圖是深度優(yōu)先的一種遍歷方式是A到B到D到E到C到F(ABDECF)而寬度優(yōu)先的遍歷方式ABCDEF。
網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)原理
1、獲取初始URL。初始URL地址可以有用戶人為指定,也可以由用戶指定的某個或某幾個初始爬取網(wǎng)頁決定。
2、根據(jù)初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后,首先需要爬取對應(yīng)URL地址中的網(wǎng)頁,爬取了對應(yīng)的URL地址中的網(wǎng)頁后,將網(wǎng)頁存儲到原始數(shù)據(jù)庫中,并且在爬取網(wǎng)頁的同時,發(fā)現(xiàn)新的URL地址,同時將已爬取的URL地址存放到一個URL列表中,用于去重及判斷爬取的進(jìn)程。
3、將新的URL放到URL隊(duì)列中,在第二步中,獲取下一個新的URL地址之后,會將新的URL地址放到URL隊(duì)列中。
4、從URL隊(duì)列中讀取新的URL,并依據(jù)新的URL爬取網(wǎng)頁,同時從新的網(wǎng)頁中獲取新的URL并重復(fù)上述的爬取過程。
5、滿足爬蟲系統(tǒng)設(shè)置的停止條件時,停止爬取。在編寫爬蟲的時候,一般會設(shè)置相應(yīng)的停止條件。如果沒有設(shè)置停止條件,爬蟲會一直爬取下去,一直到無法獲取新的URL地址為止,若設(shè)置了停止條件,爬蟲則會在停止條件滿足時停止爬取。
-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8705 -
爬蟲
+關(guān)注
關(guān)注
0文章
82瀏覽量
6949
發(fā)布評論請先 登錄
相關(guān)推薦
評論