網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲又名“網(wǎng)絡(luò)蜘蛛”,是通過網(wǎng)頁(yè)的鏈接地址來尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到按照某種策略把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取完為止的技術(shù)。
網(wǎng)絡(luò)爬蟲分幾類
1、通用Web爬蟲
通用網(wǎng)絡(luò)爬蟲所爬取的目標(biāo)數(shù)據(jù)是巨大的,并且爬行的范圍也是非常大的,正是由于其爬取的數(shù)據(jù)是海量數(shù)據(jù),故而對(duì)于這類爬蟲來說,其爬取的性能要求是非常高的。這種網(wǎng)絡(luò)爬蟲主要應(yīng)用于大型搜索引擎中,有非常高的應(yīng)用價(jià)值。或者應(yīng)用于大型數(shù)據(jù)提供商。
2、聚焦網(wǎng)絡(luò)爬蟲
聚焦網(wǎng)絡(luò)爬蟲是按照預(yù)先定義好的主題有選擇地進(jìn)行網(wǎng)頁(yè)爬取的一種爬蟲,聚焦網(wǎng)絡(luò)爬蟲不像通用網(wǎng)絡(luò)爬蟲一樣將目標(biāo)資源定位在全互聯(lián)網(wǎng)中,而是將爬取的目標(biāo)網(wǎng)頁(yè)定位在與主題相關(guān)的頁(yè)面中,此時(shí),可以大大節(jié)省爬蟲爬取時(shí)所需的帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲主要應(yīng)用在對(duì)特定信息的爬取中,主要為某一類特定的人群提供服務(wù)。
3、增量Web爬蟲
增量式網(wǎng)絡(luò)爬蟲,在爬取網(wǎng)頁(yè)的時(shí)候,只爬取內(nèi)容發(fā)生變化的網(wǎng)頁(yè)或者新產(chǎn)生的網(wǎng)頁(yè),對(duì)于未發(fā)生內(nèi)容變化的網(wǎng)頁(yè),則不會(huì)爬取。增量式網(wǎng)絡(luò)爬蟲在一定程度上能夠保證所爬取的頁(yè)面,盡可能是新頁(yè)面。
4、深層網(wǎng)絡(luò)爬蟲
在互聯(lián)網(wǎng)中,網(wǎng)頁(yè)按存在方式分類,可以分為表層頁(yè)面和深層頁(yè)面。所謂的表層頁(yè)面,指的是不需要提交表單,使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)頁(yè)面;而深層頁(yè)面則隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞之后才能夠獲取得到的頁(yè)面。在互聯(lián)網(wǎng)中,深層頁(yè)面的數(shù)量往往比表層頁(yè)面的數(shù)量要多很多,故而,我們需要想辦法爬取深層頁(yè)面。
-
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8705 -
爬蟲
+關(guān)注
關(guān)注
0文章
82瀏覽量
6949
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論