在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用Python爬蟲獲取汽車之家全車型數據

馬哥Linux運維 ? 來源:未知 ? 2019-02-03 08:19 ? 次閱讀

最近想在工作相關的項目上做技術改進,需要全而準的車型數據,尋尋覓覓而不得,所以就只能自己動手豐衣足食,到網上獲(竊)得(取)數據了。

汽車之家是大家公認的數據做的比較好的汽車網站,所以就用它吧。(感謝汽車之家的大大們這么用心地做數據,仰慕)

俗話說的好,“十爬蟲九python”,作為一只java狗,我顫顫巍巍地拿起了python想要感受一下scrapy的強大。。。

在寫這個爬蟲之前,我用urllib2,BeautifulSoup寫了一個版本,不過效率太差,而且還有內存溢出的問題,作為python小白感覺很無力,所以用scrapy才是正道。

嗯,開搞。

準備工作

安裝python,版本是2.7

安裝scrapy模塊, 版本是1.4.0

參考

汽車之家車型數據爬蟲[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:這是我工程的代碼,以下內容需要參照著代碼來理解,就不貼代碼在這里了。

Scrapy中文文檔:這是Scrapy的中文文檔,具體細節可以參照文檔。感謝Summer同學的翻譯。

Xpath教程:解析頁面數據要用到xpath的語法,簡單了解一下,在做的過程中遇到問題去查一下就可以了。

初始化工程

scrapy工程的初始化很方便,在shell中的指定目錄下執行scrapy start startproject 項目名稱,就自動化生成了。

執行這步的時候遇到了一個問題,拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解決方法是執行sudo pip install twisted==13.1.0,應該是依賴庫版本不兼容。

目錄結構

工程初始化后,scrapy中的各個元素就被構建好了,不過構建出來的是一副空殼,需要我們往里邊寫入我們的爬蟲邏輯。

初始化后的目錄結構是這樣的:

spiders:爬蟲目錄,爬蟲的爬取邏輯就放在個目錄下邊

items.py:數據實體類,在這里定義我們爬到的數據結構

middlewares.py:爬蟲中間件(我自己翻譯的哈),在這里定義爬取前、爬取后需要處理的邏輯

pipelines.py:數據管道,爬取后的數據實體會經過數據管道的處理

settings.py:配置文件,可以在這里配置爬蟲的爬取速度,配置中間件、管道是否開啟和先后順序,配置數據輸出的格式等。

了解過這些文件的作用后就可以開始寫爬蟲了。

開始吧!

首先,確定要爬取的目標數據。

我的目標是獲取汽車的品牌、車系、車型數據,先從品牌開始。

在汽車之家的頁面中尋覓一番后,找到了一個爬蟲的切入點,汽車之家車型大全。這個頁面里有所有品牌的數據,正是我的目標。不過在觀察的過程中發現,這個頁面里的品牌數據是在頁面向下滾動的過程中延遲加載的,這樣我們通過請求這個頁面不能獲取到延遲加載的那部分數據。不過不要慌,看一下延遲加載的方式是什么樣的。

打開瀏覽器控制臺的網絡請求面板,滾動頁面來觸發延遲加載,發現瀏覽器發送了一個異步請求:

復制請求的URL看看:

http://www.autohome.com.cn/grade/carhtml/B.html

http://www.autohome.com.cn/grade/carhtml/C.html

http://www.autohome.com.cn/grade/carhtml/D.html

找到規律了,每一次加載的URL,都只是改變了對應的字母,所以對A到Z分別請求一次就取到了所有的品牌數據。

打開http://www.autohome.com.cn/grade/carhtml/B.html看下,發現頁面的數據很規整,是按照品牌-廠商-車系的層級組織的。嗯,正合我意,那就開爬吧。

編寫Spider

在spiders目錄下邊,新建一個brand_spider.py文件,在文件中定義BrandSpider類,這個類繼承了scrapy.Spider類,這就是scrapy的Spider類。在BrandSpider中,需要聲明name變量,這是這個爬蟲的ID;還需要聲明start_urls,這是爬蟲的起點鏈接;再定義一個parse方法,里面實現爬蟲的邏輯。

parse方法的入參中,response就是對start_urls中的鏈接的請求響應數據,我們要爬取的品牌數據就在這里面,我們需要從response中提取出來。從response提取數據需要使用xpath語法,參考上邊的xpath教程。

提取數據之前,需要先給品牌數據定義一個實體類,因為需要把品牌數據存到數據實體中并落地到磁盤。在items.py文件中定義一個BrandItem類,這個類繼承了scrapy.Item類,類中聲明了爬取到的、要落地的品牌相關數據,這就是scrapy的Item類。

定義好品牌實體后,在parse方法中聲明一個BrandItem實例,然后通過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標url等數據,并設置到BrandItem實例中,最后通過yield來聚合爬取到的各個品牌數據并返回,返回的數據會進入pipeline。

編寫Pipeline

爬取到的數據接著被pipeline.py文件中定義的Pipeline類處理,這個類通常是對傳入的Item實體做數據的清洗、排重等工作,可以定義多個Pipeline,依次對Item處理。由于暫時沒有這方面的需要,就不改寫這個文件,保持默認狀態就好。經過pipeline的處理后,數據進入數據集。

輸出csv格式數據

對于爬取到的車型數據,我想以csv的格式輸出,并且輸出到指定目錄下,此時需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'和FEED_URI = 'data/%(name)s_%(time)s.csv'兩項,目的是指定輸出格式為csv,輸出到data目錄下,以”爬蟲名稱_爬取時間.csv“格式命名。

執行爬蟲

品牌數據的爬蟲編寫完成了,在項目根目錄下執行scrapy crawl brand,不出意外的話,在執行了brand爬蟲后,會在data目錄下出現一個新的csv文件,并且裝滿了品牌數據。

小心被屏蔽

不過需要注意一個問題,就是當爬蟲高頻地請求網站接口的時候,有可能會被網站識別出來并且屏蔽掉,因為太高頻的請求會對網站的服務器造成壓力,所以需要對爬蟲限速。

在settings.py中添加DOWNLOAD_DELAY = 3,限制爬蟲的請求頻率為平均3秒一次。

另外,如果爬蟲發送的請求頭中沒有設置user agent也很容易被屏蔽掉,所以要對請求頭設置user agent。

在項目根目錄下新建user_agent_middlewares.py文件,在文件中定義UserAgentMiddleware類,繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list,存放一些常用的user agent,然后重寫process_request方法,在user_agent_list中隨機選取user agent寫入請求頭中。

車系、車型爬蟲

車系爬蟲與上邊的品牌爬蟲類似,實現在spiders/series_spider.py中。

車型爬蟲稍微復雜一些,實現在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型數據,同時要解析出更多的URL添加到請求隊列中。而且,車型爬蟲爬取的頁面并不像品牌數據頁面那么規整,所以要根據URL的特征以及頁面中的特征來調整解析策略。因此在這里用到了CrawlSpider和Rules,具體參照Spider文檔。

總結

以上就實現了一個簡單的汽車之家的車型數據爬蟲,其中用到了scrapy中的部分元素,當然還有很多元素沒有涉及到,不過對于一個簡單爬蟲來說足矣。

Tip

在用xpath解析頁面的時候,寫出來的xpath語句很可能與預期不符,而且調試起來很麻煩,我是用以下方式來提高效率的:

使用chrome上的XPath Helper插件。安裝好插件,打開目標頁面,按command+shift+x(mac版的快捷鍵)打開插件面板,在面板里輸入xpath語句,就能看到取到的結果了:

使用scrapy shell調試。在工程目錄下執行scrapy shell http://www.xxxxx.xx,之后就會進入python的交互終端,這時就可以進行調試了。執行print response.xpath('xxxxx')來驗證xpath語句是否符合預期。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 瀏覽器
    +關注

    關注

    1

    文章

    1028

    瀏覽量

    35397
  • URL
    URL
    +關注

    關注

    0

    文章

    139

    瀏覽量

    15368
  • python
    +關注

    關注

    56

    文章

    4797

    瀏覽量

    84787

原文標題:Python神技能 | 使用爬蟲獲取汽車之家全車型數據

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Python數據爬蟲學習內容

    ,利用爬蟲,我們可以解決部分數據問題,那么,如何學習Python數據爬蟲能?1.學習Python
    發表于 05-09 17:25

    Python爬蟲與Web開發庫盤點

    Python爬蟲和Web開發均是與網頁相關的知識技能,無論是自己搭建的網站還是爬蟲爬去別人的網站,都離不開相應的Python庫,以下是常用的Pyth
    發表于 05-10 15:21

    Python爬蟲初學者需要準備什么?

    ,想從事這方面的工作,需掌握以下知識:1. 學習Python基礎知識并實現基本的爬蟲過程一般獲取數據的過程都是按照發送請求-獲得頁面反饋-解析并且存儲
    發表于 06-20 17:14

    Python爬蟲全國大學招生的生源數據分析

    Python爬蟲:全國大學招生信息(二):生源數據分析(matplotlib)
    發表于 03-09 10:20

    0基礎入門Python爬蟲實戰課

    數據時代,有兩種技能可以給自己增加競爭優勢。一種是數據分析,旨在挖掘數據的價值,做出最佳決策;另一種是數據獲取,即
    發表于 07-25 09:28

    python基礎語法及流程控制

    爬蟲復習1.python基礎python基礎語法 流程控制 函數封裝2.防爬措施整體防爬User-AgentrefererIP代理池Cookie代理池 各自防爬數據內部動態加載網頁設置
    發表于 08-31 07:41

    Python爬蟲簡介與軟件配置

    腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。爬蟲從初始網頁的url開始, 不斷從當前頁面抽取新的url放入隊列。直到滿足系統給定的停止條件才停止??梢詾樗阉匾鎻幕ヂ摼W中下載網頁數據,是搜素引擎的重要組成部分。2. 軟件配置
    發表于 01-11 06:32

    python網絡爬蟲概述

    提交一些關鍵字才能獲取的Web頁面,如登錄或注冊后訪問的頁面。應用場景爬蟲技術在科學研究、Web安全、產品研發、輿情監控等領域可以做很多事情。在數據挖掘、機器學習、圖像處理等科學研究領域,如果沒有
    發表于 03-21 16:51

    2015最全車型汽車OBD位置大全

    2015最全車型汽車OBD位置大全,我還上傳好多相關資源,感興趣的小伙伴們可以去我上傳的資料頁看看哦。
    發表于 08-05 14:20 ?60次下載

    python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

    本文檔的主要內容詳細介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
    發表于 08-28 15:32 ?29次下載

    爬蟲是如何實現數據獲取爬蟲程序如何實現

    進入大數據時代,爬蟲技術越來越重要,因為它是獲取數據的一個重要手段,是大數據和云計算的基礎。那么,爬蟲
    發表于 01-02 16:30 ?10次下載
    <b class='flag-5'>爬蟲</b>是如何實現<b class='flag-5'>數據</b>的<b class='flag-5'>獲取</b><b class='flag-5'>爬蟲</b>程序如何實現

    Python爬蟲:使用哪種協議的代理IP最佳?

    網絡大數據要抓取信息,大多需要經過python爬蟲工作,爬蟲能夠幫助我們將頁面的信息抓取下來。
    的頭像 發表于 06-28 16:25 ?1970次閱讀

    Python寫網絡爬蟲

    Python寫網絡爬蟲的方法說明。
    發表于 06-01 11:55 ?21次下載

    如何看待Python爬蟲的合法性?

    Python爬蟲是一種自動化程序,可以從互聯網上獲取信息并提取數據。通過模擬網頁瀏覽器的行為,爬蟲可以訪問網頁、抓取
    的頭像 發表于 11-14 10:35 ?648次閱讀

    網絡爬蟲,Python數據分析

    電子發燒友網站提供《網絡爬蟲,Python數據分析.pdf》資料免費下載
    發表于 07-13 09:27 ?1次下載
    主站蜘蛛池模板: 99久久99| 老师叫我下面含着精子去上课| 天天爽夜夜爽人人爽曰喷水| 午夜影院免费观看视频| 午夜高清在线观看免费6| 五月天狠狠| 欧美黄色影院| 88av在线看| 亚洲人一区| 亚洲欧美日本综合| 三级毛片在线免费观看| 嫩草影院播放地址一二三| 国内自拍 亚洲系列 欧美系列 | 热re99久久精品国99热| 二区三区在线观看| 五月婷丁香| 欧美日韩国产在线一区| 国产手机在线国内精品| 夜夜爽毛片| 国产亚洲精品成人一区看片| 中文字幕一区在线| 一个人看aaaa免费中文| 日本免费黄视频| 国产免费美女| 奇米影视一区| 555夜色555亚洲夜色| 一级特级毛片免费| 欧美一级特黄乱妇高清视频| 国产成人在线网址| 欧美影院入口| 一区二区中文字幕| 五月婷婷影视| 久久久久琪琪免费影院| 亚洲免费mv| 视频在线免费观看| 国产在线99| 欧洲综合网| 夜夜做夜夜爽| 啪一啪日一日| 亚洲爱婷婷色婷婷五月| 黄视频在线观看免费|