scrapy獲取汽車之家資料

2022-09-10 04:45:10 字數 2451 閱讀 1911

1、建立scrapy專案

2、找到對應介面

3、建立爬蟲檔案

> cd scrapy_carhome\scrapy_carhome\spiders

scrapy_carhome\scrapy_carhome\spiders> scrapy genspider car

4、注釋robots協議

']#注意如果你的請求的介面是html為結尾的 那麼是不需要加/的

start_urls = ['

']defparse(self, response):

name_list = response.xpath('

//div[@class="main-title"]/a/text()')

price_list = response.xpath('

//div[@class="main-lever"]//span/span/text()')

# 遍歷列表

for i in

range(len(name_list)):

name =name_list[i].extract()

price =price_list[i].extract()

print(name,price)

執行爬蟲檔案

架構組成 12

3)spiders —>spider

類定義了如何爬取某個

(或某些

)**。包括了爬取的動作(例

如:是否跟進鏈結

)以及如何從網頁的內容中提取結構化資料(爬取

item)

。 換句話說,

spider

就是您定義爬取的動作及

分析某個網頁

(或者是有些網頁

)的地方。

4)排程器 —>有自己的排程規則,無需關注

5)管道(

item pipeline

) —>最終處理資料的管道,會預留介面供我們處理資料

當item

在spider

中被收集之後,它將會被傳遞到

item pipeline

,一些元件會按照一定的順序執行對

item

的處理。

每個item pipeline元件(

有時稱之為

「item pipeline」)

是實現了簡單方法的

python

類。他們接收到

item

並通過它執行

一些行為,同時也決定此

item

是否繼續通過

pipeline

,或是被丟棄而不再進行處理。

以下是item pipeline

的一些典型應用:

1. 清理

html

資料 2.

驗證爬取的資料(檢查

item

包含某些字段

) 3. 查重(

並丟棄)

4. 將爬取結果儲存到資料庫中

scrapy

工作原理 

Python練習 scrapy 爬取汽車之家文章

autohome.py spider檔案 coding utf 8 import scrapy from autohome.items import autohomeitem class autohomespider scrapy.spider name autohome allowed domai...

PYTHON爬取汽車之家資料

使用知識 使用說明 源 usr bin env python coding utf 8 time 2020 1 16 15 34 author wsx site file cars.py software pycharm import json from multiprocessing import...

RCurl汽車之家抓取

junjun 2016年4月20日 參考 library rcurl loading required package bitops install.packages xml library xml library reshape 偽裝報頭 myheader c user agent mozilla...