Scrapy執行過程

2021-10-25 10:57:18 字數 859 閱讀 8239

scrapy執行過程

(1)建立爬蟲專案

scrapy startproject 專案名稱

(2)建立爬蟲檔案

scrapy genspider 檔名稱 網域名稱

(3)settings.py設定檔案中:

user_ageng = ua偽裝

robotstxt_obey =

false

log_level =

'error'

(5)爬蟲檔案中解析資料,例如:

店鋪資訊 = 響應物件.xpath(

'//div[@class="abc"]/text()'

).extract(

)#不要忘記

yield item

(4)items.py檔案中定義屬性,例如:

店鋪資訊 = scrapy.field(

)店鋪位址 = scrapy.field(

)(5)爬蟲檔案中匯入類,將item交給管道,例如:

from c001.items import c001item

item = c001item(

)item[

'店鋪名稱'

]= 店鋪名稱

yield item

(6)管道檔案中pipelines.py中持久化儲存,例如

店鋪資訊 = item[

'店鋪資訊'

]資料 = pd.dataframe(

)資料.to_csv(

)return item

(7)在設定中開始管道

(7)在設定中開始管道

(8)執行

scrapy crawl 爬蟲檔名稱

scrapy 執行邏輯

爬蟲的步驟 傳送請求獲得響應 解析並提取資料 儲存資料 我們沿用這個樸素的邏輯去理解scrapy 一 傳送請求獲得響應 1 爬蟲傳送請求request到引擎 2 引擎將請求request傳遞給排程器scheduler佇列 3 排程器scheduler從請求佇列中向引擎輸送request proces...

Scrapy 執行多個爬蟲

本文所使用的 scrapy 版本 scrapy 1.8.0 多個爬蟲 所有爬蟲 顯然,這兩種情況並不一定是等同的。假設當前專案下有 3 個爬蟲,分別名為 route dining experience,並在專案目錄下建立乙個main.py檔案,下面的示例 都寫在這個檔案中,專案執行時,在命令列下執行...

scrapy的安裝執行

方式一 直接在pycharm裡面的settigs projectinterpreter下面新增scrapy 方式二 方式一不可行,手動新增scrapy框架 第一步 安裝好conda和python 第二步 將conda配置到環境變數 第三步 在cmd安裝 conda install c conda f...