爬蟲之 scrapy 框架總結

2021-09-21 06:29:04 字數 1222 閱讀 9733

寫在前面的話:最近重新學了一下scrapy框架,之前沒學好,現在總結一下…以便以後重灌不需要重新找資料

需要三個庫 lxml, twist, pywin32 一般前兩個都有

如果有問題輸入下面這句

1.items.py存放資料模型

三個方法最常用

注意啟用pipline,在setting.py中設定

2.middlewares.py存放各種中介軟體的檔案

3.pipelines.py儲存

4.setting.py配置資訊

robotstxt_obey = false 肯定不服從唄

headers 新增 user-agent

item_piplines

response 是乙個htmlresponse物件,可以用xpath提取資料,提取出來需要用get()getall()獲取用yield返回,或者用列表儲存再返回

1. jsonitemexporter

每次把資料新增到記憶體中,最後統一寫到磁碟裡。最後儲存的是乙個列表,滿足json規則,可以直接轉換為dataframe型別進行資料分析,便於操作。劣勢在於資料量越大,記憶體消耗越嚴重。

2. jsonlinesitemexporter

每次呼叫export_item()時儲存item到硬碟,優勢在於處理資料直接儲存到硬碟,不占用記憶體,資料也較安全。劣勢在於每個字典是一行,檔案不滿足json規則。

命令:scrapy startproject -t crawl name

需要使用rulelinkextracter。決定爬蟲的根本設定

allow:設定規則的方法,限制想要的url, 用正則表達

follow:爬取當前頁面,滿足allow,且設定為true則繼續爬取, 否則設定為false

from scrapy.spiders import crawlspider
繼承的是crawlspider這個類

可以方便的爬取正則規定的url。

Python之scrapy框架爬蟲

scrapy命令詳解 可能是如今最全最簡單的scrapy命令解釋 明天上班,又要爬 現在每天做的工作有50 的時間爬 40 的時間清理資料,10 寫報告。若想自學資料分析,側重點很重要,我當初把大部分經歷放在了python的pandas numpymatplotlib上面,其他時間一部分放在sql身...

scrapy爬蟲框架之ImagePipeline

item pipeline item在spider中獲取後,將傳送到item pipeline中,執行對item的後續處理。每個item pipeline元件實現了簡單方法,它們接收item並執行一些操作,決定丟棄item還是讓其通過pipeline。item pipeline的作用 當然,你也可以...

python爬蟲框架之Scrapy

scrapy 是乙個爬蟲框架,提取結構性的資料。其可以應用在資料探勘,資訊處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。基於twisted 準備步驟 首先安裝依賴庫twisted 在這個 下面去尋找符合你的python版本和系統版本的twisted pip install 依賴庫的路徑 ...