02 27 提高scrapy爬取效率的方法

2021-10-20 10:48:12 字數 482 閱讀 4948

1、增加併發(增加併發執行緒數)

scrapy預設開啟的執行緒為32個,可以適當增加。在setting檔案中修改為 100
2、降低日誌級別

在執行scrapy時會有大量日誌資訊輸出,為了減少日誌資訊的輸出,降低cpu的使用率,可以設定

輸出錯誤日誌 log_level='error' 或者 'info'

3、禁止cookie

如果不是真的需要cookie,則在爬取資料時可以禁止cookie,從而減少cpu的使用率。在

setting中寫 cookies_enabled=false

4、禁止重試:

對失敗的http進行重新請求會降低爬取速度,因此可以禁止重試;設定 retry_enabled=false
效率。設定: download_timeut=10 (超時時間為10s)

提高scrapy爬取效率配置

增加併發 預設scrapy開啟的併發執行緒為32個,可以適當進行增加。在settings配置檔案中修改concurrent requests 100值為100,併發設定成了為100。降低日誌級別 在執行scrapy時,會有大量日誌資訊的輸出,為了減少cpu的使用率。可以設定log輸出資訊為info或...

scrapy 爬取流程

什麼時候到pipeline,什麼 時候到spider這個就不說了,這個是框架跳轉到的流程 關鍵是訪問之前要登入怎麼辦,資料還要注入呢 這是個列表,裡面就是爬取的鏈結了 我們前面爬取就只是寫了乙個,但是其實可以寫多個 鏈結又是怎麼訪問的呢 這東西你就可以手動提取鏈結返回了 這東西你就得好好注意了 從入...

scrapy 爬取小說

速度是相當的快的 爬取整站的 最後結果儲存至mongodb資料庫 pycharm開發還是很好用的 建立專案 scrapy startproject daomubiji 執行專案 scrapy crawl daomubi settings default request headers items t...