提公升Scrapy框架爬取資料效率的五種方式

2022-05-20 21:18:38 字數 520 閱讀 3923

1、增加併發執行緒開啟數量

settings配置檔案中,修改concurrent_requests = 100,預設為32,可適當增加;

2、降低日誌級別

執行scrapy時會產生大量日誌占用cpu,為減少cpu使用率,可修改log輸出級別

settings配置檔案中log_level='error' 或 log_level = 'info' ;

3、禁止cookie

scrapy預設自動儲存cookie,占用cpu,如果不是真的需要cookie,可設定為不儲存cookie,以減少cpu使用率,

settings配置檔案中:cookies_enabled = false 解開注釋

4、禁止請求重試:

對於失敗的請求會重新傳送,則會減慢爬取速度,因此可以在對丟失少量資料也不影響時,禁止重試,

settings配置檔案中加:retry_enabled = false ;

在settings配置檔案中進行編寫:download_timeout = 10 設定超時時間;

scrapy框架全站資料爬取

每個 都有很多頁碼,將 中某板塊下的全部頁碼對應的頁面資料進行爬取 實現方式有兩種 1 將所有頁面的url新增到start urls列表 不推薦 2 自行手動進行請求傳送 推薦 yield scrapy.request url,callback callback專門用做於資料解析 下面我們介紹第二種...

提公升scrapy的爬取效率

增加併發 預設scrapy開啟的併發執行緒為32個,可以適當進行增加。在settings配置檔案中修改concurrent requests 100值為100,併發設定成了為100。降低日誌級別 在執行scrapy時,會有大量日誌資訊的輸出,為了減少cpu的使用率。可以設定log輸出資訊為info或...

scrapy爬取效率提公升配置

增加併發 預設scrapy開啟的併發執行緒為32個,可以適當進行增加。在settings配置檔案中修改concurrent requests 100值為100,併發設定成了為100。降低日誌級別 在執行scrapy時,會有大量日誌資訊的輸出,為了減少cpu的使用率。可以設定log輸出資訊為info或...