Scrapy爬蟲錯誤日誌彙總

2021-09-19 18:04:59 字數 527 閱讀 5235

scrapy爬蟲錯誤日誌彙總

1、陣列越界問題(list index out of range)

原因:第1種可能情況:list[index]index超出範圍,也就是常說的陣列越界。

第2種可能情況:list是乙個空的, 沒有乙個元素,進行list[0]就會出現該錯誤,這在爬蟲問題中很常見,比如有個列表爬下來為空,統一處理就會報錯。

解決辦法:從你的網頁內容解析提取的**塊中找找看啦(人家比較習慣xpath + 正則),加油 ~

2、http狀態**沒有被處理或允許(http status code is not handled or not allowed)

原因:就是你的http狀態碼沒有被識別,需要在settings.py中新增這個狀態碼資訊,相當於c語言中的#define預處理巨集定義命令吧(我這麼理解)

解決辦法:在你的setting.py中,新增這麼一句短小精悍的話就ok了,緊接著就等著高潮吧您吶:httperror_allowed_codes = [403]

此篇文章持續更新,未完待續....

python爬蟲 scrapy日誌

1 scrapy日誌介紹 scrapy的日誌系統是實現了對python內建的日誌的封裝 scrapy也使用python日誌級別分類 logging.critical logging.erroe logging.warining logging.info logging.debug 2 如何在pyth...

Scrapy 爬蟲返回403錯誤

問題 抓取資料時,通常除錯資訊是 debug crawled 200 techbrood com referer none 如果出現 debug crawled 403 techbrood com referer none 表示 採用了防爬技術anti web crawling technique ...

Scrapy 爬蟲返回403錯誤

問題 抓取資料時,通常除錯資訊是 debug crawled 200 referer none 如果出現 debug crawled 403 referer none 表示 採用了防爬技術anti web crawling technique amazon所用 比較簡單即會檢查使用者 user ag...