爬蟲截獲http錯誤碼（Python）

原文：

http狀態碼描述：1）

2）3）

因為預設的處理器處理了重定向(300以外號碼)，並且100-299範圍的號碼指示成功，所以你只能看到400-599的錯誤號碼。scrapy預設的設定是過濾掉有問題的http response(即response狀態碼不在200-300之間)。因此403的情況會被忽略掉，意思就是我們不是處理這個url 請求的response，直接就忽略，也就是及時我們用response.status == 403判斷沒有作用，因為只有status處於200-300的請求才會被處理。故：

1）利用scrapy爬蟲截獲狀態碼：可在爬蟲模組的爬蟲類中加上handle_httpstatus_list = [『xx』]，陣列中填需要截獲的狀態碼，如要擷取403和503.則handle_httpstatus_list = [403, 503]，在parse方法中通過response.status判斷其狀態碼，進行下一步的處理。

2）利用urllib2爬取**截獲狀態碼：如圖所示，若請求不成功，則會出現錯誤程式停止執行，通過try..except..捕獲錯誤進行處理，

通過e.code可得到httperror的狀態碼

爬蟲截獲http錯誤碼（Python）

HTTP的錯誤碼

http返回錯誤碼

Http錯誤碼說明

爬蟲 截獲http錯誤碼（Python）

HTTP的錯誤碼

http返回錯誤碼

Http錯誤碼說明

相關推薦

爬蟲截獲http錯誤碼（Python）