爬蟲 截獲http錯誤碼(Python)

2021-07-07 05:41:39 字數 708 閱讀 3894

原文:

http狀態碼描述:1)

2)3)

因為預設的處理器處理了重定向(300以外號碼),並且100-299範圍的號碼指示成功,所以你只能看到400-599的錯誤號碼。scrapy預設的設定是過濾掉有問題的http response(即response狀態碼不在200-300之間)。因此403的情況會被忽略掉,意思就是我們不是處理這個url 請求的response,直接就忽略,也就是及時我們用response.status == 403判斷沒有作用,因為只有status處於200-300的請求才會被處理。故:

1)利用scrapy爬蟲截獲狀態碼:可在爬蟲模組的爬蟲類中加上handle_httpstatus_list = [『xx』],陣列中填需要截獲的狀態碼,如要擷取403和503.則handle_httpstatus_list = [403,  503],在parse方法中通過response.status判斷其狀態碼,進行下一步的處理。

2)利用urllib2爬取**截獲狀態碼:如圖所示,若請求不成功,則會出現錯誤程式停止執行,通過try..except..捕獲錯誤進行處理,

通過e.code可得到httperror的狀態碼

HTTP的錯誤碼

錯誤碼 1xx 資訊提示 這些狀態 表示臨時的響應。客戶端在收到常規響應之前,應準備接收乙個或多個1xx響應。100 繼續。101 切換協議。2xx 成功 這類狀態 表明伺服器成功地接受了客戶端請求。200 確定。客戶端請求已成功。201 已建立。202 已接受。203 非權威性資訊。204 無內容...

http返回錯誤碼

http響應碼響應碼由三位十進位制數字組成,它們出現在由http伺服器傳送的響應的第一行。響應碼分五種型別,由它們的第一位數字表示 1xx 資訊,請求收到,繼續處理 2xx 成功,行為被成功地接受 理解和採納 3xx 重定向,為了完成請求,必須進一步執行的動作 4xx 客戶端錯誤,請求包含語法錯誤或...

Http錯誤碼說明

http錯誤碼說明 http常見錯誤 列表彙總及解決方案 常見的http錯誤可以分為以下四大類。每一大類又細分為很多類小錯誤。分別是 1 401類錯誤 這表示你必須有乙個正確的使用者名稱及密碼方能得到對方網頁 unauthorizedsite 之使用權,例如瀏覽一些收費的網頁就會出現這個資訊。2 4...