Python網路爬蟲之HTTP的異常處理機制

一、urlerror（url錯誤異常）

通常，urlerror在沒有網路連線(沒有路由到特定伺服器)，或者伺服器不存在的情況下產生。這種情況下，異常同樣會帶有"reason"屬性，它是乙個tuple（可以理解為不可變的陣列），包含了乙個錯誤號和乙個錯誤資訊。看下面的示例

從程式中可以看到輸出為：[errno 11004] getaddrinfo failed，也就是說，錯誤號是11004，內容是getaddrinfo failed

二、httperror（httperror狀態錯誤）

伺服器上每乙個http 應答物件response包含乙個數字"狀態碼"。有時狀態碼指出伺服器無法完成請求。預設的處理器會為你處理一部分這種應答。例如:假如response是乙個"重定向"，需要客戶端從別的位址獲取文件，urllib2將為你處理。其他不能處理的，urlopen會產生乙個httperror。典型的錯誤包含"404"(頁面無法找到)，"403"(請求禁止)，和"401"(帶驗證請求)。http狀態碼表示http協議所返回的響應的狀態。比如客戶端向伺服器傳送請求，如果成功地獲得請求的資源，則返回的狀態碼為200，表示響應成功。如果請求的資源不存在，則通常返回404錯誤。 http狀態碼通常分為5種型別，分別以1～5五個數字開頭，由3位整數組成，如：200代表請求成功、304代表請求的資源未更新、400 代表非法請求，詳情見http狀態碼解析

httperror例項產生後會有乙個整型'code'屬性，是伺服器傳送的相關錯誤號。

error codes錯誤碼：因為預設的處理器處理了重定向(300以外號碼)，並且100-299範圍的號碼指示成功，所以你只能看到400-599的錯誤號碼。basehttpserver.basehttprequesthandler.response是乙個很有用的應答號碼字典，顯示了http協議使用的所有的應答號。當乙個錯誤號產生後，伺服器返回乙個http錯誤號，和乙個錯誤頁面。你可以使用httperror例項作為頁面返回的應答物件response。這表示和錯誤屬性一樣，它同樣包含了read,geturl,和info方法。

從程式中可以看到輸出了404的錯誤碼，也就說沒有找到這個頁面。

三、http異常處理方式

http異常處理方式

從示例中可以看到，兩種方式都能輸出異常：其中第二種中httperror必須寫在urlerror異常前，因httperror是urlerror的子類，如果urlerror在前面它會捕捉到所有的urlerror（包括httperror ）。

Python網路爬蟲之HTTP的異常處理機制

Python網路爬蟲 http和https協議

網路爬蟲（1）爬蟲與HTTP

Python 網路爬蟲之BeautifulSoup

Python網路爬蟲之HTTP的異常處理機制

Python網路爬蟲 http和https協議

網路爬蟲（1） 爬蟲與HTTP

Python 網路爬蟲之BeautifulSoup

相關推薦

網路爬蟲（1）爬蟲與HTTP