python爬蟲之urllib 二

urllib.error可以接收urllib.request產生的異常，urllib.error有三個方法，如下：

urlerror是oserror的乙個子類，httperror是urlerror的乙個子類，伺服器上http的響應會返回乙個狀態碼，根據這個http狀態碼，我們可以知道我們的訪問是否成功。例如200狀態碼，表示請求成功，再比如常見的404錯誤等。

# -*- coding: utf-8 -*-
from urllib import request
from urllib import error
url = ""
req = request.request(url)
try:
response = request.urlopen(req)
html = response.read().decode('utf-8')
print(html)
except error.urlerror as e:
print(e.reason)

我們可以看到如下執行結果：

[errno 11002] getaddrinfo failed 獲取位址資訊失敗。

再看下httperror異常

# -*- coding: utf-8 -*-
from urllib import request
from urllib import error
#乙個不存在的資源

執行結果：

404 雖然鏈結伺服器沒有問題，但是所請求的html資源不存在。

urlerror和httperror混合使用，值得注意的一點是，如果想用httperror和urlerror一起捕獲異常，那麼需要將httperror放在urlerror的前面，因為httperror是urlerror的乙個子類。如果urlerror放在前面，出現http異常會先響應urlerror，這樣httperror就捕獲不到錯誤資訊了。

# -*- coding: utf-8 -*-
from urllib import request
from urllib import error
#乙個不存在的資源

也可以使用hasattr函式判斷urlerror含有的屬性，如果含有reason屬性表明是urlerror，如果含有code屬性表明是httperror

# -*- coding: utf-8 -*-
from urllib import request
from urllib import error
#乙個不存在的資源
python爬蟲之urllib 四
每個 都會定義robots.txt 檔案，這個檔案可以告訴網路爬蟲爬取該 時存在哪些限制。作為良好網民以及其他人利益，一般上遵從這些限制。如何檢視這個檔案？可以通過在目標 站點或網域名稱後面加上 robots.txt 進行訪問。例如 目標 站點 的 robots.txt 檔案就是 robots.tx...
Python爬蟲之urllib模組2
python爬蟲之urllib模組2 pg 55,乙個待畢業待就業的二流大學生。看了一下上一節的反饋，有些同學認為這個沒什麼意義，也有的同學覺得太簡單，關於 beautifulsoup 和lxml 獲取後面的鏈結我們能不能如法炮製呢，我們先來試試。我們把 寫成下面那樣 然後我們現在來試試 結果我們發...
Python 爬蟲乾貨之urllib庫
小試牛刀 怎樣扒網頁呢？其實就是根據url來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段html 加 js css，如果把網頁比作乙個人，那麼html便是他的骨架，js便是他的肌肉，css便是它的衣服。所以最重要的部分是存在於html...

python爬蟲之urllib 二

python爬蟲之urllib 四

Python爬蟲之urllib模組2

Python 爬蟲乾貨之urllib庫

相關推薦