Python3 網路爬蟲（一） urllib模組

通過urllib內建模組直接獲取頁面html資料，利用程式執行http請求。

urllib分為四個模組

urllib.request 請求模組

urllib.error 異常處理模組比如404

urllib.parse url 解析模組

urllib.robotparser robots.txt解析模組

寫乙個簡單的例子：

print ('urlerror', e.reason)常見問題：

1.瀏覽器模擬，設定user-agent

2.需要cookie，維持登陸使用者資訊

3.需要設定referer，解決「反盜鏈」

4.httperror和urlerror同時捕獲異常，需要將httperror放在urlerror的前面，因為httperror是urlerror的子類。urlerror放在前面會先響應urlerror，這樣httperror就無法捕獲錯誤資訊。

reference：

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲，破解有道翻譯介面引數破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲五 python3安裝scrapy article details 60156205 py...

Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁，再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...

初識Python3網路爬蟲

定義網路爬蟲 web spider 又被稱為網頁蜘蛛，是一種按照一定的規則，自動地抓取資訊的程式或者指令碼。爬蟲其實是通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。爬蟲的價值抓取網際網路上的資料，為我所用，有了大量的資料，就如同有了乙個資料銀行一樣，下一步就是如何將這些資料...

Python3 網路爬蟲（一） urllib模組

Python 3 網路爬蟲

Python3 網路爬蟲 1

初識Python3網路爬蟲

相關推薦