Python3 網路爬蟲(一) urllib模組

2021-08-23 12:30:21 字數 1027 閱讀 9874

通過urllib內建模組直接獲取頁面html資料,利用程式執行http請求。

urllib分為四個模組

urllib.request 請求模組

urllib.error 異常處理模組 比如404

urllib.parse url 解析模組

urllib.robotparser robots.txt解析模組

寫乙個簡單的例子:

print ('urlerror', e.reason)常見問題:

1.瀏覽器模擬,設定user-agent

2.需要cookie,維持登陸使用者資訊

3.需要設定referer,解決「反盜鏈」

4.httperror和urlerror同時捕獲異常,需要將httperror放在urlerror的前面,因為httperror是urlerror的子類。urlerror放在前面會先響應urlerror,這樣httperror就無法捕獲錯誤資訊。

reference:

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...

Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁,再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...

初識Python3網路爬蟲

定義 網路爬蟲 web spider 又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲其實是通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 抓取網際網路上的資料,為我所用,有了大量的資料,就如同有了乙個資料銀行一樣,下一步就是如何將這些資料...