Python爬蟲入門1之urllib庫的使用

2021-07-25 07:37:19 字數 939 閱讀 6108

這是我第一次認真的寫部落格,真正的記錄下我的學習過程。學習爬蟲之前,應該有html的基礎,python語言的基本用法,再入門爬蟲,隨著爬蟲的深入,再學習python的正規表示式等,本人小白一枚,我的爬蟲之路開始啦

urrlib是python中自帶的一種簡單易用的模組,使用它我們可以獲取一些簡單的網頁資訊。當然在這之前,我自學了

這是我截出來的結果哦,用的編譯器是sublime text3,將檔案儲存後,按快捷鍵『ctrl+b』直接執行

首先我們需要用的urllib庫,用import匯入,可以使用dir(urllib)幫助檢視urllib庫中有哪些方法,定義乙個url,實際就是**。

1

urlopen

(url

,data

,timeout)

第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。

第二三個引數是可以不傳送的,data預設為空none,timeout預設為 socket._global_default_timeout

2.html=urllib.urlopen(url),用來獲取類檔案物件

3。content=html.read(),用read()方法讀取檔案的資訊

4  print content,列印讀取的資訊

當獲取資訊的物件為如網易「www.163.com」,他的字元編碼為「gbk」,會出現錯誤,應該為:

content=html.read().decode("「gbk」).encode("utf-8"),

總結:

gecode()方法:獲得網頁狀態碼

info()方法:獲得網頁的同步資訊,判斷伺服器型別等,如字元編碼,網頁檔案長度,更新時間等

關於網頁狀態碼:

404,:網頁不存在,403禁止訪問,200正常訪問,301永久定向訪問,302臨時定向訪問

python網路爬蟲入門之URL編碼模組

為什麼要給位址 編碼 我們在瀏覽器裡面輸入查詢引數時瀏覽器會自動給我們進行編碼,當我們用爬蟲程式進行獲取內容時瀏覽器識別不了我們所輸入的內容,所以就要編碼給url位址中查詢引數進行編碼 編碼前 https 美女編碼後 https e7 be 8e e5 a5 b3 比如我們在瀏覽器裡輸入 美女 瀏覽...

Python爬蟲入門1

請求url 請求方式 post 請求頭cookie user agent 請求體utf8,authenticity token,login,password,webauthn support,commit請求url 請求方式 get請求頭 cookie user agent import re im...

Python爬蟲入門1 序章

老猿python博文目錄 老猿學爬蟲應該是2019年7月初開始的,學習了2個多月,寫了免費的 爬蟲專欄 在該專欄內爬蟲實戰應用的場景與網上大部分已知的場景基本都不一樣,是從復用 登入會話資訊來開發應用的。如果要從 登入開始寫應該也可以,但老猿沒有去做這方面的工作,因為網上有很多這樣的文章。老猿的這種...