python之urllib的基本使用

2022-09-19 21:39:23 字數 1695 閱讀 2333

urllib是我們用來網路請求的乙個第三方庫,可以制定url,獲取網頁資料

import urllib.request

# 傳送乙個get請求

def getreq()

:# 引入urllib庫中的request模組

# 呼叫request中的urlopen方法

# timeout設定超時時間

response = urllib.request.

urlopen

("", timeout=1)

# 由於respon是乙個物件位址,我們需要呼叫read()來獲取資料 使用urf-8解碼

# print(response.read().decode(

"utf-8"))

print

(response.status) # 獲取返回狀態資訊碼

print

(response.

getheaders()

) # 獲取響應頭

print

(response.

getheader

("content-type"

)) # 獲取響應頭某個具體資料

import urllib.parse

# 傳送乙個post請求

def postreq()

:# 使用urllib.parse進行引數封裝

data = urllib.parse.

urlencode()

# 使用二進位製流進行編碼

param =

bytes

(data, encoding=

"utf-8"

) response = urllib.request.

urlopen

("", data=param)

print

(response.

read()

.decode

("utf-8"))

# 忽略https證書

# 請求豆瓣

def reqdouban()

:try

: url =

""headers =

data =

bytes

(urllib.parse.

urlencode()

, encoding=

"utf-8"

)# 設定url,設定請求資料,設定請求頭,設定請求方式

("請求失敗"

)reqdouban

()

python爬蟲之urllib 二

urllib.error可以接收urllib.request產生的異常,urllib.error有三個方法,如下 urlerror是oserror的乙個子類,httperror是urlerror的乙個子類,伺服器上http的響應會返回乙個狀態碼,根據這個http狀態碼,我們可以知道我們的訪問是否成功...

python爬蟲之urllib 四

每個 都會定義robots.txt 檔案,這個檔案可以告訴網路爬蟲爬取該 時存在哪些限制。作為良好網民以及其他人利益,一般上遵從這些限制。如何檢視這個檔案?可以通過在目標 站點或網域名稱後面加上 robots.txt 進行訪問。例如 目標 站點 的 robots.txt 檔案就是 robots.tx...

Python模組之urllib模組

py2.x urllib庫 urllin2庫 py3.x urllib庫 變化 在pytho2.x中使用import urllib2 對應的,在python3.x中會使用import urllib.request,urllib.error。在pytho2.x中使用import urllib 對應的,...