python 爬蟲學習入門5 requests庫

2021-10-25 13:55:34 字數 1453 閱讀 1890

requests庫為我們提供了乙個封裝好的 庫函式, 使用更為簡便

爬蟲步驟依然跟以前一樣

新增爬取**的url資訊,

用**獲得網頁資訊

資料分析

資料儲存

# resquests 庫的函式就相對簡單

import requests

url = requests.get(url)

# 呼叫get 函式即可取代urllib.request.urlopen函式,

response = requests.get(url)

# 通過content 屬性, 獲取**資訊, content 屬性返回值為二進位制

data = response.content.decode(

'utf-8'

)# 除了content 屬性,還有乙個text 屬性方法, 是requests庫自動識別的, 因為是自動識別的 所以可能會產生些意料之外的資料

data2 = response.text

下面為第一階段學習, 熟悉requests庫的基本函式呼叫,以及獲得到的各種資訊

import requests

class

res(

object):

def__init__

(self)

:# 新增url

url =

""# 新增頭部資訊, 瀏覽器資訊

headers =

# 在get 方法中可以新增頭部資訊

self.response = requests.get(url, headers=headers)

defrun

(self):

data = self.response.content.decode(

'utf-8'

)# 1. 獲取請求頭的資訊

request_headers = self.response.request.headers

# 2. 獲取相應頭資訊

response_headers = self.response.headers

# 3. 獲取相應的狀態碼

code = self.response.status_code

# 4. 獲取請求的cookie

resquest_cookie = self.response.request._cookies

# 5. 獲取相應的cookie

response_cookie = self.response.cookies

resquest庫中的get方法是基於request.request 中延伸的乙個方法

例如:request.get(url, params=params, headers=headers)

等於request.request.(『get』, params=params, headers=headers)

5re庫的使用

9.match物件的屬性 string 待匹配文字 re 匹配時使用的pattern物件 正規表示式 pos 正規表示式搜尋文字的開始位置 endpos 正規表示式搜尋文字的結束位置 10.match物件的方法 group 0 獲取匹配後的字串 start 匹配字串在原始字串的開始位置 end 匹配...

python爬蟲 re庫(正則)

1.re.match re.match嘗試從字元創的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,就會返回none。re.match pattern,string,flags 0 2.最常規的匹配 import re content hello 123 4567 world this is a...

python爬蟲之re模組

傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...