爬蟲 02 requests模組

2021-10-18 03:04:13 字數 2031 閱讀 9475

見ipynb

見ipynb

#實現引數動態化:

params=

response = requests.get(url=url,params=params,headers=headers)

解決方法:

#修改響應資料的編碼格式

#encoding返回的是響應資料的原始的編碼格式,如果給其賦值則表示修改了響應資料的編碼格式

response.encoding=

'utf-8'

page_text = response.text

反反爬策略:

偽裝流程

headers =

response = requests.get(url=url,params=params,headers=headers)

定義-動態載入的資料

檢測網頁中是否存在動態資料

選取第乙個包(位址列的url對應的資料報)

在response欄目檢視返回的包是否有我們想要的資料(比如「蝙蝠俠」)(在該資料報的response選項卡搜尋我們想要爬取的資料,如果搜搜到了結果則表示資料不是動態載入的,否則表示資料位動態載入的)

捕獲動態資料

請求的url(可以刪除後面的引數,另加引數params《見3》)

#**,去掉後面的引數

url =

''

請求方式

請求攜帶的引數

看到響應資料

解析響應資料**:

先觀察響應資料的格式後再去編寫**(json()、movie[『title』]…)

#.json()將獲取的字串形式的json資料序列化成字典或者列表物件

page_text = response.json(

)#page_text

#解析出電影的名稱+評分

for movie in page_text:

name = movie[

'title'

] score = movie[

'score'

]print

(name,score)

chrome(抓包工具)-xhr:將所有資料報當中基於ajax請求的資料報

在錄入關鍵字的文字框中錄入關鍵字按下搜尋按鈕,發起的是乙個ajax請求

基於抓包工具定位到該ajax請求的資料報,從該資料報中捕獲到:

觀察引數

看到pageindex隨著頁數的增加而增加

迴圈爬取

url =

''for page in

range(1

,8):

data =..

.

將前5頁企業的資料爬取即可

難點

python爬蟲requests模組

首先,沒有安裝的先安裝 cmd pip conda install requests 先給大家乙個模板,如果已經很熟悉了,直接忽略,不懂得就可以看看了 接下來解釋一下相應的 的意思 這個和上和上面的是一樣的,執行後輸出的 都是一樣的啦 coding utf 8 引入網路請求模組,該模組有兩個重要的物...

python爬蟲 requests模組

功能 模擬瀏覽器發請求 指定url 發起請求 獲取響應資料 持久化儲存 import requests 指定url url 發起請求,返回乙個響應對像 response requests.get url url 獲取響應資料 text返回的是字串型別的響應資料 page text response....

爬蟲之requests模組

requests 唯一的乙個非轉基因的 python http 庫,人類可以安全享用。警告 非專業使用其他 http 庫會導致危險的 包括 安全缺陷症 冗餘 症 重新發明輪子症 啃文件症 抑鬱 頭疼 甚至死亡。今日概要 知識點回顧 為什麼要使用requests模組 使用requests模組 如何使用...