二 python爬蟲之基於requests模組學習

2021-10-25 07:41:18 字數 1396 閱讀 5702

requests模組是python中原生的基於網路請求的模組,其主要作用是用來模擬瀏覽器發起請求。功能強大,用法簡潔高效。在爬蟲領域中佔據著半壁江山的地位。
因為在使用urllib模組的時候,會有諸多不便之處,總結如下:

手動處理url編碼

手動處理post請求引數

處理cookie和**操作繁瑣

自動處理url編碼

自動處理post請求引數

簡化cookie和**操作

安裝:pip install requests

使用流程

指定url

基於requests模組發起請求

獲取響應物件中的資料值

持久化儲存

# 2020-10-25

import requests

import json

if __name__==

"__main__"

:# 指定url

url =

''# ua偽裝

headers =

id_list =

# 儲存企業id

id_alllist =

# 儲存所有企業的詳細資訊

# 引數的封裝

for page in range(1,3):

page = str(page)

data =

# 傳送請求

response = requests.post(url=url,headers=headers,data=data)

# 獲取資料

page_idlist= response.json(

)#字典型別

# print(page_idlist)

for dic in page_idlist[

'list'

]:'id'])

print(page)

print(id_list)

# 通過id 獲取企業詳情資料

post_url =

''forid

in id_list:

post_data =

response = requests.post(url=post_url,headers=headers,data=post_data)

all_ms =response.json(

)#print(all_ms)

with open(

'./06_all_list.json','w',encoding=

'utf-8'

) as fp:

json.dump(id_alllist,fp=fp,ensure_ascii=false)

print(

'爬取完成!'

)

python之爬蟲(二)爬蟲的原理

在上文中我們說了 爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以...

python爬蟲之urllib 二

urllib.error可以接收urllib.request產生的異常,urllib.error有三個方法,如下 urlerror是oserror的乙個子類,httperror是urlerror的乙個子類,伺服器上http的響應會返回乙個狀態碼,根據這個http狀態碼,我們可以知道我們的訪問是否成功...

基於python的爬蟲

本次初學,參考的資料見 功能主要是抓取韓寒的部落格內容,以及儲存 到 hanhan的資料夾中,執行環境實在linux下的。見 具體 如何 usr bin env python coding utf 8 import urllib import time url 60 con urllib.urlop...