python爬蟲學習 requests模組

2021-10-25 02:16:18 字數 3602 閱讀 4573

- python中原生的一款基於網路請求的模組,功能非常強大,簡單便捷,效率極高。

作用:模擬瀏覽器發請求。

如何使用:(requests模組的編碼流程)

- 指定url

- 發起請求

- 獲取響應資料

- 持久化儲存

環境安裝:

- pip install requests

練習:1.爬取搜狗首頁的頁面資料

# 需求:爬取搜狗首頁資料

import requests

# -指定url

url =

''# 發起請求

response = requests.get(url=url)

# 獲取響應資料

page_text = response.text

print

(page_text)

# 持久化儲存

with

open

('./sogou.html'

,'w'

, encoding=

'utf-8'

)as fp:

fp.write(page_text)

練習鞏固:

1.爬取搜狗指定詞條對應的搜尋結果頁面(簡易網頁採集器)(

import requests

# 指定ua,通過ua檢測

headers =

# 指定url

url =

'web'

# 處理url中攜帶的引數

kw =

input

("請輸入要查詢的內容:"

)param =

# 傳送請求

page_text = requests.get(url=url,params=param,headers=headers)

.text

# print(page_text)

# 持久化儲存得到的資料

filename = kw+

'.html'

with

open

(filename,

'w',encoding=

'utf-8'

)as fp:

fp.write(page_text)

print

(filename,

'儲存成功'

)

import requests

post_url =

''headers =

kw =

input

("請輸入要翻譯的內容:"

)data =

page_json = requests.post(url=post_url,data=data,headers=headers)

.json(

)print

(page_json)

3.爬取豆瓣電影分類排行榜中的電影詳情資料(

import requests

import json

# 指定url

url =

''headers =

param =

page_json = requests.get(url=url, params=param, headers=headers)

.json(

)# print(page_json)

fp =

open

('./douban.json'

,'w'

, encoding=

'utf-8'

)json.dump(page_json, fp=fp, ensure_ascii=

false

)

4.爬取肯德基餐廳位址查詢(

import requests

import json

url =

''headers =

kw =

input()

page =

input

('請輸入查詢的頁數:'

)data =

page_json = requests.post(url=url, data=data, headers=headers)

.json(

)page_txet = requests.post(url=url,data=data,headers=headers)

.text

filename = kw + page +

'.html'

with

open

(filename,

'w',encoding=

'utf-8'

)as fp:

fp.write(page_txet)

# filename = kw + page + '.json'

# with open(filename, 'w', encoding='utf-8') as fp:

# json.dump(page_json, fp=fp, ensure_ascii=false)

print

('查詢完畢'

)

5.爬取中華人民共和國化妝品生產許可證相關資料(

import requests

import json

url =

''headers =

# 儲存企業id

id_list =

# 儲存所有企業詳情資料

all_data_list =

# 分頁操作

for page in

range(1

):page =

str(page)

data =

# 獲取id

ids_json = requests.post(url=url, headers=headers, data=data)

.json(

)# print(ids_json)

for dic in ids_json[

'list']:

'id'])

# print(id_list)

post_url =

''forid

in id_list:

data =

data_json = requests.post(

url=post_url, headers=headers, data=data)

.json(

)# print(data_json)

print

(all_data_list)

#持久化儲存

fp =

open

('./alldata.json'

,'w'

, encoding=

'utf-8'

) json.dump(all_data_list, fp=fp, ensure_ascii=

false

)print

('第'

, page,

'頁爬取完畢'

)

Python爬蟲 模擬瀏覽器訪問 Requests

有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...

Python爬蟲學習

最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...

Python學習 爬蟲

在搜尋python知識的時候一直看到爬蟲相關知識,感覺挺好玩的,打算簡單了解一下。1 找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html js css 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的了。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬...