requests模組爬取資料操作流程

2021-09-27 09:37:03 字數 1240 閱讀 6388

anaconda環境變數:

path環境裡面的這些值,就是為了在cmd終端你可以找到一些可執行檔案。

python 在path變數去找每個值,就相當於每乙個目錄,在裡面找python.exe

配置環境變數:我們有兩個需要配置的地方:

1,配置python.exe : 根目錄c:\anaconda3-----為了讓系統找到python.exe

2,配置pip:我們要配置c:\anaconda3\scripts來找pip.exe

所以要把他放在最上面。

開啟cmd輸入如下**查詢python.exe 與pip的path情況:

where python

where pip

pip install requests
1.因為請求有兩類。所以requests有兩個方法,get和post。

2.使用步驟:

1.導包

import requests

2.確定基礎url(確定帶爬取url是啥)

base_url = ''

3.發起請求,獲取響應

resposne = requests.get(base_url)

3.get方法的引數

requests.get(

url = 請求的url,

headers = 請求頭字典,

params= '請求引數』,

timeout='超時時長' )

4.res

響應包含:狀態行,響應頭,空行,響應正文。

(1)響應內容:

字串型別:res.text

二進位制型別(bytes):res.content

二進位制型別的作用:進行亂碼問題的解決;

print(response.content.decode('utf-8'))

(2)響應內容的編碼

亂碼的第一種解決方法:res.encoding

亂碼的第二種解決方法:res.text其實是使用的res.encoding設定 編碼格式來把響應內容轉換字串。如果res.text出現亂碼,解決辦法就是給res.encoding設定正確的編碼格式。

(3)獲取響應json內容。

res.json()

( 4 ) res.status_code :獲取狀態碼

( 5 ) res.url:獲取請求的url

( 6 ) res.headers:獲取響應頭

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存 將國風中文網制定頁的 的題目 作者 最近更新章節和時間抓取下來儲存到本地 小夥伴們,今天我們用的利劍是requests xpath 第一步 匯入模組 import requests from lxml import etree im...

requests爬蟲爬取頁面資料

新建檔案test.py,寫入一下 import requests 通過pip install requests安裝 from bs4 import beautifulsoup 通過pip install bs4安裝 import re 安裝了python就有了re模組 import json 安裝了...

利用requests模組爬取百度翻譯

import requests import json if name main 1.指定url post url 2.ua偽裝 headers 3.傳送請求 word input enter a word data response requests.post url post url,data ...