python 爬蟲 response得到亂碼

2021-08-22 19:24:46 字數 892 閱讀 6102

這個問題折磨了我幾乎一天,好在我倔強地不停搜尋解決方法。

「終於等到你,還好我沒放棄。」

進入正題,感謝大神的分享,開個傳送門:

以下為**,爬取漢字「一」的篆書字,得到網頁源**:

import requests

#使用post方法爬取網頁資訊

url = ''

data =

headers =

response = requests.post(url = url, data = data, headers=headers)

print(response.content)

過程:

當我使用get方法不傳入引數時,列印其得到的網頁的編碼格式。

url = ''

response = requests.get(url)

print(response.encoding)

>>>utf-8

得到結果:utf-8

但是當我用post方法傳入引數進去,列印其得到的網頁的編碼格式。

url = ''

data =

response = requests.post(url=url,data = data)

print(response.encoding)

>>>none

得到結果:none

百思不得其解,直到看到大神的解決方法,明白了當我輸入資料得到響應後的網頁原始碼時,它並未指定編碼方式。

文章: 中指出

所以本文重點

使用headers = ,

通過配置header 設定編碼解決問題。

Burpsuite設定攔截response

一 burpsuite設定攔截http https 1,攔截修改request 首先進入proxy options intercept client requests設定request攔截的規則 如果不勾選intercept requests based on the following rules...

Respons功能介紹 重定向以及特點

respons物件 功能 設定響應訊息 1.設定響應行 1.格式 http 1.1 200 ok 2.設定狀態碼 setstatus int sc 2.設定響應頭 setheader string name,string value 3.設定響應體 使用步驟 1.獲取輸出流 符輸出流 只能輸出字元資...

python爬蟲 非同步爬蟲

壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...