Python 理解使用requests庫爬取資料

2021-10-04 23:31:04 字數 593 閱讀 7348

requests庫是爬取資料的第三方庫,安裝方法:

pip3 install requests
用法:

r = requests.get(url)
r 是返回的response物件,有五個最常用的屬性:

屬性說明

r.status_code

http返回的請求狀態,200表示成功,400表示失敗

r.text

http響應內容的字串形式,即url對應的頁面內容

r.encoding

httpheader中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式(備選編碼方式)

r.content

http響應的二進位制形式

r.encoding:若header中沒有charset欄位,則認為編碼為iso-8859-1

有時,爬取的資料會出現亂碼,可能就是響應頭中的沒有charset欄位,預設編碼iso-8859-1,這時候可以通過修改響應的編碼方式來獲取我們想要的資料:

r.encoding = 'utf-8'

Python爬蟲 模擬瀏覽器訪問 Requests

有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...

python 使用flask的理解

相當於python的模擬程式入口,如果執行當前檔案,則該檔案內容會被執行,若該檔案內容被其他檔案引用,則不會執行檔案的內容 相當於python模擬的程式入口,python本身並沒有這麼規定,這只是一種編碼習慣。由於模組之間相互引用,不同模組可能有這樣的定義,而程式入口只有乙個。到底哪個程式入口被選中...

jinjia理解 python模板使用

還是工程實踐的鍋.首先,jinjia本質上是嵌入到html裡的,說白了,你寫的還是html檔案,只不過flask等架構會把它裡面嵌入的jinjia語句轉化為對應的html,相當於動態頁面。好像呼叫不了python函式,我曾用過str 顯示錯誤。for語句會把包含的所有 既包括jinjia,又包括ht...