爬蟲requests操作與網路常識需知

2022-07-07 15:30:19 字數 2403 閱讀 9637

'''

1.使用瀏覽器訪問**

1.傳送請求

2.服務端接收請求

3.服務端返回響應

4.瀏覽器美化頁面給你看

2.使用爬蟲**模擬瀏覽器訪問**

1.傳送請求

2.服務端接收請求

3.服務端返回響應

4.爬蟲接收伺服器返回的響應通過**篩選出需要的資料並儲存到庫中

************

基於網路傳輸資料,都是二進位制

在python中也可以是bytes型別

************

'''pip3 install requests

# 匯入

import requests

# 使用

requests.get(url)

requests.post(url)

'''url

統一資源定位符(就是**)

網路上的資源很多,如何明確我們的目標呢,使用url明確目標

'''

規定了瀏覽器與服務端之間資料互動的各項原則

1.四個特性(此處劃重點)

1.給予tcp,ip協議作用於應用層之上的協議(忘了去看預科)

2.給予請求響應

給予http互動資料的伺服器不會主動傳送資訊給你

你先主動請求它才會響應你(妖豔賤貨)

3.無狀態

不儲存使用者的狀態(遊客模式)

4.無/短連線

互動後連線斷開(你不是她唯一,阿哲)

2.資料格式

請求資料格式

請求首行: 請求方法,協議版本,告知以下內容

# 請求頭: 包含了一大堆k:v鍵值對,用於說明請求方身份資訊,驗證資訊等

(此處換行符)

請求體: 存放著賬號密碼敏感資訊(get請求資料不在這裡)

響應資料格式

響應首行: 請求方法,協議版本,告知以下內容

響應頭: 包含了一大堆k:v鍵值對

(此處換行符)

響應體: 瀏覽器展示出來的資料

3.響應狀態碼

暗號啥的,代替文字說明你與服務端互動的狀態說明

1xx 服務端已經接受到資訊正在進行處理,可以繼續提交或等待

2xx 請求成功,服務端並返回了相應的響應

3xx 重定向,就是介面跳轉,會員才能繼續讓你登入啥的

4xx 403你沒有訪問許可權,404訪問的資源不存在

5xx 伺服器炸了昂

'''響應狀態碼很多公司有自己定製的獨有狀態碼

看看b站的=-=

'''

**防止你白嫖,當然你肯定想繼續白嫖

1.校驗你是否是乙個瀏覽器

通過檢視請求頭是否有乙個標識你是乙個瀏覽器的k:v鍵值對

破解措施

就是在我們的請求頭中帶上上述的鍵值對即可

# **驗證是否是瀏覽器時,攜帶請求頭資料(小破站沒有可以直接搞)

res=requests.get(

'',)print(res)# 200

import requests

# 在請求頭中直接加入引數

res=requests.get(

'',params=,

)print(res) # 200

http協議四大特性中有乙個特性是無法儲存使用者狀態,但是我們現在很多軟體都需要儲存使用者狀態

在開始階段所有訪問**的使用者都屬於遊客模式

但是基於許可權使用者與**都對於身份驗證有需求

# cookie與session應運而生

cookie模式是指使用者進行登入操作與伺服器驗證之後,瀏覽器會儲存使用者資訊,之後每次與服務端互動代替使用者登入資訊操作,但是使用者的敏感資訊會存於瀏覽器中,安全性較低

sesion模式是瀏覽器與服務端互動後,服務端驗證後返回一串隨機字串,瀏覽器cookie記錄該字串用作身份資訊繼續與服務端做互動

# 無論是cook模式還是session模式都並非完全完全,在網際網路世界中沒有絕對的安全

兩種模式都基於cookie,瀏覽器是可以設定拒絕cookie,可以幫好朋友搞乙個!!!

1.抄寫今日筆記(尤其是http協議和cookie與session)

針對cookie與session需要你們自己用自己的話描述

2.練習requests模組

朝其他**傳送get請求獲取資源

網路爬蟲(requests基本使用)

get請求型別 總覽 import requests url www.com params headers verif true proxies auth username password timeout 10r requests.get url,params params,headers hea...

python網路爬蟲之requests庫

import requests1 requests庫有兩個物件,request物件和response物件,下表是response物件的屬性 屬性說明 r.status code http請求的返回狀態,200表示連線成功,404表示失敗 r.text http響應內容的字串形式,即,url對應的頁面...

網路爬蟲之Requests庫入門

requests庫是python中用於網路爬蟲的較為簡單的庫。其中語法格式如下 r requests.get url,params none kwargs 1 構造乙個向伺服器請求資源的request物件,包含爬蟲返回的去不得內容 2 返回乙個包含伺服器資源的response物件 url 你獲取頁面...