爬蟲基礎 HTTP基本原理

2021-09-17 07:52:45 字數 933 閱讀 3178

爬蟲基礎-http基本原理:

uri: 統一資源標誌符

url: 是uri的子集

一般的網頁鏈結既可成為url也可稱為uri

超文字: html源**

http和https:

http: 用於從網路傳輸超文字資料到本地瀏覽器的傳輸協議。

https: http的安全版本,加入了ssl層

http的請求過程:

傳送乙個請求,**伺服器接受到這個請求後進行處理和解析

然後返回對應的響應,接著傳回給瀏覽器,瀏覽器再進行解析

請求:客戶端向服務端發出

請求方法:

get post: 在位址列輸入url並回車,這便發起了乙個get請求

get引數包含在url裡面,post則不會

get方法提交資料最多只有1024個位元組 post沒有限制

一般登入時,需要寫入使用者名稱和密碼的時候,使用post方式

請求**:

即為url

請求頭:

說明伺服器使用的附加資訊 cookie referer user-agent

請求體:

承載post請求中的表單資料

響應:響應狀態碼:

200正常

404頁面未找到

500伺服器內部錯誤

響應頭:

data: 標識響應時間

last-modified: 指定資源最後修改時間

content-encoding: 指定響應內容編碼

server: 包含伺服器的資訊

content-type: 文件型別

set-cookie: 設定cookies

expires: 指定響應過期時間

響應體:

響應的徵文資料都在相應體中(network中preview可看到網頁源**)

爬蟲基礎 HTTP基本原理

1 先了解uri和url uri的全稱uniform resource identifier即統一資源標誌符,url的全稱universal resource locator即統一資源定位符。舉例來說,如是乙個鏈結,它是乙個uri,也是乙個ur。即有這樣的乙個圖資源,我們用uri url來指定了它唯...

爬蟲基本原理

一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...

爬蟲基本原理

三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...