爬蟲基礎 HTTP基本原理

2022-09-11 05:06:16 字數 1936 閱讀 2300

1、先了解uri和url

uri的全稱uniform resource identifier即統一資源標誌符,url的全稱universal resource locator即統一資源定位符。

舉例來說,如是乙個鏈結,它是乙個uri,也是乙個ur。即有這樣的乙個圖資源,我們用uri/url來指定了它唯一的訪問方式,這其中還包括了訪問協議、訪問路徑(/即根目錄)和資源名稱,同過這樣的鏈結就可以在網際網路上找到這個資源。

url是uri的子集,也就是說每乙個url都是uri,但uri不一定是url。怎樣的情況下uri不是url?uri還有乙個子類是urn全稱是universa resour name,即統一資源名稱。urn只命令資源而不指定如何定位資源。但是在目前的網際網路中,urn用的很少一般用的都是uri/url,一般的網頁鏈結我們可以稱其為uri或者url。

2、http和https

在訪問乙個網頁它的url是以http或者https開頭,這就是訪問資源的需要的協議型別。還有ftp、sftp、smd開頭的url,這些都是協議型別。

http的全稱是hyper text transfer protocol,中文名是超文字傳輸協議。用於從網路傳輸超文字資料到本地瀏覽器的傳送協議,它能保證高效而準確的傳送超文字文件。

https的全稱是hyper text transfer protocol over secure socket layer,是以安全為目標的http通道。簡單講就是http的安全版。

https的安全基礎是ssl,因此通過他傳輸的內容都是經過ssl加密的,主要作用可以分為兩種:

而某些**雖然使用了https協議,但還是會被瀏覽器提示不安全。那是因為它的ca證不被ca機構信任,所以證書驗證就不會通過而提示「你的連線不是私密連線」,但是實際上它的資料傳輸依然是經過ssl的加密。

3、http請求過程

我們在瀏覽器中輸入乙個url然後回車就能看見自己想看見的網頁。實際上這個過程是瀏覽器向**的伺服器傳送乙個請求,伺服器接收到這個請求後進行處理和解析,然後返回對應的響應傳回給瀏覽器。響應裡面包含了頁面的源**等內容,瀏覽器再對其進行解析,然後將網頁呈現。

4、請求

請求是有客戶端向服務端發出,可以分為四個部分:請求方法(request method)、請求的**(request url)、請求頭(request headers)、請求體(request body)。

4.1、請求方法

常見的請求方法有兩種:get和post。

在瀏覽器中直接輸入url並回車,這便是乙個get請求,請求的引數會直接包含到url裡。例如搜尋bilibili,這就是乙個get請求,那麼這個url就是其中就包含了請求內容。而post請求大多是在表單提交時發起。比如對於乙個登陸表單,輸入使用者名稱和密碼後,點選登入,這就會發起乙個post請求,其資料通常以表單的形式傳輸,而不會體現在url中。

get個post請求方法有什麼區別:

我們平常大多遇到的都是get和post,但還是有一些其他的請求方法:

4.2、請求的**

請求的**,即統一資源定位翻符url,它可以唯一確定我們想請求的資源。

4.3、請求頭

請求頭用來說明伺服器要使用的附加資訊,比較重要的資訊有cookie、referer、user-agent等。

4.4、請求體

請求體一般承載的內容是post請求中的資料,而對於get請求,請求體則為空。

5、響應

響應是由伺服器向客戶端返回的內容,可以分為三部分:響應狀態碼、響應頭和響應體。

5.1、響應狀態碼

響應狀態碼表示伺服器的響應狀態,如200表示伺服器正常響應,404表示頁面未找到。

5.2、響應頭

響應頭包含了伺服器對請求的應答資訊,如content-type、server、set-cookie等。

5.3、響應體

響應當中最重要的就是響應體的內容了,響應的正文資料都在響應體中,比如請求網頁時,它的響應體就是網頁的htlm**。請求一張時,響應體就是的二進位制資料。

爬蟲基礎 HTTP基本原理

爬蟲基礎 http基本原理 uri 統一資源標誌符 url 是uri的子集 一般的網頁鏈結既可成為url也可稱為uri 超文字 html源 http和https http 用於從網路傳輸超文字資料到本地瀏覽器的傳輸協議。https http的安全版本,加入了ssl層 http的請求過程 傳送乙個請求...

爬蟲基本原理

一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...

爬蟲基本原理

三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...