爬蟲入門 HTTP和HTTPS

爬蟲的很關鍵的步驟就是傳送請求獲取響應，而在傳送請求獲取引數的過程中就是傳送http或https的請求，獲取http或https的響應，下面簡單的流程：

概念的比較：

https比http更安全，但是效能更低

瀏覽器先向位址列中的url發起請求，並獲取相應

瀏覽器每獲取乙個響應就對展示出的結果進行新增（載入），js，css等內容會修改頁面的內容，js也可以重新傳送請求，獲取響應

從獲取第乙個響應並在瀏覽器中展示，直到最終獲取全部響應，並在展示的結果中新增內容或修改————這個過程叫做瀏覽器的渲染

注意:

瀏覽器渲染出來的頁面和爬蟲請求的頁面很多時候並不一樣

所以在爬蟲中，需要以url位址對應的響應為準來進行資料的提取

host (主機和埠號)

connection (鏈結型別)

upgrade-insecure-requests (公升級為https請求)

user-agent (瀏覽器名稱)

accept (傳輸檔案型別)

referer (頁面跳轉處)

accept-encoding（檔案編譯碼格式）

cookie （cookie）

x-requested-with :xmlhttprequest (表示該請求是ajax非同步請求)

set-cookie （對方伺服器設定cookie到使用者瀏覽器的快取）

常見的狀態碼：

Python網路爬蟲 http和https協議

一.http協議 1.官方概念 http協議是hyper text transfer protocol 超文字傳輸協議的縮寫,是用於從全球資訊網 www world wide web 伺服器傳輸超文字到本地瀏覽器的傳送協議。雖然童鞋們將這條概念都看爛了，但是也沒辦法，畢竟這就是http的權威官方的...

爬蟲時url中http和https的區別

今天在爬取乙個網頁時發現總是爬取不成功，資訊量很少，只有幾行而原網頁量是很多的，後來我把url中的https換成了http後就把網頁原始碼全部爬取了，查了資料後發現url中使用http和https是有很大區別的 http獲取資料時資訊齊全，https獲取資料的資訊有缺失，在確定網路位址後，一般採...

http 和https http和https簡述

http https以及websocket的簡述。上圖包括三個部分建立連線，資料傳輸，斷開連線第一次握手客戶端傳送syn包 seq x 到伺服器，並進入syn sent狀態，等待伺服器確認第二次握手伺服器收到syn包，必須確認客戶的syn ack x 1 同時自己也傳送乙個syn包 seq...

爬蟲入門 HTTP和HTTPS

Python網路爬蟲 http和https協議

爬蟲時url中http和https的區別

http 和https http和https簡述

相關推薦