爬蟲入門 HTTP和HTTPS

2021-09-24 06:37:35 字數 770 閱讀 2779

爬蟲的很關鍵的步驟就是傳送請求獲取響應,而在傳送請求獲取引數的過程中 就是傳送http或https的請求,獲取http或https的響應,下面簡單的流程:

概念的比較:

https比http更安全,但是效能更低

瀏覽器先向位址列中的url發起請求,並獲取相應

瀏覽器每獲取乙個響應就對展示出的結果進行新增(載入),js,css等內容會修改頁面的內容,js也可以重新傳送請求,獲取響應

從獲取第乙個響應並在瀏覽器中展示,直到最終獲取全部響應,並在展示的結果中新增內容或修改————這個過程叫做瀏覽器的渲染

注意:

瀏覽器渲染出來的頁面和爬蟲請求的頁面很多時候並不一樣

所以在爬蟲中,需要以url位址對應的響應為準來進行資料的提取

host (主機和埠號)

connection (鏈結型別)

upgrade-insecure-requests (公升級為https請求)

user-agent (瀏覽器名稱)

accept (傳輸檔案型別)

referer (頁面跳轉處)

accept-encoding(檔案編譯碼格式)

cookie (cookie)

x-requested-with :xmlhttprequest (表示該請求是ajax非同步請求)

set-cookie (對方伺服器設定cookie到使用者瀏覽器的快取)

常見的狀態碼:

Python網路爬蟲 http和https協議

一.http協議 1.官方概念 http協議是hyper text transfer protocol 超文字傳輸協議 的縮寫,是用於從全球資訊網 www world wide web 伺服器傳輸超文字到本地瀏覽器的傳送協議。雖然童鞋們將這條概念都看爛了,但是也沒辦法,畢竟這就是http的權威官方的...

爬蟲時url中http和https的區別

今天在爬取乙個網頁時發現總是爬取不成功,資訊量很少,只有幾行 而原網頁 量是很多的,後來我把url中的https換成了http後就把網頁原始碼全部爬取了,查了資料後發現url中使用http和https是有很大區別的 http獲取資料時資訊齊全,https獲取資料的資訊有缺失,在確定網路位址後,一般採...

http 和https http和https簡述

http https以及websocket的簡述。上圖包括三個部分 建立連線,資料傳輸,斷開連線 第一次握手 客戶端傳送syn包 seq x 到伺服器,並進入syn sent狀態,等待伺服器確認 第二次握手 伺服器收到syn包,必須確認客戶的syn ack x 1 同時自己也傳送乙個syn包 seq...