http協議簡單學習

2021-10-07 19:19:22 字數 1737 閱讀 3947

1. http以及https的概念和區別

https:http+ssl(安全套接字層),即帶有安全套接字的超文字傳輸協議,預設埠號:443

ssl對於傳輸的內容進行加密

2. 爬蟲特別關注的請求頭和響應頭(*為常用請求頭)

2.1請求頭(偽裝)

host (網域名稱)

connection(鏈結型別,(

*user-agent(使用者**,提供系統資訊和瀏覽器資訊)

*referer(頁面跳轉處,從哪個頁面跳轉過來的,檢查請求是否合法)

*cookie(狀態保持,辨別使用者身份)
2.2響應頭
*set-cookie(對方伺服器設定cookie到使用者瀏覽器的快取)
無痕模式

3 常見狀態碼

所有狀態碼都不可信,一切以是否從抓包得到的響應中獲取到資料為準

network中抓包得到的原始碼才是判斷依據,elements中的原始碼時渲染之後的原始碼,不能作為判斷標準

4 瀏覽器執行過程

4.1http請求過程

瀏覽器在拿到網域名稱對應的ip後,先向位址列中的url傳送請求,並獲取響應

瀏覽器每獲取乙個響應就對展示出的結果進行新增(載入),js,css等內容會修改頁面內容,js也可以重新傳送請求,獲取響應

從獲取第乙個響應並在瀏覽器中展示,直到最終獲取全部相應,並在展示的結果中新增內容或修改-----這個過程叫做瀏覽器的渲染

4.2 注意:

爬蟲只會請求url位址,對應的拿到url位址對應的響應(該響應內容可以是html、css、js、等)

瀏覽器渲染出來的頁面和爬蟲請求的頁面很多時候並不一樣,因為爬蟲不具備渲染的能力

瀏覽器頁面

骨骼檔案(html靜態檔案)

肌肉檔案(js/ajax請求)

**(css/font/)

抓包過程:根據傳送請求的流程分別在骨骼/肌肉/**響應中查詢資料

知識點:理解 瀏覽器展示的結果可以由多次請求對應的多次響應共同渲染出來,而爬蟲是一次請求對應乙個響應

HTTP協議的簡單學習

協議 計算機通訊網路中兩台計算機進行通訊時所必須共同遵守的約定或規則。http協議 hyper text transfer protocol的縮寫,即超文字傳輸協議,是一種規定了瀏覽器和伺服器之間通訊的規則。url 統一資源定位符 http請求主要組成 請求行請求頭 請求體 常見的請求方式包括get...

簡單的http協議

1.請求報文的內容 響應報文的內容 2.http是無狀態協議,來乙個請求就處理乙個,不儲存狀態。對於某些購物 之類的需要儲存登入狀態,就引進了cookie技術。3.告知伺服器意圖的http方法 get 獲取資源。post 傳輸實體主體,功能與get相似,但post的主要目的並不是獲取響應的主體內容。...

http協議簡單了解

現在我們來看一下這個響應頭的乙個例子,還是只說明一些我們現在需要知道的,其他內容讀者可以自己去查詢相關的內容。在這個例子中的響應頭我們可以看到 1 在第一行就告訴瀏覽器http協議的版本是1.1,狀態碼是200,意思是ok,就是說你的請求我同意了。2 在第二行就是告知瀏覽器我伺服器的名字。4 在第四...