爬蟲基礎 超文字

2021-09-24 13:16:43 字數 2146 閱讀 4679

1.超文字,其英文名稱叫作 hypertext,我們在瀏覽棉裡看到的網頁就是超文字解析而成的, 其網頁源**是一系列 html **, 裡面包含了一系列標籤,比如 img 顯示, p 指定顯示段落等 。 瀏覽器解析這些標籤後,便形成了我們平常看到的網頁,而網頁的源** html 就可以稱作超文字 。例如,我們在 chrome 瀏覽器裡面開啟任意乙個頁面,如**首頁,右擊任一地方井選擇「檢查」項(或者直接按快捷鍵 fl2 ), 即可開啟瀏覽器的開發者工具,這時在 elements 選項卡即可看到當前阿頁的源**,這些源**都是超文字,如圖

2.http 和 https

在**的首頁 .com/中, url 的開頭會有 http 或 https ,這就是訪問資源需要的協議型別 。 有時,我們還會看到坤、 s丘p 、 smb 開頭的 url,它們都是協議型別 。 在爬蟲中,我們抓取的頁面通常就是 http 或 ht耶協議的,這裡首先了解一下這兩個協議的含義。http 的全稱是 hyper text transfer protocol ,中文名 叫作超文字傳輸協議 。 http 協議是用於從網路傳輸超文字資料到本地瀏覽器的傳送協議,它能保證高效而準確地傳送超文字文件 。 http 由全球資訊網協會( world wide web consortium )和 internet 工作小組 ietf ( internet engineering task force )共同合作制定的規範,目前廣泛使用的是 http 1.1 版本 。

https 的全稱是 hyper text transfer protocol over secure socket layer ,是以安全為目標的 http通道,簡單講是 http 的安全版, 即 http 下加入 ssl 層 ,簡稱為 https 。

https的安全基礎是ssl,因此通過它傳輸的內容都是經過 ssl加密的它的主要作用可以分 兩種。

建立乙個資訊保安通道來保證資料傳輸的安全。

而某些**雖然使用了 https 協議,但還是會被瀏覽器提示不安全,例如我們在 chrome 瀏覽器裡面開啟 12306 ,鏈結為: https://www. l2306.cn/,這時瀏覽器就會提示「您的連線不是私密連線」這

樣的話,如圖

這是因為 123 06 的 ca 證書是中國鐵道部自行簽發的,而這個證書是不被 ca 機構信任的,所以這裡證書驗證就不會通過而提示這樣的話,但是實際上它的資料傳輸依然是經過 ssl 加密的 。 如果要爬取這樣的站點,就需要設定忽略證書的選項,否則會提示 ssl 鏈結錯誤 。

3.http請求過程

我們在瀏覽器中輸入乙個 url ,回車之後便會在瀏覽器中觀察到頁面內容 。 實際上,這個過程是瀏覽器向**所在的伺服器傳送了乙個請求,**伺服器接收到這個請求後進行處理和解析,然後返回對應的響應,接著傳回給瀏覽器。 響應裡包含了頁面的源**等內容,瀏覽器再對其進行解析,便將網頁呈現了出來,模型如圖

此處客戶端即代表我們自己的 pc

或手機瀏覽器,伺服器即要訪問的**所在的伺服器。

我們先觀察第乙個網路請求,即 www.baidu .com。

其中各列的含義如下。

首先是 general 部分, request url 為請求的 url, request method 為請求的方法, status code為響應狀態碼, remote address 為遠端伺服器的位址和埠, referrer policy 為 referrer 判別策略。再繼續往下,可以看到,有 response headers 和 request headers ,這分別代表響應頭和請求頭 。請求頭里帶有許多請求資訊,例如瀏覽器標識、 cookies 、 host 等資訊,這是請求的一部分,伺服器會根據請求頭內的資訊判斷請求是否合法,進而作出對應的響應 。 圖中看到的 response headers 就是響應的一部分,例如其中包含了伺服器的型別、文件型別、日期等資訊,瀏覽器接受到響應後,會解析響應內容,進而呈現網頁內容 。

HTTP(超文字傳輸協議)基礎

http hypertext transfer protocol 超文字傳輸協議,是應用層最常見的協議,常用於web應用中。預設埠號 80 可靠資料傳輸 一般採用tcp ip協議來實現保證可靠資料傳輸 無狀態 預設為非持久連線,所以http協議也說是無狀態的協議。報文 主要分為兩種,請求 reque...

超文字標記語言HTML 入門基礎)

1.1 html hypertext markup language 超文字標記語言 html是最基本的網頁語言。全部由標籤組成。1.2html的基本格式 存放資料 1.3字型格式及屬性 字型的格式 size 字型大小 最小的是 1 最大的是 7 預設大小是 3 最小 標題標籤 逐漸縮小字型加粗標籤...

關於《超文字》定義

1,超文字是用超連結的方法,將各種不同空間的文字資訊組織在一起的網狀文字。它更是一種使用者介面正規化,用以顯示文字及與文字之間相關的內容。現時超文字普遍以電子文件方式存在,其中的文字包含有可以鏈結到其他位置或者文件的鏈結,允許從當前閱讀位置直接切換到超文字鏈結所指向的位置。2,一種按資訊之間關係非線...