關於網頁中的請求頭 網路爬蟲

2021-08-29 23:40:59 字數 982 閱讀 4537

可能有些同學並不太懂為什麼寫爬蟲首先要加乙個請求頭,下面是引用了崔慶才老師寫的《python3網路爬蟲實戰開發》中的一篇文章,請大家參考

是用來說明伺服器要使用的附加資訊,比較重要的資訊有cookiereferer user-agent

下面簡要說明 些常用的頭資訊

accept:請求報頭域,用於指定客戶端可接受哪些型別的資訊

accept-language:指定客戶端可接受的語言型別

accept-encoding:指定客戶端可接受的內容編碼

host:用於指定請求資源的主機 ip 和埠號,其內容為請求 url 的原始伺服器或閘道器的位置。從http 1. 版本開始,請求必須包含此內容。

cookie:也常用複數形式 cookies ,這是**為了辨別使用者進行會話跟蹤而儲存在使用者本地的資料 它的主要功能是維持當前訪問會話 例如,我們輸入使用者名稱和密碼成功登入某個**後,伺服器會用會話儲存登入狀態資訊,後面我們每次重新整理或請求該站點的其他頁面時,會發現都是登入狀態,這就是 cookies 的功勞。cookies 裡有資訊標識了我們所對應的伺服器的會話,每次瀏覽器在請求該站點的頁面時,都會在請求頭中加上 cookies 並將其傳送給伺服器,伺服器通過 cookies 識別出是我們自己,並且查出當前狀態是登入狀態,所以返回結果就是登入之後才能看到的網頁內容。

user-agent:簡稱 ua ,它是乙個特殊的字串頭,可以使伺服器識別客戶使用的作業系統及版本 瀏覽器及版本等資訊 在做爬蟲時加上此資訊,可以偽裝為瀏覽器;如果不加,很可能會被識別州為爬蟲。

因此,請求頭是請求的重要組成部分,在寫爬蟲時,大部分情況下都需要設定請求頭。

– 再次感謝崔慶才老師–

Pyspider中給爬蟲偽造隨機請求頭的例項

pyspider 中採用了 tornado 庫來做 http 請求,在請求過程中可以新增各種引數,例如請求鏈結超時時間,請求傳輸資料超時時間,請求頭等等,但是根據pyspider的原始框架,給爬蟲新增引數只能通過 crawl config這個python字典來完成 如下所示 框架 將這個字典中的引數...

HTTP請求中請求頭和響應頭包含的內容

1 請求 客戶端 服務端 request get 請求的方式 newcoder hello.html 請求的目標資源 http 1.1 請求採用的協議和版本號 accept 客戶端能接收的資源型別 accept language en us 客戶端接收的語言型別 connection keep al...

爬蟲 關於 HTTP 的 OPTIONS 請求

用於獲取目的資源所支援的通訊選項。客戶端可以對特定的 url 使用 options 方法,也可以對整站 通過將 url 設定為 使用該方法 簡單來說,就是可以用 options 請求去嗅探某個請求在對應的伺服器中都支援哪種請求方法 前端一般不會主動發起這個請求,但是通過f12 debug頁面,一般可...