關於網頁中的請求頭網路爬蟲

可能有些同學並不太懂為什麼寫爬蟲首先要加乙個請求頭，下面是引用了崔慶才老師寫的《python3網路爬蟲實戰開發》中的一篇文章，請大家參考

是用來說明伺服器要使用的附加資訊，比較重要的資訊有cookiereferer user-agent

下面簡要說明些常用的頭資訊

accept：請求報頭域，用於指定客戶端可接受哪些型別的資訊

accept-language：指定客戶端可接受的語言型別

accept-encoding：指定客戶端可接受的內容編碼

host：用於指定請求資源的主機 ip 和埠號，其內容為請求 url 的原始伺服器或閘道器的位置。從http 1. 版本開始，請求必須包含此內容。

cookie：也常用複數形式 cookies ，這是**為了辨別使用者進行會話跟蹤而儲存在使用者本地的資料它的主要功能是維持當前訪問會話例如，我們輸入使用者名稱和密碼成功登入某個**後，伺服器會用會話儲存登入狀態資訊，後面我們每次重新整理或請求該站點的其他頁面時，會發現都是登入狀態，這就是 cookies 的功勞。cookies 裡有資訊標識了我們所對應的伺服器的會話，每次瀏覽器在請求該站點的頁面時，都會在請求頭中加上 cookies 並將其傳送給伺服器，伺服器通過 cookies 識別出是我們自己，並且查出當前狀態是登入狀態，所以返回結果就是登入之後才能看到的網頁內容。

user-agent：簡稱 ua ，它是乙個特殊的字串頭，可以使伺服器識別客戶使用的作業系統及版本瀏覽器及版本等資訊在做爬蟲時加上此資訊，可以偽裝為瀏覽器；如果不加，很可能會被識別州為爬蟲。

因此，請求頭是請求的重要組成部分，在寫爬蟲時，大部分情況下都需要設定請求頭。

– 再次感謝崔慶才老師–

關於網頁中的請求頭網路爬蟲

Pyspider中給爬蟲偽造隨機請求頭的例項

HTTP請求中請求頭和響應頭包含的內容

爬蟲關於 HTTP 的 OPTIONS 請求

關於網頁中的請求頭 網路爬蟲

Pyspider中給爬蟲偽造隨機請求頭的例項

HTTP請求中請求頭和響應頭包含的內容

爬蟲 關於 HTTP 的 OPTIONS 請求

相關推薦

關於網頁中的請求頭網路爬蟲

爬蟲關於 HTTP 的 OPTIONS 請求