網路爬蟲與cookie簡介

2021-08-12 00:23:29 字數 1104 閱讀 4443

web爬蟲是一種機械人,她們會遞迴對各種資訊性web站點進行遍歷,獲取第乙個web頁面,然後獲取那個頁面指向的所有頁面,然後是那些web頁面指向的所有頁面。以此類推,遞迴地追蹤這些web鏈結的機械人會沿著html超連結建立的網路爬行,所以將其稱為爬蟲。

2 web站點與robot.txt

如果乙個站點有robot.txt檔案,那麼在訪問這個web站點上的任意url之前,機械人都必須獲取它並且對其進行處理。機械人會使用get方法獲取robots.txt資源,如果有,伺服器會將其放置乙個text/plain主體中返回。如果伺服器以404狀態碼響應,則機械人會認為這個伺服器沒有機械人訪問限制。它可以請求任意檔案。

3  現代搜尋引擎結構都構建了一些名為「全文索引」的複雜本地資料庫。裝載了全世界的web搜尋頁面以及這些頁面所包含的內容。這些索引就像web上所有文件的卡片目錄一樣。對於網路爬蟲自己先了解一下吧。把那本專門介紹爬蟲的書看看,然後自己用**實現一下。要真正去理解網路爬蟲的機制並且深入研究下去。這個也是自己比較感興趣的。

cookie是識別當前使用者,實現持久會話的最好方式。最初是由網景公司開發的。cookie非常重要,而且定義了一些新的http首部。cookie分為會話cookie與持久的cookie。伺服器可以根據這個數字來查伺服器為其訪問者積累的資料庫資訊(購物歷史,位址資訊等)。會話cookie隨著瀏覽器的關閉而結束,永久的cookie無論使用者何時返回乙個站點,都可以通過持久的cookie來識別其身份,以便跟蹤使用者的瀏覽習慣,你來自何處,以及訪問過哪些web頁面等資訊已經儲存在web伺服器的日子檔案中了。關於cookie大致先了解這麼多,以後在實際工作中用到在深入研究。

Cookie與Session的簡介

cookie與session是網路程式設計中很重要的兩個東西,很多時候我們都要和它們打交道,而下面的就是關於cookie與session的簡介 session是儲存在伺服器上。客戶端瀏覽器訪問伺服器的時候,伺服器把客戶端資訊以某種形式記錄在伺服器上。這就是session。而session儲存在伺服器...

Cookie的簡介與使用

cookie 歷來指就著牛奶一起吃的點心。然而,在網際網路內,cookie 這個字有了完全不同的意思。那麼 cookie 到底是什麼呢?cookie 是小量資訊,由網路伺服器傳送出來以儲存在網路瀏覽器上,從而下次這位獨一無二的訪客又回到該網路伺服器時,可從該瀏覽器讀回此資訊。這是很有用的,讓瀏覽器記...

爬蟲 cookie設定

識別人人網中的驗證碼 from lxml import etree from urllib import request url headers page text requests.get url url,headers headers text 解析驗證碼 登入login url ajaxlog...