對Spider網路蜘蛛的理解

2021-04-12 23:05:40 字數 490 閱讀 1210

spider,網路蜘蛛,又叫網路機器,它是搜尋引擎的主要模組:網路蜘蛛負責抓取網路上的網頁資料,再通過分詞技術對網頁資料建立索引,然後對網頁根據一些相關性排序。

基本原理:spider通過網頁上的鏈結從乙個網頁(一般是首頁)訪問到另乙個網頁,從而實現對整個網路的資料收集。其實是把網狀轉變成樹形去遍歷,對樹的遍歷我們知道有廣度優先和深度優先,一般採用廣度優先。我們還知道遍歷樹有前序、中序和後序,不同的搜尋引擎遍歷順序各不同。

流程參考:1,建立乙個佇列,把首頁位址放入佇列

2,從佇列中取出乙個位址,訪問改位址,並對返回的資料(一般是html檔案)進行分析,遇到href(鏈結)並分析後放入到佇列中

3,重複2,直到隊列為空

如果是廣度遍歷,為了效率我們可以設定乙個級別,如果該頁面與首頁的關係度超過這個級別,則不放入佇列。對於頁面節點可以採用hashtable資料結構,這樣加入乙個是否已經被網路蜘蛛爬過的標誌變數,防止重複訪問。

對鏈結的分析是個難點,需要較好的演算法對其支援。

網路蜘蛛Spider簡介

與網路蜘蛛 網路蜘蛛需要抓取網頁,不同於一般的訪問,如果控制不好,則會引起 伺服器負擔過重。今年4月,http www.taobao.com 2004年5月15日的搜尋引擎訪問日誌 網路蜘蛛進入乙個 一般會訪問乙個特殊的文字檔案robots.txt,這個檔案一般放在 伺服器的根目錄下,內容提取 更新...

網路蜘蛛Spider的邏輯Logic(一)

spider又叫webcrawler或者robot,是乙個沿著鏈結漫遊web 文件集合的程式。它一般駐留在伺服器上,通過給定的一些url,利用http等標準協議讀取相應文件,然後以文件中包括的所有未訪問過的url作為新的起點,繼續進行漫遊,直到沒有滿足條件的新url為止。webcrawler的主要功...

如何檢視spider蜘蛛是否來過你的站 3

這個可以從你伺服器或者虛擬主機的日誌中看出來,比如我用的站的www.com edu.cn的完整使用日誌中有這樣的記錄 iis日誌檔案位置 c windows system32 logfiles w3svc xx exyymmdd.log 這就說明蜘蛛來過我的站了,如果你還想知道有沒有其它搜尋引擎的蜘...