中文搜尋引擎技術揭密 網路蜘蛛 2

2021-08-22 01:57:27 字數 656 閱讀 8480

網路蜘蛛基本原理

網路蜘蛛即web spider,是乙個很形象的名字。把網際網路比喻成乙個蜘蛛網,那麼spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈結位址來尋找網頁,從**某乙個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個**所有的網頁都抓取完為止。如果把整個網際網路當成乙個**,那麼網路蜘蛛就可以用這個原理把網際網路上所有的網頁都抓取下來。

在抓取網頁的時候,網路蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。廣度優先是指網路蜘蛛會先抓取起始網頁中鏈結的所有網頁,然後再選擇其中的乙個鏈結網頁,繼續抓取在此網頁中鏈結的所有網頁。這是最常用的方式,因為這個方法可以讓網路蜘蛛並行處理,提高其抓取速度。深度優先是指網路蜘蛛會從起始頁開始,乙個鏈結乙個鏈結跟蹤下去,處理完這條線路之後再轉入下乙個起始頁,繼續跟蹤鏈結。這個方法有個優點是網路蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的說明會更加明確。

由於不可能抓取所有的網頁,有些網路蜘蛛對一些不太重要的**,設定了訪問的層數。例如,在上圖中,a為起始網頁,屬於0層,b、c、d、e、f屬於第1層,g、h屬於第2層,i屬於第3層。如果網路蜘蛛設定的訪問層數為2的話,網頁i是不會被訪問到的。這也讓有些**上一部分網頁能夠在搜尋引擎上搜尋到,另外一部分不能被搜尋到。

中文搜尋引擎技術揭密 中文分詞

中搜 http www.zhongsou.com 等。目前在中文搜尋引擎領域,國內的搜尋引擎已經和國外的搜尋引擎效果上相差不遠。之所以能形成這樣的局面,有乙個重要的原因就在於中文和英文兩種語言自身的書寫方式不同,這其中對於計算機涉及的技術就是中文分詞。什麼是中文分詞 眾所周知,英文是以詞為單位的,詞...

中文搜尋引擎技術揭密 中文分詞

什麼是中文分詞 眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合起來才表示乙...

中文搜尋引擎技術揭密 中文分詞

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合起來才表示乙個詞。把中文的漢...