搜尋引擎的爬行原理及流程

2021-08-23 15:53:11 字數 848 閱讀 6522

搜尋引

擎最主要的由三部分組成:蜘蛛(google的稱為機械人)、索引和程式。

蜘蛛程式

google的蜘蛛程式分為主蜘蛛和從蜘蛛,當google全面更新資料庫或收錄新**時,派出主蜘蛛,對**進行全面的索引(如收錄新頁、重新確定網頁級別等);當google對**日常更新時,派出從蜘蛛,對**內容進行維護。當發現頁面有變化時,其從蜘蛛對此頁面進行更新,重新抓取內容。蜘蛛程式會根據乙個固定的週期回訪其目錄中的站點,尋找更新。至於爬行程式回訪的頻率,這要由搜尋引擎確定。**擁有者通過採用乙個名為robot.txt的檔案確實能控制爬行程式訪問這個站點的頁面。搜尋引擎在進一步爬行乙個**之前首先檢視這個檔案。(測試robot.txt)

目錄索引

目錄索引就像乙個巨大的**目錄,這個目錄中全是其蜘蛛程式抓取的**的列表。據google公布的資料,目前,google已經收錄了80億個**,而更新這些索引也是相當費時間的,一般更新的週期大約乙個月左右,所以,對於乙個新**來說,蜘蛛程式可能已經爬行了你的**,但沒有列如索引中,而第一次被列入的也是基本索引,還未別列入其主索引中,只有當google下次更新索引時才會被列入主索引,在這期間,google會對**有乙個相應的評估,會臨時出現乙個較好的排名,但此時的排名不是真正的排名,只有等到google下次更新時,才會轉化為真正的排名。這也就是說為什麼乙個新的**被索引了而卻找不到排名,或者說乙個新**剛開始排名很好,而過段時間排名就下降或是找不到的原因。

程式

二·搜尋引擎的流程圖(google)

如圖所示,網頁蜘蛛的工作流程:**根目錄-->建立搜尋結果的表單-->整理結果,建立索引-->加密資料,儲存-->儲存使用者資料

所以我們在搜尋引擎上找到的網頁其實是存在google伺服器上的。

搜尋引擎的爬行原理及流程

搜尋引 擎最主要的由三部分組成 蜘蛛 google的稱為機械人 索引和程式。蜘蛛程式 google的蜘蛛程式分為主蜘蛛和從蜘蛛,當google全面更新資料庫或收錄新 時,派出主蜘蛛,對 進行全面的索引 如收錄新頁 重新確定網頁級別等 當google對 日常更新時,派出從蜘蛛,對 內容進行維護。當發現...

搜尋引擎原理

乙個搜尋引擎由搜尋器 索引器 檢索器和使用者介面等四個部分組成。1.搜尋器 搜尋器的功能是在網際網路中漫遊,發現和蒐集資訊。它常常是乙個電腦程式,日夜不停地執行。它要盡可能多 盡可能快地蒐集各種型別的新資訊,同時因為網際網路上的資訊更新很快,所以還要定期更新已經蒐集過的舊資訊,以避免死連線和無效連線...

搜尋引擎工作原理

搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...