搜尋引擎原理(一)之網頁抓取與更新

2022-09-02 21:42:23 字數 891 閱讀 1142

1. 有哪些網頁檢索維護的方法

主要有寬度(廣度)優先,兼顧深度的遍歷策略、不重複抓取策略、大站優先策略、非完全pagerank策略、ocip策略、合作抓取策略等主流的網頁抓取策略。 詳細內容請參考:搜尋引擎爬蟲網頁抓取策略

2. 網頁更新策略方法有哪些?2、使用者體驗策略 一般來說,搜尋引擎將處理的結果反饋給使用者後,絕大多數使用者只看其中的前3也左右,搜尋引擎可以相對經常更新這部分網頁。

3. 何為深度優先,廣度優先?

廣度優先搜尋:廣度優先搜尋是按照樹的層次進行的搜尋,如果此層沒有搜尋完成的情況下不會進行下一層的搜尋。

深度優先搜尋:深度優先搜尋是按照樹的深度進行搜尋的,所以又叫縱向搜尋,在每一層只擴充套件乙個節點,直到為樹的規定深度或葉子節點為止。這個便稱為深度優先搜尋。

4. 深度優先,廣度優先優缺點?各自的使用場景?我先來說說兩種演算法的不同點。廣度優先搜尋,適用於所有情況下的搜尋,但是深度優先搜尋不一定能適用於所有情況下的搜尋。因為由於乙個有解的問題樹可能含有無窮分枝,深度優先搜尋如果誤入無窮分枝(即深度無限),則不可能找到目標節點。所以,深度優先搜尋策略是不完備的。

廣度優先搜尋適用範圍:在未知樹深度情況下,用這種演算法很保險和安全。在樹體系相對小不龐大的時候,廣度優先也會更好些。

深度優先搜尋適用範圍:剛才說了深度優先搜尋又自己的缺陷,但是並不代表深度優先搜尋沒有自己的價值。在樹深度已知情況下,並且樹體系相當龐大時,深度優先搜尋往往會比廣度優先搜尋優秀,因為比如8*8的馬踏棋盤中,如果用廣度搜尋,必須要記錄所有節點的資訊,這個儲存量一般電腦是達不到的。然而如果用深度優先搜尋的時候卻能在乙個棋盤被判定出來後釋放之前的節點記憶體。

搜尋引擎如何去抓取網頁

搜尋引擎看似簡單的抓取 入庫 查詢工作,但其中各個環節暗含的演算法卻十分複雜。搜尋引擎抓取頁面工作靠蜘蛛 spider 來完成,抓取動作很容易實現,但是抓取哪些頁面,優先抓取哪些頁面卻需要演算法來決定,下面介紹幾個抓取演算法 1 寬度優先抓取策略 我們都知道,大部分 都是按照樹狀圖來完成頁面分布的,...

搜尋引擎索引之如何更新索引

本文節選自 這就是搜尋引擎 核心技術詳解 第三章 動態索引通過在記憶體中維護臨時索引,可以實現對動態文件和實時搜尋的支援。但是伺服器記憶體總是有限的,隨著新加入系統的文件越來越多,臨時索引消耗的記憶體也會隨之增加。當最初分配的記憶體將被使用完時,要考慮將臨時索引的內容更新到磁碟索引中,以釋放記憶體空...

搜尋引擎原理

乙個搜尋引擎由搜尋器 索引器 檢索器和使用者介面等四個部分組成。1.搜尋器 搜尋器的功能是在網際網路中漫遊,發現和蒐集資訊。它常常是乙個電腦程式,日夜不停地執行。它要盡可能多 盡可能快地蒐集各種型別的新資訊,同時因為網際網路上的資訊更新很快,所以還要定期更新已經蒐集過的舊資訊,以避免死連線和無效連線...