搜尋引擎原理（一）之網頁抓取與更新

1. 有哪些網頁檢索維護的方法

主要有寬度（廣度）優先，兼顧深度的遍歷策略、不重複抓取策略、大站優先策略、非完全pagerank策略、ocip策略、合作抓取策略等主流的網頁抓取策略。詳細內容請參考：搜尋引擎爬蟲網頁抓取策略

2. 網頁更新策略方法有哪些？2、使用者體驗策略一般來說，搜尋引擎將處理的結果反饋給使用者後，絕大多數使用者只看其中的前3也左右，搜尋引擎可以相對經常更新這部分網頁。

3. 何為深度優先，廣度優先?

廣度優先搜尋：廣度優先搜尋是按照樹的層次進行的搜尋，如果此層沒有搜尋完成的情況下不會進行下一層的搜尋。

深度優先搜尋：深度優先搜尋是按照樹的深度進行搜尋的，所以又叫縱向搜尋，在每一層只擴充套件乙個節點，直到為樹的規定深度或葉子節點為止。這個便稱為深度優先搜尋。

4. 深度優先，廣度優先優缺點？各自的使用場景？我先來說說兩種演算法的不同點。廣度優先搜尋，適用於所有情況下的搜尋，但是深度優先搜尋不一定能適用於所有情況下的搜尋。因為由於乙個有解的問題樹可能含有無窮分枝，深度優先搜尋如果誤入無窮分枝（即深度無限），則不可能找到目標節點。所以，深度優先搜尋策略是不完備的。

廣度優先搜尋適用範圍：在未知樹深度情況下，用這種演算法很保險和安全。在樹體系相對小不龐大的時候，廣度優先也會更好些。

深度優先搜尋適用範圍：剛才說了深度優先搜尋又自己的缺陷，但是並不代表深度優先搜尋沒有自己的價值。在樹深度已知情況下，並且樹體系相當龐大時，深度優先搜尋往往會比廣度優先搜尋優秀，因為比如8*8的馬踏棋盤中，如果用廣度搜尋，必須要記錄所有節點的資訊，這個儲存量一般電腦是達不到的。然而如果用深度優先搜尋的時候卻能在乙個棋盤被判定出來後釋放之前的節點記憶體。

搜尋引擎原理（一）之網頁抓取與更新

搜尋引擎如何去抓取網頁

搜尋引擎索引之如何更新索引

搜尋引擎原理

搜尋引擎原理（一）之網頁抓取與更新

搜尋引擎如何去抓取網頁

搜尋引擎索引之如何更新索引

搜尋引擎原理

相關推薦