為什麼商業搜尋引擎選擇的索引更新策略是完全重建策略

2021-08-08 12:23:35 字數 588 閱讀 6181

這種重建策略比較適合小文件集合,因為完全重建索引的代價較高,但是目前主流商業搜尋引擎一般是採用此種方式來維護索引的更新,這與網際網路本身的特性有關。

目前索引更新策略有四種:

完全重建策略

再合併策略

原地更新策略

混合策略

如果希望了解這4種索引更新策略可以去看《這就是搜尋引擎:核心技術詳解》作者的部落格:搜尋引擎索引之索引更新策略

我對這四種策略進行比較後才發現主要的原因:

完全重建策略雖然重建索引策略代價比較高,但是這個策略是唯一能夠保證重建期間索引依然生效的策略,對於商用的搜尋引擎,應該保證系統無論何時都可以正常運作。

再合併策略原地更新策略都是建立增量索引之後與舊索引進行合併,在合併期間舊索引是無法生效,而所謂的混合策略只是根據情況選擇使用再合併策略與原地更新策略,依然無法保證索引一直生效。

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

搜尋引擎 倒排索引

本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件,每行代表乙個單詞,打對勾的位置代表包含關係。圖3...

搜尋引擎 倒排索引

倒排索引基本概念示意圖 假設文件集合包含五個文件,每個文件內容如圖3 3所示,在圖中最左端一欄是每個文件對應的文件編號。我們的任務就是對這個文件集合建立倒排索引。文件集合 需要對每個單詞賦予唯一的單詞編號,同時記錄哪些文當包含這些單詞,如下就是乙個簡單的索引,單詞id記錄了每個單詞的單詞編號,第二欄...