倒排索引原理

2021-06-29 10:52:58 字數 382 閱讀 1637

這裡介紹乙個基礎的搜尋引擎技術

假如有兩段文字

1,books and friends should be few but good

2,a good book is a good friend

假如我們忽略掉大小寫和複數,可以整理出一張單詞表,顯示哪個單詞再哪段文字,

英文單詞

文章編號a2

and1be1

book

1,2

有了這樣一張表,就可以短時間內根據給定單詞找到對應的文章。由於單詞是有序的,查詢效率很高,

索引的通用結構是:

次關鍵碼:例如上面的英文單詞

記錄號表,例如上面的文章編號

其中記錄號表存貯具有相同次關鍵字的所有記錄的記錄號

elasticsearch 倒排索引原理

elasticsearch 使用一種稱為 倒排索引 的結構,它適用於快速的全文搜尋。乙個倒排索引由文件中所有不重複詞的列表構成,對於其中每個詞,有乙個包含它的文件列表。例如,假設我們有兩個文件,每個文件的content域包含如下內容 the quick brown fox jumped over t...

倒排索引原理 lucene

倒排索引由兩個部分組成 單詞詞典和倒排檔案。所有單詞的倒排列表順序的儲存在磁碟的某個檔案裡,這個檔案即被稱為倒排檔案,倒排檔案是儲存倒排索引的物理檔案。單詞詞典是由文件集合中出現過的所有單詞構成的字串集合,單詞詞典內每條索引項記載單詞本身的一些資訊以及指向 倒排列表 的指標。單詞詞典是倒排索引中非常...

Elasticsearch 倒排索引原理

elasticsearch 最強悍的功能之一就是全文檢索,如何可以做到呢,其實本質上的原理就需要用的倒排索引了,本文將探索一下倒排索引的工作原理。正排索引 forward index 根據 id 去找到對應的文件 倒排索引 inverted index 根據 內容 去找到對應的文件 工作原理 通過標...