索引介紹一 倒排索引

2022-04-03 06:07:37 字數 961 閱讀 3958

倒排索引(英語:inverted index),也常被稱為反向索引置入檔案反向檔案,是一種索引方法,被用來儲存在全文搜尋下某個單詞在乙個文件或者一組文件中的儲存位置的對映。它是文件檢索系統中最常用的資料結構。

有兩種不同的反向索引形式:

以英文為例,下面是要被索引的文字:

我們就能得到下面的反向檔案索引:

"a":      

"banana":

"is":

"it":

"what":

檢索的條件"what","is""it"將對應這個集合:。對相同的文字,我們得到後面這些完全反向索引,有文件數量和當前查詢的單詞結果組成的的成對資料。 同樣,文件數量和當前查詢的單詞結果都從零開始。所以,"banana":就是說 "banana"在第三個文件裡 (

),而且在第三個文件的位置是第四個單詞(位址為 3)。

"a":      

"banana":

"is":

"it":

"what":

如果我們執行短語搜尋"what is it"我們得到這個短語的全部單詞各自的結果所在文件為文件0和文件1。但是這個短語檢索的連續的條件僅僅在文件1得到。

^ribeiro, berthier de araújo neto; baeza-yates, r. modern information retrieval. reading, mass: addison-wesley longman. 1999: 192. isbn

0-201-39829-x.

倒排索引 一

畢業以後在網頁搜尋組,所以抽空就看看了 這就是搜尋引擎 核心技術詳解 書比較白話文,對於我這樣的入門小白再合適不過了,還有一本 資訊檢索導論 比較系統和專業化,感興趣的可以買來看看。海量的網頁資料,如何快速的找到包含使用者查詢的所有網頁至關重要,如同我們拿到一本很厚的書時,如果沒有目錄,我們可能要花...

正排索引和倒排索引簡單介紹

在搜尋引擎中,資料被爬取後,就會建立index,方便檢索。在工作中經常會聽到有人問,你這個index是正排的還是倒排的?那麼什麼是正排呢?什麼又是倒排呢?下面是一些簡單的介紹。網頁a中的內容片段 tom is a boy.tom is a student too.網頁b中的內容片段 jon work...

倒排索引案例(一)

1 第一次三個文字樣式做測試 檔案內容 分別為a.txt,b.txt,c.txt 裡面的資料 2 第一次預期輸出結果樣式 inverted a.txt 3 inverted b.txt 1 inverted c.txt 3 mapreduce a.txt 2 mapreduce b.txt 2 ma...