搜尋引擎 倒排索引

2021-09-24 20:18:21 字數 687 閱讀 6209

一、基本概念

倒排索引源於實際應用中需要根據屬性的值來查詢記錄。這種索引表中的每一項都包括乙個屬性值和具有該屬性值的各記錄的位址。由於不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的檔案我們稱為倒排索引檔案,簡稱倒排檔案(inverted file)。

二、基本框架

單詞和單詞字典:搜尋引擎的通常索引單位是單詞,單詞詞典是由文件集合**現過的所有單詞構成的字串集合,單詞詞典內每條索引項記載單詞本身的一些資訊以及指向「倒排列表」的指標。

倒排列表:倒排列表記載了出現過某個單詞的所有文件的文件列表及單詞在該文件**現的位置資訊,每條記錄稱為乙個倒排項(posting)。根據倒排列表,即可獲知哪些文件包含某個單詞。

倒排檔案:所有單詞的倒排列表往往順序地儲存在磁碟的某個檔案裡,這個檔案即被稱之為倒排檔案,倒排檔案是儲存倒排索引的物理檔案。

搜尋引擎中倒排索引大概流程框架:使用者在搜尋引擎搜尋框輸入查詢詞進行搜尋時,搜尋引擎會對查詢詞進行切詞以及近義詞匹配等操作,根據原始查詢詞得到一系列的單詞列表。然後根據搜尋引擎內部的字典來查詢每個單詞對應的倒排列表,從而定位到包含這個單詞的網頁或者說是文件。最後搜尋引擎根據特定的網頁排序演算法將查詢到的網頁進行排序,通過前端將搜尋結果展示給使用者。

看了很多相關資料,這些更好理解。

搜尋引擎 倒排索引

本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件,每行代表乙個單詞,打對勾的位置代表包含關係。圖3...

搜尋引擎 倒排索引

倒排索引基本概念示意圖 假設文件集合包含五個文件,每個文件內容如圖3 3所示,在圖中最左端一欄是每個文件對應的文件編號。我們的任務就是對這個文件集合建立倒排索引。文件集合 需要對每個單詞賦予唯一的單詞編號,同時記錄哪些文當包含這些單詞,如下就是乙個簡單的索引,單詞id記錄了每個單詞的單詞編號,第二欄...

倒排索引 搜尋引擎的基石

在關係資料庫系統裡,索引是檢索資料最有效率的方式,但對於搜尋引起,他它並不能滿足其特殊要求 2 資料操作簡單 搜尋引擎使用的資料操作簡單 一般而言 只需要增 刪 改 查幾個功能 而且資料都有特定的格式 可以針對這些應用設計出簡單高效的應用程式。而一般的資料庫系統則支援大而全的功能 同時損失了速度和空...