Swish e搜尋引擎中的資料壓縮演算法(一)

2021-09-30 03:32:31 字數 585 閱讀 5971

swish-e

、lucene

等搜尋引擎中,索引檔案有的採用

binary

格式,對於整數、

long

等資料型別通常採用壓縮演算法,再寫入到索引檔案中。對於其中幾種資料型別壓縮進行了分析。

整數壓縮演算法:

在整數前面增加

0,形成

n*7位的二進位制格式;

將整數分割為

7位組;

在第一組前增加

1,如果還有其餘的分組,在其餘分組前面都加

1,(最後一組除外)。

比如:int 135

二進位制為

10000111

,首先新增

0,位數達到

7的倍數:

00000010000111, 然後

7位分組,除最後的分組外,其餘分組前都加1。

1000001 00000111

,然後將分組以

byte

的方式進行儲存。

**為(修改於

swsih-e 2.4.5

的壓縮演算法

compress.c):

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

lycos搜尋引擎 常用的搜尋引擎都有哪些特點?

1 基於字詞結合的資訊處理方式,巧妙解決了中文資訊的理解問題,極大地提高了搜尋的準確性。2 智慧型相關度演算法。採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的資訊,從而最大限度保證了檢索結果相關性。4 智慧型性 可擴充套件的搜尋技術保證最快最多的收集網際網路資訊。擁...