Lucene 索引檔案格式詳解

2021-08-31 04:16:55 字數 824 閱讀 2699

1.索引的segment

每個segment代表lucene的乙個完成的索引段,通常,在乙個索引中,會包含多個segment,每個segment都有統一的字首,這個字首是根據當前索引的document的數量而確立的。字首名是document轉成36進製後在前面加「_"組成。

通常在以個完成的索引中,只有乙個segment檔案。這個檔案沒有字尾,他記錄了當前索引中所有的segment資訊。

2.fnm格式

改格式檔案包含了document中所有的field的名稱

3..fdx與.fdt格式檔案

.fdt型別檔案用於儲存具有store.yes屬性的field的資料。而.fdx型別檔案則是乙個索引用於儲存document在.fdt中的位置。

4..tii格式和.tis格式

.tis檔案用於儲存分詞後的詞條,而.tii就是他的索引檔案,他標明了每個.tis檔案中的詞條的位置

5.deletable格式

在lucene的索引中,所有的文件被刪除後並不是立刻從索引中去除,而是留待下一次合併索引貨是對索引進行優化時候才真正刪除,有點類似**站的功能。這種功能就是通過deletable檔案實現。所有檔案被刪除後,會首先在deletable檔案中留下一筆記錄,要真正刪除時候才將索引除去。

6.復合索引格式.cfs

在indexwriter中有個屬性usecompoundfile他的預設值是true,這個屬性含義,是否使用復合索引格式來儲存索引。索引的內容可能非常的大,檔案數量也可能非常的多,使用復合索引來儲存documen,只需要初始化完乙個indexwriter物件後,使用該方法就可以了。

使用該方法就是將除了6以外的檔案類似打包一樣集合起來。

lucene索引檔案格式詳解

本文介紹lucene中segment,fnm,fdx,fdt,tii,tis,deletable cfs等格式檔案的用途。每個segment代表lucene的乙個完整索引段。通常,在乙個索引中,會包含有多個segment。每個segment都有乙個統一的字首,這個字首是根據當前索引的document...

lucene 索引檔案格式

lucene索引檔案格式詳解本文介紹lucene中segment,fnm,fdx,fdt,tii,tis,deletable cfs等格式檔案的用途。1。索引的segment 每個segment代表lucene的乙個完整索引段。通常,在乙個索引中,會包含有多個segment。每個segment都有乙...

lucene 索引檔案格式

下圖是乙個典型的lucene4.x的索引結構圖 lucene4.x之後的所有索引格式如下所示 檔名字尾描述 segments file segments.gen,segments n 儲存段檔案的提交點資訊 lock file write.lock 檔案鎖,保證任何時刻只有乙個執行緒可以寫入索引 s...