lucene檔案格式分析

2021-05-02 01:24:04 字數 635 閱讀 7582

segment

每個segment代表lucene乙個完整的索引段。通常乙個索引中包含了多個segment。每個segment都有統一的字首,字首名由document的數量轉成36進製後,在前面加「_」而構成的。通常乙個完整索引中,有且只有乙個沒有字尾名的segment檔案,它記錄了當前索引中所有的segment的資訊。

.fnm

此檔案包含了document中的所有field名稱

.fdx和.fdt

是綜合使用的兩類檔案,其中.fdt儲存了設定了store.yes屬性的field的資料。而.fdx是乙個索引,儲存document在.fdt中的位置

.tii和.tis

.tis儲存分詞後的詞條(term),而.tii就是它的索引檔案,表明了每個.tis檔案中詞條的位置

deletable

作用相當於**站,當文件在被刪除後,會首先在deletable中保留一條記錄,要真正刪除時,才將索引移出

復合索引格式.cfs

在indexwriter中有個屬性usecompoundfile,預設為true即預設採用復合索引格式儲存索引的,其含義是是否用復合索引格式來儲存索引。索引的內容可能非常大檔案可能非常多,如各這樣系統開啟檔案數量巨大將消耗系統大量資源。因此lucene提供能一種單一索引格式。

lucene 索引檔案格式

lucene索引檔案格式詳解本文介紹lucene中segment,fnm,fdx,fdt,tii,tis,deletable cfs等格式檔案的用途。1。索引的segment 每個segment代表lucene的乙個完整索引段。通常,在乙個索引中,會包含有多個segment。每個segment都有乙...

lucene 索引檔案格式

下圖是乙個典型的lucene4.x的索引結構圖 lucene4.x之後的所有索引格式如下所示 檔名字尾描述 segments file segments.gen,segments n 儲存段檔案的提交點資訊 lock file write.lock 檔案鎖,保證任何時刻只有乙個執行緒可以寫入索引 s...

Lucene中檔案格式介紹

lucene中索引檔案有許多種,不同型別的檔案儲存的不同的資訊,分別如下 正向資訊 1.段的元資料資訊 a.segments 為索引的段檔案命名,它的資料格式中包括下乙個段的名稱 b.segments.gen 為生成的引用檔名命名 2.域資料資訊 a.fnm 域的元資料 b.fdt 域資料資訊 c....