搜尋系統18 lucene索引檔案結構

2021-08-10 21:04:14 字數 754 閱讀 3702

1.多檔案索引與復合索引的區別

2.segments(段)檔案

3.段元資料

.si 儲存了索引段的元資料資訊

4.fnm(網域名稱)檔案

相當於solr裡的schemal.xml檔案

5.項詞典(.tis、tii)檔案

lucene老版本的項詞典是tis檔案,新版本是tim檔案,如圖:

我沒在這個檔案裡找到欄位名,可能已經轉成了數值。

《lucene in action》裡有對這幾個檔案結構介紹的圖:

有資料說.tim檔案中儲存著每個域中term的統計資訊且儲存著指向.doc, .pos, and .pay 索引檔案的指標。

.tip檔案儲存著term 字典的索引資訊,可支援隨機訪問。

6.域儲存檔案

.fdt 儲存域內容

.fdx 檔案包含了簡單的索引資訊,該資訊用來將該域對應的文件號儲存至.tdt檔案中的對應位置。

7.鎖檔案

write.lock 防止多個indexwriter同時寫到乙份索引檔案中。

8.索引字段加權因子

.nvd, .nvm

.nvm 檔案儲存索引字段加權因子的元資料

.nvd 檔案儲存索引字段加權資料

Lucene索引檔案

如何產生乙個segment?當indexwriter執行commit時,會產生乙個segment。下述檔案每個segment乙個 fnm 儲存乙個segment中field個數,field名稱,field的屬性 是否索引 儲存etc fdt 儲存乙個segment中,每個document中所有fie...

Lucene系列 索引檔案

本文介紹下lucene生成的索引有哪些檔案組成,每個檔案包含了什麼資訊。基於lucene 4.10.0。索引 index 包含了儲存的文件 document 正排 倒排資訊,用於文字搜尋。索引又分為多個段 segments 每個新新增的doc都會存到乙個新segment中,不同的segments又會...

lucene 索引檔案格式

lucene索引檔案格式詳解本文介紹lucene中segment,fnm,fdx,fdt,tii,tis,deletable cfs等格式檔案的用途。1。索引的segment 每個segment代表lucene的乙個完整索引段。通常,在乙個索引中,會包含有多個segment。每個segment都有乙...