Lucene讀書筆記(三)

2021-08-29 14:34:08 字數 1031 閱讀 8775

lucene索引文件格式:

以上就是lucene的索引檔案的概念結構。lucene索引index由若干段(segment)組成,每一段由若干的文件(document)組成,每乙個文件由若干的域(field)組成,每乙個域由若干的項(term)組成。項是最小的索引概念單位,它直接代表了乙個字串以及其在檔案中的位置、出現次數等資訊。

域是乙個關聯的元組,由乙個網域名稱和乙個域值組成,網域名稱是乙個字串,域值是乙個項。

從概念上對映到結構中,索引被處理為乙個目錄(資料夾),其中含有的所有檔案即為其內容,這些檔案按照所屬的段不同分組存放,同組的檔案擁有相同的檔名,不同的副檔名。此外還有三個檔案,分別用來儲存所有的段的記錄、儲存已刪除檔案的記錄和控制讀寫的同步,它們分別是

segments,deletable和lock

檔案,都沒有副檔名。每個段包含一組檔案,它們的副檔名不同,但是檔名均為記錄在檔案

segments

中段的名字。

索引檔案目錄由segments

,deletable

和lock

檔案和segment1所屬的檔案組成。

segment1 = 域集合資訊 + 項集合資訊 + 標準化因子(segment1.prx) + 被刪檔案(segment1.del)

域集合資訊 = segment1.fnm + 域值儲存表(segment1.fdx, segment1.fdt)

項集合資訊 = 項字典(segment1.tis, segmetn1.tii) + 項頻數(segment1.prx) + 項位置(segment1.frq)

索引檔案與資訊檔案在記錄的排列順序上存在隱式的對應關係,即索引檔案中按照「索引項

1、索引項2…」排列,則資訊檔案則也按照「資訊項1、資訊項2…」排列。比如在圖3.2所示檔案中,segment1.fdx與segment1.fdt之間,segment1.tii與segment1.tis、segment1.prx、segment1.frq之間,都存在這樣的組織關係。而域集合與項集合之間則通過域的在域記錄檔案(比如segment1.fnm)中所記錄的域記錄號維持對應關係

LUCENE 讀書筆記 20070712

20070712 檢索 建立了索引就是為了檢索用的,下面就開始看嘍。檢索的步驟 1 建立indexsearcher 初始化indexsearcher的方法有很多種,最簡單的就是傳遞乙個索引檔案所在目錄的字串作為引數。2 構建query query代表了查詢的條件以及查詢的一些引數 3 返回查詢結果並...

LUCENE讀書筆記 20070702

2007 7 2 突然想學lucene了,不知為什麼,就是想學了,為了防止半途而廢,決定寫讀書筆記,大家監督。初學者寫的,切記不可當教程看,不准的。本不想發在blog,但實在沒時間整別的了,還是發了吧 lucene 是什麼?lucence 是一種全文檢索工具,它按照一定的規則去建立檔案索引,然後再按...

LUCENE 讀書筆記 20070704

2007 7 4 建立索引 前面已經建立了document和field,那麼如何儲存建立好的索引呢?這是通過indexwriter實現的。indexwriter在建立的時候需要指定索引檔案所在目錄引數 分析器引數 用來在進行索引的時候對文字進行分析,用來進行將索引字段進行切詞的操作 是否重新建立索引...