Lucene初探之資料格式詳情 三

2021-07-27 04:30:53 字數 903 閱讀 9707

今天,我們來了解一下lucene的域的元資料資訊—>.fnm。

乙個段包含多個域,每個域都儲存一下元資料。fnm檔案的詳細資料格式大致如下:

如同上面對段的資訊的介紹一般,我們來乙個個地看一下域中各個不同儲存區域的具體含義和作用。

如果要詳細地深入了解域的元資料資訊,則需要下面幾點:

了解了fnm檔案之後,和域相關的檔案還有fdx、fdt兩種,下面就讓我們來深入了解一下這兩種檔案的詳細情況。

由這幅圖我們可以清晰地看到,fdx檔案其實是fdt檔案的乙個索引檔案,也就是域索引檔案,而fdt檔案才是真正的儲存域資料的檔案。

我們來由下往上看,fdt檔案一共有segment.size項,也就是乙個乙個段所包含的文件數量。每一篇文件都在fdt檔案中有乙個對應的對映區域;對於每一篇文件,其儲存的資訊大概是:

看完fdt檔案,我們再來看一下fdx檔案,其是由乙個個的fieldvalueposition組成,其代表的是對應的域在fdt檔案中相對起始位置的偏移量(節約儲存空間)。

我們看完域的資料儲存格式和相關資訊之後,還剩下的就是最低層的儲存資料單元了–詞向量的資料資訊。

我們在此先從整體上來看一下詞的儲存情況:

相信看過上面對域的資料儲存分析之後,大家在看到這幅圖時一定一眼就明白詞向量的大概儲存情況了吧,很明顯,三個檔案—->tvx、tvd、tvf,分別代表詞向量索引檔案,詞向量文件檔案、詞向量域檔案。

Json資料格式

在web 系統開發中,經常會碰到客戶端和伺服器端互動的問題,比如說客戶端傳送乙個 ajax 請求,然後在伺服器端進行計算,計算後返回結果,客戶端接收到這個響應結果並對它進行處理。那麼這個結果以一種什麼資料結構返回,客戶端才能比較容易和較好的處理呢?通過幾個專案的實踐,我發現 json 格式的資料是一...

JSON資料格式

下面這段文字,摘錄自留作備忘 21世紀初,douglas crockford尋找一種簡便的資料交換格式,能夠在伺服器之間交換資料。當時通用的資料交換語言是xml,但是douglas crockford覺得xml的生成和解析都太麻煩,所以他提出了一種簡化格式,也就是json。json的規格非常簡單,只...

資料格式大全

yy mm dd 百分比00.00 12.68 13 12.68 3 23 2003 12 00 00 am 字元用於分隔格式字串中的正數 負數和零各部分。格式字串 資料 結果 12345.6789 12,345.68 12345.6789 12,345.68 12345 12345 12345 0...