Lucene段合併的引數估計

2021-06-26 10:05:02 字數 555 閱讀 1773

使用lucene預設的tieredmergepolicy,索引更新時最大會占用多少硬碟,要看mergepolicy何時觸發merge。

從**中可以看出,只有當eligible.size() >= allowedsegcountint時才觸發。

eligible是大小不超過閾值的段集合,allowedsegcountint計算如下,設segspertier為a,maxmergeatonce為b,bytesleft(以m為單位)每次減去2b, 2(a^2)(b^2),...(等比數列),allowedsegcountint就加上a,直到bytesleft減到0為止 >由此算出:

n <= log(ab,1-bytesleft(1-ab)/2b)

allowedsegcountint = ceil(a*log(ab,1-bytesleft(1-ab)/2b)),

使用預設的設定a=10,b=10,如果bytesleft=10000(10g),則allowedsegcountint=24,也就是說只有小段數量超過24時才觸發merge。

保持ab乘積不變,a(segspertier)越小越容易觸發合併。

引數估計 引數估計

1 引數估計 用樣本統計量去估計總體的引數。2 估計量 用於估計總體引數的統計量的名稱 如樣本均值,樣本比例,樣本方差等 例如 樣本均值就是總體均值 3 引數用 4 估計值 估計引數時計算出來的統計量的具體值 如果樣本均值 5 點估計 例如 用樣本均值直接作為總體均值的估計乙個點估計量的可靠性是由它...

引數估計 CIR模型的引數估計

cox ingersoll ross cir 模型是量化金融風控中,特別是在利率和信用風險的期限結構模型中經常用到的一種模型。與其他模型如ho lee,vasicek等相比,它的特點是其解總是非負的 如果滿足feller條件則以概率為1為正 並且滿足均值回歸性質。cir 的基本形式是如下的sde 其...

引數估計與非引數估計

引數估計 parameter estimation 根據從 總體中抽取的 樣本估計總體分布中包含的未知引數的方法。人們常常需要根據手中的資料,分析或推斷資料反映的本質規律。即根據樣本資料如何選擇統計量去推斷總體的分布或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是指根據樣本對總體分布或...