Lucene 索引去重

2021-06-13 07:32:18 字數 632 閱讀 5539

在使用lucene過程中,會發現當我們為新增新的document時,會產生重複現象(兩次新增同乙個document),畢竟lucene中沒有像資料庫中一樣,有鍵可以區分。不過我們可以通過為document建立類似於鍵的域,來防止新增重複的document。

document document = new document();

document.add(new field("content", "劉德華 很帥" , field.store.yes , field.index.analyzed ,termvector.no));

document.add(new field("id" , "1231231" , field.store.yes , field.index.not_analyzed , termvector.yes));

id域不要分析,要不就會影響評分的。

之後就是加入document了:

indexwriter.updatedocument(new term("id",1231231"),document);

利用update方法就可以避免新增重複索引了。不過為了達到效果,還有新增乙個域。。。這個利弊,大家自己權衡吧。。。。

pandas 索引去重 pandas(一)

1.pandas基本函式 2.pandas 描述統計函式 在進行統計描述時,pandas對三個資料物件的軸引數規定如下 series 沒有軸引數 dataframe index axis 0,default columns axis 1 panel items axis 0 major axis 1...

lucene索引合併

lucene 索引合併 關鍵步驟如下 indexwriter fswriter null fs indexwriter ramwriter null ram directory fsdir directory ramdir ramdir new ramdirectory 判斷原索引檔案是否存在 開啟...

Lucene 建立索引

public class indexer public static string indexdir d luceneindex public static void main string args system.out.println 被索引的文件個數 writer.numdocs catch ...