lucene中高亮遇到的問題

2021-09-01 05:21:22 字數 365 閱讀 3773

之前做高亮,用lucene預設的highlighter,顯示結果的時候有個問題.但是也是在細顆粒分詞的時候才出現的,比如說:

中國地質大學  分詞的時候是乙個長詞,如果細顆粒分詞的話,我們希望分詞結果是:

中國地質大學 |中國|地質|大學|

如果用highlighter的話,就會有個問題,當搜尋詞是 "中國 大學"的時候,對"中國地質大學" 這個字串的高亮就是錯誤的,正確的結果應該是 : "中國地質大學"

而實際上高亮的結果是:中國地質大學這基本上是因為漢語和英文的區別造成的

自己重寫markedtokengroup這個類,解決的這個問題,並且對highlighter也重寫了,但修改的不多.

lucene 高亮的實現

之前在網上找了好久lucene高亮的包,找了幾個,但是我用的lucene是3.0以後的,而針對3.0的高亮網上是很少的,再 三決定還是自己寫個高亮吧。下面是 public arraylistcutkeyword string keyword,analyzer analyzer catch ioexc...

乙個lucene搜尋高亮顯示的例子。

above,create documents with two fields,one with term vectors tv and one without notv indexsearcher searcher new indexsearcher directory queryparser pa...

有關Lucene的問題 6 Lucene的事務性

所謂事務性,本多指資料庫的屬性,包括acid四個基本要素 原子性 atomicity 一致性 consistency 隔離性 isolation 永續性 durability 我們這裡主要討論隔離性,lucene的indexreader和indexwriter具有隔離性。下面我們舉幾個例子來說明上述...