lucene IK分詞器 不分詞

2021-10-22 19:18:28 字數 969 閱讀 9769

需求 名字 東方朔

ik :東方 朔

當我查詢索引東方朔的時候 並沒有出現我所需要的結果,是因為沒有東方朔這個詞

因此我需要不分詞。

尋找不分詞的方法尋找了很久,首先是自定義擴充套件的詞,但是這個問題我遇到了版本不合適,聽說ik2012分詞器不支援4.0以上的版本,不過當我把lucene版本降到3.6的時候,並且還把編碼弄為utf-8 no bom 了,我最終結果還是不行。你們可以先試試

先看:後看:

後來我又想到了利用自定義分詞器,在網上找了很多分詞器,也是不行,後來我想了一下,我需要的就是這個詞的本身,所以應該是叫不分詞,後來通過搜尋!問題解決了!原來賊簡單!這還搞了我兩天

stringfield預設不分詞

document.add(new stringfield(「name」, user.getname(), store.yes));

就用這個。當然你需要 搜尋東方 也能有結果 搜尋東方朔也能有結果 你可以這麼寫:

field apartmentname =

newtextfield

("apartment_name"

,dormitory.

getapartmentname()

, field.store.yes)

;field apartmentname2 =

newstringfield

("apartment_name"

,dormitory.

getapartmentname()

, field.store.yes)

;document.

add(apartmentname)

;document.

add(apartmentname2)

;indexwriter.

adddocument

(document)

;

暫時這裡還沒有出現問題

ik分詞器 分詞原理 分詞技術及開源分詞器

分詞是自然語言處理的第一步,這裡主要從序列標註的角度遞進介紹hmm如何實現分詞,然後介紹分詞工具的使用,在nlp中,分詞 詞性標註和命名實體識別都屬於標註任務,也就是對token進行分詞,對於分詞任務難點有以下幾個 新詞的發現 未登陸此 人名 地名 商標名 公司名稱 2.詞典與演算法優先順序 我們 ...

分詞不分詞同時查詢

搜尋 金融資料 es中儲存 第2條資料 平安有金融資料業務,利用金融資料創造巨大收益 第3條資料 當今時代是金融資料的時代 第4條資料 我要學習金融知識 資料知識 想要的搜尋排序效果 精確匹配靠前 分詞匹配靠後 第2條資料 平安有金融資料業務,利用金融資料創造巨大收益 第3條資料 當今時代是金融資料...

結巴分詞器

結巴分詞 coding utf 8 import sys import os import jieba sent 天善智慧型是乙個專注於商業智慧型bi 資料分析 資料探勘和大資料技術領域的技術社群 www.hellobi.com 內容從最初的商業智慧型 bi 領域也擴充到了資料分析 資料探勘和大資料...