拼音分詞屬性

2021-09-11 11:04:25 字數 1149 閱讀 8381

屬性

說明keep_first_letter

啟用此選項時,例如:劉德華》 ldh,預設值:true

keep_separate_first_letter

啟用該選項時,將保留第乙個字母分開,例如:劉德華》 l,d,h,預設:假的,注意:查詢結果也許是太模糊,由於長期過頻

limit_first_letter_length

設定first_letter結果的最大長度,預設值:16

keep_full_pinyin

當啟用該選項,例如:劉德華》 [ liu,de,hua],預設值:true

keep_joined_full_pinyin

當啟用此選項時,例如:劉德華》 [ liudehua],預設值:false

keep_none_chinese

在結果中保留非中文本母或數字,預設值:true

keep_none_chinese_together

保持非中國信一起,預設值:true,如:dj**家- > dj,yin,yue,jia,當設定為false,例如:dj**家- > d,j,yin,yue,jia,注意:keep_none_chinese必須先啟動

keep_none_chinese_in_first_letter

第乙個字母保持非中文本母,例如:劉德華at2016- > ldhat2016,預設值:true

keep_none_chinese_in_joined_full_pinyin

保留非中文本母加入完整拼音,例如:劉德華2016- > liudehua2016,預設:false

none_chinese_pinyin_tokenize

打破非中國信成單獨的拼音項,如果他們拼音,預設值:true,如:liudehuaalibaba13zhuanghan- > liu,de,hua,a,li,ba,ba,13,zhuang,han,注意:keep_none_chinese和keep_none_chinese_together應首先啟用

keep_original

當啟用此選項時,也會保留原始輸入,預設值:false

lowercase

小寫非中文本母,預設值:true

trim_whitespace

預設值:true

remove_duplicated_term

es拼音分詞 大帥哥 ES查詢優化之中文分詞優化

中文的搜尋和英文的搜尋最大不同之處在於分詞,英文分詞可以通過空格,而中文的分詞則複雜很多,分詞會直接影響使用者的搜尋使用體驗,在一些大公司甚至會使用機器學習的方式進行分詞。在這篇文章中筆者主要講解es中文分詞相關的優化。網路上經常會出現一些新詞,比如 藍瘦香菇 藍瘦香菇預設情況下會被分詞,分詞結果如...

PHP 將連續的漢語拼音分隔開

問題描述 例 woshidewenfensi wo shi de wen fen si woshidewenfensi 這段拼音有可能輸入的時候已經有分隔 比如 woshi dewen fensi 或 woshi de wen fensi 等等 最終都應轉換成 wo shi de wen fen s...

懶人日誌第二彈 檔案按首位拼音分類進對應資料夾

改名改完了 剩下的就是分類 網上找了幾種實現方案,都不大滿意 用靜態字型檔的方法個人認為浪費記憶體,且效率不高 動態字型檔雖然能很好將首位漢字的拼音反編譯出來,但是難度太高,做不了 想了乙個有點取巧的辦法 把靜態字型檔簡化,只留下每個拼音字母對應的漢字中內碼最大的那個 用strcoll操作的時候第一...