coreseek檢索時全形字符對全文檢索質量的影響

2021-08-23 11:23:57 字數 347 閱讀 8196

近來試用一段時間後,發現一些全形字符,尤其是雙引號,書名號對英文的影響有些嚴重.

比如搜尋php時,出來的前幾條中都沒有php詞樣.經過一段時間觀察,發現這些出現異常的內容裡,都帶有這些全形符號.

李沫南說其它應用**未發現這個狀態.但我這兒兩台測試機都已發生此現象.

詳細內容還得觀察一段時間.目前只能暫時將全形符號在資料來源上做轉換.(亦可用pythone資料來源在提供給sphinx時做轉換).

如有相同故障的同學亦可暫時試用此法.

附,另有一法.可以設定stopwords,在停用詞表中加入符號字元

另.coreseek的b2版,api中setweidht有故障無法使用,需公升級到b3或b4.

uniq處理全形字符時的問題

乙個程序執行了整整一天還沒結束,本來應該只需要半天左右就可以全部build完成了,一步一步查原因,發現在uniq處理全形字符的問題上。先看下面這個現象 root localhost build cat text root localhost build uniq text root localhos...

什麼是全形字符

就是太陽和月亮的區別,鍵盤上有!你可以用 shift 空格 鍵來切換全形和半形 或者用英文輸入 簡單地講,全形字符占用2個字元位置,半形字元占用1個字元位置。他們在應用上的區別主要表現在輸入阿拉伯數目字 英文本母 標點符號 特殊符號,這些只需要佔1個字元位的一般用半形輸入。如果用全形輸入的話,每兩個...

java 全形字符轉半形字元

專案中正好要用到全半形字元互轉,收藏下以後備用 public class test 全形空格為12288,半形空格為32 其他字元半形 33 126 與全形 65281 65374 的對應關係是 均相差65248 將字串中的全形字符轉為半形 param src 要轉換的包含全形的任意字串 retur...