為coreseek新增mmseg分詞

2021-07-22 08:40:29 字數 1153 閱讀 5019

1.準備好需要新增的詞表,一般都是每行一詞,注意要儲存為utf-8;

例如: 

-- 林書豪

--2.利用ultraedit的查詢替換功能,使詞**式符合mmseg的要求;

例如: 

開啟ultraedit的正則替換功能,將「^p」替換為「^t1^px:1^p」 

結果是: 

-- 林書豪[tab]1 

x:1 

-- 其他的也行

3.將生成的符合格式要求的詞表貼上到原詞表unigram.txt末尾,儲存為unigram_new.txt,並拷貝到mmseg所在的目錄下;

4.生成新的uni

/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram_new.txt

就會生成新的詞典檔案unigram_new.txt.uni 

5.將新的unigram_new.txt.uni替換原有的uni.lib

mv /usr/local/mmseg3/etc/unigram_new.txt.uni /usr/local/mmseg3/etc/uni.lib

6.重新建立索引庫、重啟searchd

/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/c.conf --all --pidfile --rotate

關閉searchd

ps auxww | grep searchd

kill 923230

啟動searchd

/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/c.conf --console --pidfile  

搜尋試下就出來了。

注意:需要重啟searchd

原文:

為ElasticSearch新增HTTP基本認證

es的http連線沒有提供任何的許可權控制措施,一旦部署在公共網路就容易有資料洩露的風險,尤其是加上類似elasticsearch head這樣友好的前端介面,簡直讓你的資料瞬間裸奔在黑客的眼皮底下。專案上線前做十萬伏特的防護當然不現實,但至少,我們不要裸奔,穿一套比基尼吧。而做乙個簡單的http認...

為php新增擴充套件

php有很多擴充套件可以給工作帶來極大的方便,但往往是在需要的時候才發現編譯安裝的時候沒有加進入,這個時候如果重新編譯一次還是比較麻煩的,在linux中有比較好的解決辦法,那就是phpize這個工具。phpize 是屬於 php devel 中的東西,主要是設定 php 外掛程式模組的一些設定 所以...

為 Jupyter 新增目錄

1 依次在 anaconda prompt 視窗中執行以下兩句命令 pip install jupyter contrib nbextensions 安裝第三方包 jupyter contrib nbextension install user skip running check 對 jupyte...