SolrCloud學習(二)中文分詞

2021-06-18 12:29:22 字數 1260 閱讀 5569

中文分詞

solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff_u1。

第一步

新增ikanalyzer的jar包至lib環境,操作如下:

cp ikanalyzer2012ff_u1.jar /data1/solr/example/solr/collection1/lib/

如/data1/solr/example/solr/collection1/lib/不存在,建立該目錄。

這裡也可以拷貝ikanalyzer的配置檔案和停用詞檔案:ikanalyzer.cfg.xml,stopword.dic

stopword.dic是英文的一些停用詞表,根據需求我們要建立自己的中文停用詞表

touch chinese_stopword.dic

配置ikanalyzer.cfg.xml

<?xml version="1.0" encoding="utf-8"?>

ik analyzer 擴充套件配置

stopword.dic;chinese_stopword.dic

最後拷貝ikanalyzer.jar檔案至solrhome/lib目錄下

cp ikanalyzer2012ff_u1.jar /data1/solr/example/solr/lib
以上操作執行在solrcloud的每個節點伺服器

第二步

配置solr的collection1/conf/schema.xml檔案,配置如下

field根據type屬性定義分詞器

至此,ikanalyzer中文分詞新增完成,更新下zookeeper的solr配置

cloud-scripts/zkcli.sh -cmd upconfig -zkhost server1:2181,server2:2181 -collection collection1 -confname myconf -solrhome ./solr -confdir ./solr/collection1/conf

重啟tomcat即可

NLP 二 中文處理jieba模組

jieba模組 中文沒有空格 jieba.cut方法接受三個引數的 需要分詞的字串 cut all引數用來控制是否採用全模式 hmm引數用來控制是否使用hmm模型 jieba.cut for search方法接受兩個引數 需要分詞的字串 是否使用hmm模型 import jieba text 我來到...

簡易中文自動文摘系統(二) 中文語料庫的準備

bzcat zhwiki latest pages articles.xml.bz2 python wikiextractor.py b 1000m o extracted output.txt其中 b 1000m是將文字以1000m大小為單位進行分割 output.txt儲存的是輸出過程中日誌資訊...

微控制器學習筆記(二) 中斷系統

cpu正在處理某件事情時,微控制器的內部或外部發生的某一事件請求cpu迅速去處理,於是cpu暫時中止當前的工作去處理所發生的事件。處理的過程是由中斷服務處理程式來負責的,它處理完後又回到原來被中止的地方,繼續原來的工作,這就是中斷。一 中斷請求 51 mcs 51系統簡稱,以下均使用51 中斷系統有...