NLP jieba分詞理解

一、jieba分詞特點：支援3種分詞模式；支援繁體分詞；支援自定義詞典。

二、jieba分詞的過程：

1、基於字首詞典實現詞圖掃瞄，生成句子中所有可能的詞語構成有向無環圖（dag），採用動態規劃方法尋找最大概率的路徑，即基於詞頻的最大切分組合；

2、對於未登入詞，採用了hmm模型，並用維特比演算法進行計算

3、基於維特比演算法的詞性標註

同2類似，轉換成序列標註問題。jieba在分詞的時候，同時進行分詞和詞性標註。詞性標註時，則首先基於正規表示式（漢字）進行判斷，如果是漢字：則基於字首詞典構建dag，然後計算最大概率路徑，同時查詢所分出的詞的詞性，如果沒有找到，則將其詞性標註為x；如果是hmm標誌位置位，並且該詞為未登入詞，則通過hmm對其進行詞性標註；如果是其他，則根據正規表示式判斷其型別，標註為x,m(數詞),eng(英文)等。

jieba分詞的流程圖如下：

三、jieba分詞的不足：

1、dict.txt字典占用記憶體為140多m，占用記憶體過多。且該詞典是通用詞典，通用詞的分割有效果，但是對於專業領域的分詞則效果不好，需要自備專業領域詞典進行分詞。

2、hmm識別新詞在時效性是不足的，並且只能識別2個字的詞，對於3個字的詞，識別能力有限，

3、ner效果不夠好。

4、不能進行句法分析和語義分析。

NLP jieba分詞理解

Lucene 中文分詞的理解

搜尋引擎（2）查詢理解分詞

英文分詞和中文分詞

NLP jieba分詞理解

Lucene 中文分詞的理解

搜尋引擎（2） 查詢理解 分詞

英文分詞和中文分詞

相關推薦

搜尋引擎（2）查詢理解分詞