jieba分詞學習總結

1、jieba.cut()

引數1 需要分詞的字串

引數2 是否採用全模式，預設是精確模式

seg_list=jieba.cut(『這是乙個測試』,cut_all=false)

可以用』/』.join(seg_list)

2、新增自定義詞典

jieba.load_userdict(filename) filename為自定義詞典的路徑和檔名

格式為：乙個詞一行每行分為三部分一部分詞語另一部分詞頻最後為詞性以空格分開

4、詞性標註

import jieba.posseg as pseg

words=pseg.cut(sentence)

for w in words

print w.word,w.flag

5、去停用詞

stopwords=[line.strip().decode(『utf-8』) for line in open(『stop_words.txt』)]

seglist=jieba.cut(sen)

print 『/』.join(set(seglist)-set(stopwords))

這裡用到了set函式，set函式返回的是去重後的無序集合，」-「號表示差集

jieba 利用jieba分詞

目錄三種分詞模式新增自定義詞典進行分詞 jieba提供了三種分詞模式，分別是全模式，精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞，精確模式下會盡可能的將句子精確切開，搜尋引擎模式實在精確模式的基礎上，對長詞再進行劃分，提高分詞的召回率。使用cut和cut for search即可...

jieba分詞學習筆記（二）

jieba分詞有多種模式可供選擇。可選的模式包括同時也提供了hmm模型的開關。其中全切分模式就是輸出乙個字串的所有分詞，精確模式是對句子的乙個概率最佳分詞，而搜尋引擎模式提供了精確模式的再分詞，將長詞再次拆分為短詞。效果大抵如下 encoding utf 8 import jieba seg li...

中文分詞jieba學習筆記

四詞性標註五並行分詞六返回詞語在原文的起止位置注意 hmm模型隱馬爾可夫模型可以識別新詞 jieba.load userdict filename filename為自定義詞典的路徑在使用的時候，詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致，乙個詞佔一行，每一行...

jieba分詞學習總結

jieba 利用jieba分詞

jieba分詞學習筆記（二）

中文分詞jieba學習筆記

相關推薦