jieba分詞學習總結

2021-07-15 05:12:17 字數 638 閱讀 3465

1、jieba.cut()

引數1 需要分詞的字串

引數2 是否採用全模式,預設是精確模式

seg_list=jieba.cut(『這是乙個測試』,cut_all=false)

可以用』/』.join(seg_list)

2、新增自定義詞典

jieba.load_userdict(filename) filename為自定義詞典的路徑和檔名

格式為:乙個詞一行 每行分為三部分 一部分詞語 另一部分詞頻 最後為詞性 以空格分開

4、詞性標註

import jieba.posseg as pseg

words=pseg.cut(sentence)

for w in words

print w.word,w.flag

5、去停用詞

stopwords=[line.strip().decode(『utf-8』) for line in open(『stop_words.txt』)]

seglist=jieba.cut(sen)

print 『/』.join(set(seglist)-set(stopwords))

這裡用到了set函式,set函式返回的是去重後的無序集合,」-「號表示差集

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...

jieba分詞學習筆記(二)

jieba分詞有多種模式可供選擇。可選的模式包括 同時也提供了hmm模型的開關。其中全切分模式就是輸出乙個字串的所有分詞,精確模式是對句子的乙個概率最佳分詞,而搜尋引擎模式提供了精確模式的再分詞,將長詞再次拆分為短詞。效果大抵如下 encoding utf 8 import jieba seg li...

中文分詞jieba學習筆記

四 詞性標註 五 並行分詞 六 返回詞語在原文的起止位置 注意 hmm模型 隱馬爾可夫模型 可以識別新詞 jieba.load userdict filename filename為自定義詞典的路徑 在使用的時候,詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致,乙個詞佔一行,每一行...