結巴分詞使用方法

1.安裝

將其解壓到任意目錄下，然後開啟命令列進入該目錄執行：python setup.py install 進行安裝

2.測試

安裝完成後，進入python互動環境，import jieba 如果沒有報錯，則說明安裝成功。如下圖所示

3 使用

（1）分詞

結巴分詞支援3中分詞模式：

1，全模式：把句子中的所有可以成詞的詞語都掃瞄出來，

2，精確模式：試圖將文字最精確的分開，適合於做文字分析。

3，搜尋引擎模式：在精確的基礎上對長詞進行進一步的切分。

函式jieba.cut接受兩個輸入引數，第乙個是將要分詞的物件，第二個是採用的模式。該函式返回的是乙個可以迭代的generator，可以使用for迴圈得到分詞後得到的每乙個詞語。

示例：

# -*- coding: utf-8 -*-
import jieba
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)
print(" ".join(seg_list))
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望")
print(" ".join(seg_list))
seg_list = jieba.cut_for_search("夏農在資訊理論中提出的資訊熵定義為自資訊的期望")
print(" ".join(seg_list))

其分詞的結果分別為：

（2）新增自定義詞典

使用者可以新增自定義的詞典來包含結巴詞庫中沒有的詞。（在以上示例中沒有分出「自資訊」這個詞）

用法： jieba.load_userdict("userdict1.txt")

在檔案userdict1.txt中新增以下的內容：自資訊 5

import jieba
import jieba.analyse
jieba.load_userdict("userdict1.txt")
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)
（原來識別不出來的「自資訊」現在可以了）
用法：tags = jieba.analyse.extract_tags("sentence", topk=k)，其中topk預設值是20 
import jieba
import jieba.analyse
jieba.load_userdict("userdict1.txt")
jieba.analyse.set_stop_words("extra_dict/stop_words.txt")
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)
print(" ".join(seg_list))
tags = jieba.analyse.extract_tags("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", topk=10)
（4）例項：對檔案進行分詞
# -*- coding: utf-8 -*-
import jieba
import jieba.analyse
jieba.load_userdict("userdict1.txt")
jieba.analyse.set_stop_words("extra_dict/stop_words.txt")
def splitsentence(inputfile, outputfile):
fin = open(inputfile, 'r', encoding='utf-8')
fout = open(outputfile, 'w', encoding='utf-8')
for line in fin:
line = line.strip()
line = jieba.analyse.extract_tags(line)
outstr = " ".join(line)
print(outstr)
fout.write(outstr + '\n')
fin.close()
fout.close()
splitsentence('input.txt', 'output.txt')
 python結巴分詞
中文分詞是中文文字處理的乙個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄，生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞，採用了基於漢字成詞能力的hmm模型，使用了...
結巴分詞jieba
全模式text 我來到北京清華大學 seg list jieba.cut text,cut all true print u 全模式 join seg list 精確模式 seg list jieba.cut text,cut all false print u 精確模式 join seg list...
python中文分詞 結巴分詞
中文分詞是中文文字處理的乙個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄，生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞，採用了基於漢字成詞能力的hmm模型，使用了...

結巴分詞使用方法

python結巴分詞

結巴分詞jieba

python中文分詞 結巴分詞

相關推薦

python中文分詞結巴分詞