結巴分詞使用方法

2021-07-24 20:23:19 字數 2669 閱讀 2270

1.安裝

將其解壓到任意目錄下,然後開啟命令列進入該目錄執行:python setup.py install 進行安裝

2.測試

安裝完成後,進入python互動環境,import jieba 如果沒有報錯,則說明安裝成功。如下圖所示

3 使用

(1)分詞

結巴分詞支援3中分詞模式:

1,全模式:把句子中的所有可以成詞的詞語都掃瞄出來,

2, 精確模式:試圖將文字最精確的分開,適合於做文字分析。

3,搜尋引擎模式:在精確的基礎上對長詞進行進一步的切分。

函式jieba.cut接受兩個輸入引數,第乙個是將要分詞的物件,第二個是採用的模式。該函式返回的是乙個可以迭代的generator, 可以使用for迴圈得到分詞後得到的每乙個詞語。

示例:

# -*- coding: utf-8 -*-

import jieba

seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)

print(" ".join(seg_list))

seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望")

print(" ".join(seg_list))

seg_list = jieba.cut_for_search("夏農在資訊理論中提出的資訊熵定義為自資訊的期望")

print(" ".join(seg_list))

其分詞的結果分別為:

(2)新增自定義詞典

使用者可以新增自定義的詞典來包含結巴詞庫中沒有的詞。(在以上示例中沒有分出「自資訊」這個詞)

用法: jieba.load_userdict("userdict1.txt")

在檔案userdict1.txt中新增以下的內容:自資訊 5

import jieba

import jieba.analyse

jieba.load_userdict("userdict1.txt")

seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)

(原來識別不出來的「自資訊」現在可以了)

用法:tags = jieba.analyse.extract_tags("sentence", topk=k),其中topk預設值是20

import jieba

import jieba.analyse

jieba.load_userdict("userdict1.txt")

jieba.analyse.set_stop_words("extra_dict/stop_words.txt")

seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)

print(" ".join(seg_list))

tags = jieba.analyse.extract_tags("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", topk=10)

(4)例項:對檔案進行分詞

# -*- coding: utf-8 -*-

import jieba

import jieba.analyse

jieba.load_userdict("userdict1.txt")

jieba.analyse.set_stop_words("extra_dict/stop_words.txt")

def splitsentence(inputfile, outputfile):

fin = open(inputfile, 'r', encoding='utf-8')

fout = open(outputfile, 'w', encoding='utf-8')

for line in fin:

line = line.strip()

line = jieba.analyse.extract_tags(line)

outstr = " ".join(line)

print(outstr)

fout.write(outstr + '\n')

fin.close()

fout.close()

splitsentence('input.txt', 'output.txt')

python結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...

結巴分詞jieba

全模式text 我來到北京清華大學 seg list jieba.cut text,cut all true print u 全模式 join seg list 精確模式 seg list jieba.cut text,cut all false print u 精確模式 join seg list...

python中文分詞 結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...