python庫 jieba 中文分詞

2022-08-29 07:27:12 字數 840 閱讀 7221

import jieba

精確模式,試圖將句子最精確地切開,適合文字分析;全模式,把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,但是不能解決歧義;搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。

.cut()

sentence

需要分詞的字串

cut_all=f

是否採用全模式(否則使用精確模式)

hmm=t

是否使用hmm模型(可識別不在詞典中的詞)

.cut_for_search()

(sentence, hmm=t) 搜尋引擎模式

.load_userdict(f)

載入詞典, f為自定義詞典的路徑詞典格式和dict.txt一樣, 乙個詞佔一行; 每一行分三部分, 一部分為詞語, 另一部分為詞頻(可省略, 詞頻越高成詞機率越大),最後為詞性(可省略), 用空格隔開

.suggest_freq()

使用建議的單詞頻率強制乙個單詞中的字元拆分或連線 

.add_word()

word

需要修改詞頻或詞性的詞

freq=n

設定詞頻

tag=n

設定詞性

import jieba.analyse

.extract_tags

sentence

待提取的文字

topk=20

withweight=f

allowpos=()

僅包括指定詞性的詞, 預設不篩選

withflag=f

當 allowpos不為空,是否返回物件(word, weight),類似posseg.cut

python 中文分詞庫 jieba庫

jieba庫概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫分為精確模式 全模式 搜尋引擎模式 原理 1.利用乙個中文詞庫,確定漢子之間的關係概率 2.漢字間概率大的組成片語,形成分詞結果 3.除了分詞,使用...

Python分詞模組推薦 jieba中文分詞

一 結巴中文分詞採用的演算法 二 結巴中文分詞支援的分詞模式 目前結巴分詞支援三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞...

python 中文jieba分詞

import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後...