使用jieba 中文分詞 庫統計詞頻

2021-09-12 08:42:08 字數 1197 閱讀 9432

以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。

import jieba#引用中文分詞庫

txt = open("shuihu.txt","r",encoding="gb18030").read()#讀取檔案,注意編碼

excludes =#通過不斷優化排除結果中的無用詞

words = jieba.lcut(txt)#中文分詞

counts = {}#用於儲存結果的字典

for word in words:  #遍歷方法統計詞頻

if len(word) == 1:

continue

else:

counts[word]=counts.get(word,0) + 1 #巧用get

for word in excludes: #排除無用詞

del counts[word]

items = list(counts.items())#將結果轉為列表形式

items.sort(key=lambda x:x[1],reverse=true)#以詞頻從高到低排序

print("".format("人物","次數"))#列印表頭

for i in range(3):     #列印出場次數前三名

word,count = items[i]

print("".format(word,count))

輸入:

輸出:

以三國演義為例,將同一人物的不同稱呼進行合併統計,使用if…elif…else

輸入:

輸出:

Python中文分詞庫 jieba

1 介紹 jieba是優秀的中文分詞第三方庫。由於中文文字之間每個漢字都是連續書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是python計算生態中非常優秀的中文分詞第三方庫,需要通過安裝來使用它。jieba庫提供了三種分詞模式,但實際上要達到分詞效果只要掌握乙個...

Python之jieba中文分詞庫

jieba分詞是python中目前最受歡迎的中文分詞庫,他有許多特點,為了便於介紹直接引用官方介紹如下。支援繁體分詞 支援自定義詞典 mit 授權協議 jieba分詞的原理是利用乙個中文詞庫,確定漢字之間的關聯概率,然後組成片語,形成分詞結果,除了分詞,使用者還可以新增自定義的片語。我們先來看乙個最...

python 中文分詞庫 jieba庫

jieba庫概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫分為精確模式 全模式 搜尋引擎模式 原理 1.利用乙個中文詞庫,確定漢子之間的關係概率 2.漢字間概率大的組成片語,形成分詞結果 3.除了分詞,使用...