jieba分詞統計紅樓夢出現名字前20名

import jieba
excludes =
txt =
open
("紅樓夢.txt"
,"r"
,encoding=
'utf-8'
).read(
)'''
不寫明路徑的話，預設和儲存的python檔案在同一目錄下 注意開啟格式是utf-8，這個可以開啟txt檔案，選擇另存為，注意介面右下角的格式
'''words = jieba.lcut(txt)
'''利用jieba庫將紅樓夢的所有語句分成詞彙
'''counts =
'''建立的乙個空的字典
'''for word in words:
iflen
(word)==1
:#如果長度是一，可能是語氣詞之類的，應該刪除掉
continue
else
: counts[word]
= counts.get(word,0)
+1''' 如果字典中沒有這個健（名字）則建立，如果有這個健那麼就給他的計數加一
[姓名:數量]，這裡是數量加一
'''for word in excludes:
del(counts[word]
)'''
#這一步：如果列出的干擾詞彙在分完詞後的所有詞彙中那麼刪除
'''items =
list
(counts.items())
'''把儲存[姓名：個數]的字典轉換成列表
'''items.sort(key=
lambda x:x[1]
,reverse =
true
)'''
對上述列表進行排序，'true'是降序排列
'''for i in
range(20
):word,count = items[i]
print(""
.format
(word,count)
)

結果示例：

PYTHON中JIEBA分詞關於紅樓夢出現的高頻詞

import jieba excludes txt open 紅樓夢.txt r encoding utf 8 read words jieba.lcut txt 利用jieba庫將紅樓夢的所有語句分成詞彙 counts 建立的乙個空的字典 for word in words if len word...

python 統計紅樓夢人員姓名出現次數

使用到jieba庫 python 第三方中文分詞庫 1 安裝jieba庫 2 紅樓夢 txt 文件 import jieba txt open 紅樓夢.txt r encoding utf 8 read wenben jieba.lcut txt 使用精確模式對文字進行分詞 counts 通過鍵值對...

紅樓夢人物出場次數統計

這個也是學習過程中的乙個成果吧，希望大家能批評指正。紅樓夢人物出場次數統計。亮點在於，考慮了人物的別稱，以及有較為豐富的排除詞庫。如鳳姐的稱謂就有許多，鳳辣子，鳳姐，王熙鳳等等，還有黛玉，有林黛玉，林妹妹，林丫頭等等。很多人如果不把這些考慮在內，就容易導致錯誤的結果。不得不說，寶玉是絕對的主角。人們...

jieba分詞統計紅樓夢出現名字前20名

PYTHON中JIEBA分詞關於紅樓夢出現的高頻詞

python 統計紅樓夢人員姓名出現次數

紅樓夢人物出場次數統計

相關推薦