jieba分詞統計紅樓夢出現名字前20名

2021-10-10 10:51:30 字數 1118 閱讀 9530

import jieba

excludes =

txt =

open

("紅樓夢.txt"

,"r"

,encoding=

'utf-8'

).read(

)'''

不寫明路徑的話,預設和儲存的python檔案在同一目錄下 注意開啟格式是utf-8,這個可以開啟txt檔案,選擇另存為,注意介面右下角的格式

'''words = jieba.lcut(txt)

'''利用jieba庫將紅樓夢的所有語句分成詞彙

'''counts =

'''建立的乙個空的字典

'''for word in words:

iflen

(word)==1

:#如果長度是一,可能是語氣詞之類的,應該刪除掉

continue

else

: counts[word]

= counts.get(word,0)

+1''' 如果字典中沒有這個健(名字)則建立,如果有這個健那麼就給他的計數加一

[姓名:數量],這裡是數量加一

'''for word in excludes:

del(counts[word]

)'''

#這一步:如果列出的干擾詞彙在分完詞後的所有詞彙中那麼刪除

'''items =

list

(counts.items())

'''把儲存[姓名:個數]的字典轉換成列表

'''items.sort(key=

lambda x:x[1]

,reverse =

true

)'''

對上述列表進行排序,'true'是降序排列

'''for i in

range(20

):word,count = items[i]

print(""

.format

(word,count)

)

結果示例:

PYTHON中JIEBA分詞關於紅樓夢出現的高頻詞

import jieba excludes txt open 紅樓夢.txt r encoding utf 8 read words jieba.lcut txt 利用jieba庫將紅樓夢的所有語句分成詞彙 counts 建立的乙個空的字典 for word in words if len word...

python 統計紅樓夢人員姓名出現次數

使用到jieba庫 python 第三方中文分詞庫 1 安裝jieba庫 2 紅樓夢 txt 文件 import jieba txt open 紅樓夢.txt r encoding utf 8 read wenben jieba.lcut txt 使用精確模式對文字進行分詞 counts 通過鍵值對...

紅樓夢人物出場次數統計

這個也是學習過程中的乙個成果吧,希望大家能批評指正。紅樓夢人物出場次數統計。亮點在於,考慮了人物的別稱,以及有較為豐富的排除詞庫。如鳳姐的稱謂就有許多,鳳辣子,鳳姐,王熙鳳等等,還有黛玉,有林黛玉,林妹妹,林丫頭等等。很多人如果不把這些考慮在內,就容易導致錯誤的結果。不得不說,寶玉是絕對的主角。人們...