jieba 分詞(西遊記)

2022-09-10 00:57:26 字數 1189 閱讀 5936

import jieba

with open('./西遊記.txt', 'r', encoding='utf_8') as f:

words = jieba.lcut(f.read()) # 使用精確模式對文字進行分詞

counts = {} # 通過鍵值對的形式儲存詞語及其出現的次數

for word in words:

if len(word) == 1:

continue

elif word == "大聖" or word == "老孫" or word == "行者" or word =l= "孫大聖" or word == "孫行者" or word == "猴王" or word == "悟空" or word == "齊天大聖" or word == "猴子":

rword = "孫悟空"

elif word == "**" or word == "三藏" or word == "聖僧":

rword = "唐僧"

elif word == "呆子" or word == "八戒" or word == "老豬":

rword = "豬八戒"

elif word == "沙和尚":

rword = "沙僧"

elif word == "妖精" or word == "妖魔" or word == "妖道":

rword = "妖怪"

elif word == "佛祖":

rword = "如來"

elif word == "三太子":

rword = "白馬"

else:

rword = word

counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items()) # 將鍵值對轉換成列表

items.sort(key=lambda x: x[1], reverse=true) # 根據詞語出現的次數進行從大到小排序

jieba分詞《西遊記》

如下 import jieba txt open 西遊記 txt r encoding utf 8 read words jieba.lcut txt 使用精確模式對文字進行分詞 counts 通過鍵值對的形式儲存詞語及其出現的次數 for word in words if len word 1 c...

新版西遊記

唐僧師徒歷經九九八十一難,終於見到了如來佛求取真經。如來問 你們帶u盤了麼?唐僧師徒 如來又問 行動硬碟呢?唐僧師徒 如來繼續問 ipod也可以。唐僧師徒 如來嘆了口氣 那你們就原路回去吧,我用qq傳給你們!唐僧 早知道加你qq就完了,老子還走這麼遠幹嘛啊。如來回應道 你們以為要加就加啊,我經常隱身...

從西遊記談起

西遊記這個電視劇集,固然拍的很成功,我還記得小時候看西遊記,像過年似的,那種高興和喜悅,讓我們這些小孩子死扛著不肯離開電視機,當時我家裡並沒有電視機,我們都是在別人家裡看的,趕都趕不走.印象最深的就是乙個人家把電視機擺到了街頭的空地上,周圍的鄰居,無論大人或者小孩,都圍著看了夠,那集演的是 女兒國 ...