jieba分詞《西遊記》

2022-09-10 01:00:28 字數 1230 閱讀 6578

**如下:

import jieba

txt = open("《西遊記》.txt", "r", encoding='utf-8').read()

words = jieba.lcut(txt) # 使用精確模式對文字進行分詞

counts = {} # 通過鍵值對的形式儲存詞語及其出現的次數

for word in words:

if len(word) == 1:

continue

elif word == "大聖" or word == "老孫" or word == "行者" or word == "孫大聖" or word == "孫行者" or word == "猴王" or word == "悟空" or word == "齊天大聖" or word == "猴子":

rword = "孫悟空"

elif word == "**" or word == "三藏" or word == "聖僧":

rword = "唐僧"

elif word == "呆子" or word == "八戒" or word == "老豬":

rword = "豬八戒"

elif word == "沙和尚":

rword = "沙僧"

elif word == "妖精" or word == "妖魔" or word == "妖道":

rword = "妖怪"

elif word == "佛祖":

rword = "如來"

elif word == "三太子":

rword = "白馬"

else:

rword = word

counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items()) # 將鍵值對轉換成列表

items.sort(key=lambda x: x[1], reverse=true) # 根據詞語出現的次數進行從大到小排序

for i in range(20):

word, count = items[i]

print("".format(word, count))

執行結果如下:

暱稱:binnie

學號:2020310143041

jieba 分詞(西遊記)

import jieba with open 西遊記.txt r encoding utf 8 as f words jieba.lcut f.read 使用精確模式對文字進行分詞 counts 通過鍵值對的形式儲存詞語及其出現的次數 for word in words if len word 1 ...

新版西遊記

唐僧師徒歷經九九八十一難,終於見到了如來佛求取真經。如來問 你們帶u盤了麼?唐僧師徒 如來又問 行動硬碟呢?唐僧師徒 如來繼續問 ipod也可以。唐僧師徒 如來嘆了口氣 那你們就原路回去吧,我用qq傳給你們!唐僧 早知道加你qq就完了,老子還走這麼遠幹嘛啊。如來回應道 你們以為要加就加啊,我經常隱身...

從西遊記談起

西遊記這個電視劇集,固然拍的很成功,我還記得小時候看西遊記,像過年似的,那種高興和喜悅,讓我們這些小孩子死扛著不肯離開電視機,當時我家裡並沒有電視機,我們都是在別人家裡看的,趕都趕不走.印象最深的就是乙個人家把電視機擺到了街頭的空地上,周圍的鄰居,無論大人或者小孩,都圍著看了夠,那集演的是 女兒國 ...