中文詞頻統計

2022-09-10 15:48:22 字數 988 閱讀 7504

中文分詞

使用jieba庫,進行中文詞頻統計,輸出top20的詞及出現次數。

排除一些無意義詞、合併同一詞。

對詞頻統計結果做簡單的解讀。

import jieba

#讀入待分析的字串

fo=open('

test.txt

','r

',encoding='

utf-8')

news=fo.read()

fo.close()

#分解提取單詞

for i in

''',。?!、:「」『』"

'-\n\u3000'''

: news=str.replace(i,''

)words=list(jieba.cut(news))

#排除語法型詞彙

dic={}

exp=set(['','

。','

年','

月','

日','

電訊','

新華社','這裡'

])keys=set(words)-exp

#建立計數字典

for i in

keys:

if(len(i)>1

): dic[i]=words.count(i)

items=list(dic.items())

#排序items.sort(key=lambda x:x[1],reverse=true)

#輸出top(20)

print(

'輸出top20:')

這則新聞主要講的是再新時期中國應創造更多具有時代精神的,反應廣大人民生活的優秀作品。

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...