中文詞頻統計

2022-08-20 07:51:14 字數 1489 閱讀 6251

使用jieba庫,進行中文詞頻統計,輸出top20的詞及出現次數。

排除一些無意義詞、合併同一詞。

對詞頻統計結果做簡單的解讀。

import jieba#

引入庫fo=open('

老人與海.txt

','r

',encoding='

utf-8')

t=fo.read()

fo.close()

#讀入待分析文章

words=jieba.cut(t)#

分解提取詞彙

dic={}#

建立乙個字典

for w in

words:

if len(w)==1:

continue

#去掉乙個位元組的字元

else

: dic[w]=dic.get(w,0)+1#

對字典賦鍵值

wc = list(dic.items())#

將字典轉換成由元組組成的列表

wc.sort(key=lambda x:x[1],reverse = true)#

對字典的值按從大到小排序

for i in range(20):

print(wc[i])#

輸出前20個

解讀:該書的主人公是老人和小孩,講述的是老人乘船出海捕魚,最後老人經過幾天幾夜不屈不撓的鬥爭終於戰勝了大魚,成功捕獲它。

迴圈語句加count:

import jieba#

引入庫fo=open('

老人與海.txt

','r

',encoding='

utf-8')

t=fo.read()

fo.close()

#讀入待分析文章

words=list(jieba.cut(t))#

分解提取詞彙

dic={}#

建立乙個字典

exc=#

需要去掉的詞彙

keys=set(words)-exc#

對字典賦鍵

for w in keys:#

對字典的鍵便利

if len(w)==1:

continue

#去掉乙個位元組的字元

else

: dic[w]=words.count(w)#

對字典賦值,即對鍵統計後賦值

wc = list(dic.items())#

將字典轉換成由元組組成的列表

wc.sort(key=lambda x:x[1],reverse = true)#

對字典的值按從大到小排序

for i in range(20):

print(wc[i])#

輸出前20個

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...