中文詞頻統計

2.使用jieba庫，進行中文詞頻統計，輸出top20的詞及出現次數。

3.排除一些無意義詞、合併同一詞。

4.對詞頻統計結果做簡單的解讀

import
jieba
txt = open('阿q正傳
.txt
','r
',encoding='
utf-8
').read()
words=list(jieba.cut(txt))
print('
列表如下：
',words)
exp= #
建立新的集合
keys=set(words)-exp #
排除無意義詞，合併同一詞
dic={}
for a in keys: #
只保留兩位以上的詞
if len(a)>1:
dic[a]=words.count(a)
c=list(dic.items()) #
解讀詞頻
c.sort(key=lambda x:x[1],reverse=true)
for i in range(20): #
輸出前20
通過詞頻分析，《阿q正傳》是以辛亥革命前後的中國農村為背景，描寫未莊流浪雇農阿q，雖然幹起活來「真能做」，但卻一無所有，甚至連名姓都被人遺忘的故事。
 中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙，代詞 冠詞 連詞等停用詞 輸出詞頻最大top20，把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙，代詞 冠詞 連詞 輸出詞頻...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙，代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

中文詞頻統計

中文詞頻統計

中文詞頻統計

相關推薦