中文詞頻統計

作業要求來自：

2. 從檔案讀取待分析文字。

3. 安裝並使用jieba進行中文分詞。

4. 更新詞庫，加入所分析物件的專業詞彙。

5. 生成詞頻統計

6. 排序

7. 排除語法型詞彙，代詞、冠詞、連詞等停用詞。

此處使用的是標準的詞語停用表：

8. 輸出詞頻最大top20，把結果存放到檔案裡

輸出的top20為：

9. 生成詞云。

生成的詞云結果為：

源**：

import jieba#
匯入jieba進行中文分詞
from wordcloud import wordcloud#
匯入wordcloud進行詞云的生成
import
matplotlib.pyplot as plt
text=open('
e:','r
',encoding='
utf-8
').read()#
開啟並閱讀需要進行處理的中文**
worddict1=open('
d:','r
',encoding='
utf-8
').read()#
開啟並新增閱讀詞庫
worddict2=open('
e://stops_chinese1.txt
','r
',encoding='
utf-8
').read()#
開啟並讀取無意義的詞語庫
wordsls=jieba.lcut(text)#
利用jieba進行中文分詞
wcdict={}
for word in
wordsls:
if word not
inworddict2:
if len(word)==1:
continue
else
: wcdict[word]=wcdict.get(word,0)+1wcls=list(wcdict.items())#
進行詞語的詞頻統計
wcls.sort(key=lambda x:x[1],reverse=true)#
利用jieba進行中文分詞
for i in range(25):#
輸出詞頻前25的詞語
print
(wcls[i])
wl_split="
".join(wordsls) #
對要處理的中文**進行空格隔開處理
mywc = wordcloud().generate(wl_split)#
生成詞云
plt.imshow(mywc)
#顯示詞云
plt.axis("
off"
)plt.show()

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計排序排除語法型詞彙，代詞冠詞連詞等停用詞輸出詞頻最大top20，把結果存放到檔案裡源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計排序排除語法型詞彙，代詞冠詞連詞輸出詞頻...

中文詞頻統計

中文詞頻統計

中文詞頻統計

中文詞頻統計

相關推薦