中文詞頻統計

2022-07-18 12:15:16 字數 1665 閱讀 9987

作業要求來自: 

2. 從檔案讀取待分析文字。

3. 安裝並使用jieba進行中文分詞。

4. 更新詞庫,加入所分析物件的專業詞彙。 

5. 生成詞頻統計

6. 排序

7. 排除語法型詞彙,代詞、冠詞、連詞等停用詞。

此處使用的是標準的詞語停用表:

8. 輸出詞頻最大top20,把結果存放到檔案裡

輸出的top20為:

9. 生成詞云。

生成的詞云結果為:

源**:

import jieba#

匯入jieba進行中文分詞

from wordcloud import wordcloud#

匯入wordcloud進行詞云的生成

import

matplotlib.pyplot as plt

text=open('

e:','r

',encoding='

utf-8

').read()#

開啟並閱讀需要進行處理的中文**

worddict1=open('

d:','r

',encoding='

utf-8

').read()#

開啟並新增閱讀詞庫

worddict2=open('

e://stops_chinese1.txt

','r

',encoding='

utf-8

').read()#

開啟並讀取無意義的詞語庫

wordsls=jieba.lcut(text)#

利用jieba進行中文分詞

wcdict={}

for word in

wordsls:

if word not

inworddict2:

if len(word)==1:

continue

else

: wcdict[word]=wcdict.get(word,0)+1wcls=list(wcdict.items())#

進行詞語的詞頻統計

wcls.sort(key=lambda x:x[1],reverse=true)#

利用jieba進行中文分詞

for i in range(25):#

輸出詞頻前25的詞語

print

(wcls[i])

wl_split="

".join(wordsls) #

對要處理的中文**進行空格隔開處理

mywc = wordcloud().generate(wl_split)#

生成詞云

plt.imshow(mywc)

#顯示詞云

plt.axis("

off"

)plt.show()

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...