作業要求來自:
2. 從檔案讀取待分析文字。
3. 安裝並使用jieba進行中文分詞。
4. 更新詞庫,加入所分析物件的專業詞彙。
5. 生成詞頻統計
6. 排序
7. 排除語法型詞彙,代詞、冠詞、連詞等停用詞。
此處使用的是標準的詞語停用表:
8. 輸出詞頻最大top20,把結果存放到檔案裡
輸出的top20為:
9. 生成詞云。
生成的詞云結果為:
源**:
import jieba#匯入jieba進行中文分詞
from wordcloud import wordcloud#
匯入wordcloud進行詞云的生成
import
matplotlib.pyplot as plt
text=open('
e:','r
',encoding='
utf-8
').read()#
開啟並閱讀需要進行處理的中文**
worddict1=open('
d:','r
',encoding='
utf-8
').read()#
開啟並新增閱讀詞庫
worddict2=open('
e://stops_chinese1.txt
','r
',encoding='
utf-8
').read()#
開啟並讀取無意義的詞語庫
wordsls=jieba.lcut(text)#
利用jieba進行中文分詞
wcdict={}
for word in
wordsls:
if word not
inworddict2:
if len(word)==1:
continue
else
: wcdict[word]=wcdict.get(word,0)+1wcls=list(wcdict.items())#
進行詞語的詞頻統計
wcls.sort(key=lambda x:x[1],reverse=true)#
利用jieba進行中文分詞
for i in range(25):#
輸出詞頻前25的詞語
(wcls[i])
wl_split="
".join(wordsls) #
對要處理的中文**進行空格隔開處理
mywc = wordcloud().generate(wl_split)#
生成詞云
plt.imshow(mywc)
#顯示詞云
plt.axis("
off"
)plt.show()
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...