中文詞頻統計與詞云生成

2022-04-09 23:48:14 字數 1700 閱讀 8708

中文詞頻統計:     作業連線:

2. 從檔案讀取待分析文字。

3. 安裝並使用jieba進行中文分詞。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新詞庫,加入所分析物件的專業詞彙。

jieba.add_word('天罡北斗陣')  #逐個新增

jieba.load_userdict(word_dict)  #詞庫文字檔案

轉換**:scel_to_text

5. 生成詞頻統計

6. 排序

7. 排除語法型詞彙,代詞、冠詞、連詞等停用詞。

stops

8. 輸出詞頻最大top20,把結果存放到檔案裡

9. 生成詞云。

本案例統計紅樓夢詞頻:

4.先將轉化為txt形式的詞庫檔案加入,再對紅樓夢文字進行詞頻統計,統計出頻率最高的20個詞:

import jieba

txt = open(r"c:\users\administrator\desktop\all.txt",'r',encoding='utf-8').read()

word_dict =r"c:\users\administrator\desktop\11.txt"

jieba.load_userdict(word_dict)

words = jieba.cut(txt)

# 鍵值對形式 {}

counts={}

for word in words:

if len(word)==1:

continue

else:

counts[word] = counts.get(word,0) +1 #遍歷所有,並加1

items = list(counts.items())#鍵值對變成列表

items.sort(key=lambda x: x[1], reverse=true)

for i in range(20):

word, count = items[i]

print("".format(word, count))

5.編譯結果:

曹操 934

孔明 831

將軍 760

卻說 647

玄德 571

關公 509

丞相 488

二人 463

不可 435

荊州 420

孔明曰 384

玄德曰 383

不能 383

如此 376

張飛 348

商議 344

如何 336

主公 327

軍士 309

呂布 299

6:詞云形式:

中文詞頻統計與詞云生成

中文詞頻統計 追風箏的人 txt 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.lo...

中文詞頻統計與詞云生成

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.load userdict word ...

中文詞頻統計與詞云生成

中文詞頻統計 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.load userdic...