中文詞頻統計

2022-06-02 06:18:09 字數 847 閱讀 1670

從檔案讀取待分析文字。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序排除語法型詞彙,代詞、冠詞、連詞

輸出詞頻最大top20

import jieba

f=open('好嗎.txt','r')

notes=f.read()

notelist=list(jieba.lcut(notes))

notedic={}

for i in set(notelist): #計算次數

notedic[i]=notelist.count(i)

delete_word=

for i in delete_word: #刪除非法詞彙

if i in notedic:

del notedic[i]

sort_word = sorted(notedic.items(), key= lambda d:d[1], reverse = true) # 由大到小排序

for i in range(20): #輸出詞頻top20

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

作業要求來自 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 6.排序 7.排除語法型詞彙,代詞 冠詞 連詞等停用詞。此處使用的是標準的詞語停用表 8.輸出詞頻最大top20,把結果存放到檔案裡 輸出的top20為 9.生成詞...