中文詞頻統計

2022-05-27 18:42:06 字數 1163 閱讀 1558

從檔案讀取待分析文字。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序排除語法型詞彙,代詞、冠詞、連詞

輸出詞頻最大top20

import

jieba

fo = open('

douluo.txt

','r

',encoding='

utf-8

').read()

wordsls =jieba.lcut(fo)

wcdict ={}

#for word in wordsls:

#if len(word)==1:

#continue

#else:

#wcdict[word]=wcdict.get(word,0)+1

for i in

set(wordsls):

wcdict[i]=wordsls.count(i)

delete=

for i in

delete:

if i in

wcdict:

delwcdict[i]

sort_word = sorted(wcdict.items(), key = lambda d:d[1], reverse = true) #

排序for i in range(20): #

輸出print

(sort_word[i])

#fo = open("douluo1.txt", "r",encoding='utf-8')

#print ("檔名為: ", fo.name)

#for index in range(5):

#line = next(fo)

#print ("第 %d 行 - %s" % (index, line))##

# 關閉檔案

#fo.close()

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

作業要求來自 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 6.排序 7.排除語法型詞彙,代詞 冠詞 連詞等停用詞。此處使用的是標準的詞語停用表 8.輸出詞頻最大top20,把結果存放到檔案裡 輸出的top20為 9.生成詞...