漢語詞頻統計

2021-10-23 09:10:18 字數 1185 閱讀 2345

該案例以黨的十九大報告為例,統計報告中各個詞語出現的頻率。總體步驟為讀入文字,分詞,詞頻統計。通過觀察詞語頻率最高的幾個詞,我們就可以大致了解這份報告的主要內容。

#開啟檔案並讀取文字內容

f =open

('d:\\py_dataset\\十九大報告.txt'

,'r'

,encoding =

'utf-8'

)txt = f.read(

)#切分詞語,使用jieba分詞器

import jieba

words = jieba.lcut(txt)

#檢視總的詞語數量

print

(len

(words)

)#17961

#檢視單獨詞語的數量

print

(len

(set

(words)))

#3349

#詞頻統計,統計長度大於1的詞,因為長度為一的詞基本上都是停用詞

counts =

for word in words:

iflen

(word)

>1:

counts[word]

= counts.get(word,0)

+1#使用了字典的get方法

#將counts轉化為列**式

counts =

list

(counts.items())

#對詞頻進行排序

counts.sort(key =

lambda x:x[1]

,reverse =

true

)#列印頻率最高的前10個詞

for i in

range(10

):print

(counts[i][0

],counts[i][1

])# 發展 212

# 中國 169

# 人民 157

# 建設 148

# 社會主義 147

# 堅持 131

# 全面 90

# 國家 90

# 實現 83

# 制度 83

由上面的統計結果可以看出,「發展」、「人民」、「社會主義」、「制度」等詞語出現的頻率最高,基本上我們就了解了十九大報告主要是在論述社會主義制度建設。

PTA 詞頻統計

請編寫程式,對一段英文文字,統計其中所有不同單詞的個數,以及詞頻最大的前10 的單詞。所謂 單詞 是指由不超過80個單詞字元組成的連續字串,但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的 單詞字元 為大小寫字母 數字和下劃線,其它字元均認為是單詞分隔符。輸入給出一段非空文字,最後以符號 ...

詞頻統計(上機)

include include include define error 1 define ok 0 const int word length 250 定義單個單詞最大長度 typedef int status 定義儲存單詞及其出現次數的結構體 typedef struct nodewordnod...

hamlet詞頻統計

part2 code 10.1calhamlet.py def gettext txt open hamlet.txt r read 將文字中的英文本母全部轉為小寫字母 txt txt.lower return txt hamlettxt gettext words hamlettxt.split ...