如何用python統計英語文章詞頻?

2021-10-02 12:25:58 字數 1328 閱讀 4332

**環境:**python3.0

需要統計的詞頻的txt檔案(無中文)

tips:word文件中一鍵替換中文([一-龥])

file

=open

('f://檔案'

,'r'

,encoding=

"gbk"

).read(

)#open生成乙個file物件

file

=file

.lower(

)#排除大小寫的影響

strip_str =

'.(),:"「」;->=\'+)?—0123456789?…{}¥/_!°、-﹣$&★*'

#符號不計入要統計的單詞中

for ch in strip_str:

#要嘗試多次

file

=file

.replace(ch,

' ')

counts =

words =

file

.split(

)for word in words:

#統計頻次

if word in counts:

counts[word]

=counts[word]+1

elif word not

in counts:

#處理第一次出現的單詞

counts[word]=1

items =

list

(counts.items())

items1 =

sorted

(items,key =

lambda x: x[1]

,reverse=

true

)#按照頻次排序

word_frequency =

open

('word_frequency.txt'

,'w'

,encoding=

'utf-8'

)for i in items1:

word_frequency.write(

':\t\n'

.format

(i[0

],i[1]

))word_frequency.close(

)

在資料夾生成word_frequency檔案

**原始檔鏈結

關注我,更多小技巧一起共享

如果能給到你一絲幫助,我將倍感欣慰。如有其他意見,可以私下聯絡我。

讓我提高最快的方法是抄寫英語文章

讓我提高最快的方法是抄寫英語文章。呵呵,別不以為然。當年在高中時,認真執行此方法乙個多月後,我的英語立刻上了乙個臺 階,提高了二十分左右,並且從此沒有下滑哦。在大學裡四六級一次通過多半也靠了那時的 基本功。下面來說說具體方法 1.英語文章自己找,課文也行,但別找太過晦澀的,那會影響效率的,最好是稍微...

如何用Python做列表中的元素統計

如何用python做列表中的元素統計 使用 python counter 類。python 計數器跟蹤容器中每個元素的頻數,counter 返回乙個字典,元素作為鍵,頻數作為值。另外使用 most common 函式來獲取列表中的出現次數最多的元素。如下 示例 from collections im...

統計文章詞頻(python實現)

統計出文章重複詞語是進行文字分析的重要一步,從詞頻能夠概要的分析文章內容。2.建立用於詞頻計算的空字典 3.對文字的每一行計算詞頻 4.從字典中獲取資料對到列表中 5.對列表中的資料交換位置,並排序 6.輸出結果 2.網上下來的英文文章可能有一些不是utf 8編碼,並且文章中有一些字元包含一些格式符...