python 計算文字中每個單詞的出現頻率

2021-10-06 03:11:57 字數 890 閱讀 5497

計算文字中每個單詞的使用頻率,並從高到低進行排序

from string import punctuation

#開啟資料匯入

text =

open

('text.txt'

)def

count

(text)

: dic =

dict()

#建立新字典

for line in text:

word = line.split(

)#將字串分割為list,預設分隔符為空格

for item in word:

item = item.strip(punctuation)

#資料處理,將標點去除

word_low = item.lower(

)#統一轉為小寫字母進行比較

if word_low in dic:

dic[word_low]+=1

else

: dic[word_low]=1

return

sorted

(dic.items(

),key =

lambda items:items[1]

,reverse =

true

#按照字典的值的大小進行排序,從大到小

輸出例子:

[(『the』, 186),

(『of』, 120),

(『project』, 87),

(『to』, 82),

(『ja』, 82),

(『or』, 78),

(『you』, 73),

(『and』, 70)]

統計文字中每個單詞的序列 和 出現次數

統計文字中每個單詞的序列 使用stl 統計文字中出現的單詞的序列 include include include include using namespace std int main 輸出 for it distinctwordset.begin it distinctwordset.end i...

用hash表統計文字檔案中每個單詞出現的頻率

閒來無事,敲兩行 解解愁。今天介紹一種用自已建立的hash表 hash鍊錶 來統計乙個輸入文字檔案中每個單詞出現的頻率,hash表的構造詳見 程式設計珠璣 第15章。一 主體思路 1 建立乙個hash表 a hash函式 除留取餘法,h key key size 2 讀取文字檔案word.txt,每...

文字中的單詞切割

include include char word 100 int isdelim char c int getword char in,char w,int p else else word wordpos 0 printf s word return i len 1 i int main whi...