python xx 文章詞頻統計

2021-09-11 08:20:53 字數 891 閱讀 9373

import jieba

txt =

open

(r'g:\txt\全面深化金融供給側結構性改革.txt'

,'r'

,encoding=

'utf-8'

).read(

)words =jieba.lcut(txt)

# 精準切詞

count=

for word in words:

iflen

(word)==1

:continue

else

: count[word]

=count.get(word,0)

+1result =

sorted

(count.items(

),key=

lambda x:x[1]

,reverse=

true

)for i in

range(20

):word,count=result[i]

print

(word,

':',count)

金融 : 19

服務 : 9

積極 : 9

金融風險 : 8

經濟 : 7

發展 : 7

制度 : 7

金融業 : 6

發力 : 6

優化 : 6

機構 : 6

投資者 : 6

風險 : 5

金融服務 : 5

實體 : 5

國內 : 4

融資 : 4

三是 : 4

結構 : 4

提公升 : 4

統計文章詞頻(python實現)

統計出文章重複詞語是進行文字分析的重要一步,從詞頻能夠概要的分析文章內容。2.建立用於詞頻計算的空字典 3.對文字的每一行計算詞頻 4.從字典中獲取資料對到列表中 5.對列表中的資料交換位置,並排序 6.輸出結果 2.網上下來的英文文章可能有一些不是utf 8編碼,並且文章中有一些字元包含一些格式符...

統計文章內詞頻率

import collections target str the tragedy of romeo and juliet with open 羅密歐與朱麗葉 英文版 莎士比亞.txt encoding utf 8 as file txts file.read 用 split 將單詞利用空格切分開 ...

英文文章的詞頻統計

今天去面試,被問到如何實現詞頻統計,因為之前都是直接呼叫value counts 函式統計,在被要求不用該函式實現統計,一緊張就卡殼了,回到家大概自己想了一下,怎麼一步步復現。實現的方法有多種,我才用的辦法是先把檔案處理成string型別,然後string處理函式 讀入檔案並處理成文字 defrea...