Python進行詞頻統計

2021-10-07 15:00:23 字數 832 閱讀 2568

基礎python統計詞頻,未考慮到刪除停用詞

# 詞頻統計

defgettext()

:#處理檔案

txt=

open

("english.txt"

,"r"

).read(

) txt = txt.lower(

)#將英文全部變為小寫

for ch in

'!"#$&*+,-./:;<=>?@[\\]^_{}|'

: txt = txt.replace(ch,

" ")

return txt

mytxt = gettext(

)words = mytxt.split(

)#將字元分割為列表

counts=

#新建乙個空字典

for word in words:

counts[word]

= counts.get(word,0)

+1items =

list

(counts.items())

#將字典中的鍵值對變為列表

items.sort(key=

lambda x:x[1]

,reverse=

true

)#按詞語個數從大往小排序

for i in

range(20

):#列印詞頻在前20位的單詞

word,count = items[i]

print(""

.format

(word,count)

)

Python進行詞頻統計

1.測試文字 test.txt 2.測試文字內容 this is just for test 這只是用來測試的 this is just for test 這只是用來測試的 3.及解釋如下 import jieba def doc2matrix doc x open doc,r y x.read 讀...

用Python進行詞頻統計

def gettext txt open hamlet.txt r read 讀取檔案 txt txt.lower 把文字全部變為小寫 for ch in 把特殊字元變為空格 txt txt.replace ch,return txt hamlettext gettext words hamlett...

Python分詞並進行詞頻統計

方法一 strs 1 大專以上學歷,年齡在18 28歲之間 2 計算機相關專業 自動化 測控 生儀 機電 數學 物理等等理工科專業優先 3 熱愛軟體開發事業 有較強的邏輯思維能力,對it行業抱有濃厚的興趣並有志於在it行業長遠發展,創造個人價值 非銷售 非保險崗位 4 有無相關經驗均可,歡迎優秀的應...