python字頻統計

2022-07-22 07:54:15 字數 824 閱讀 4615

中文資訊處理課,老師讓寫個字頻統計的程式,我能夠寫出來,但是執行速度很慢。

希望路過的大神給我提點意見。

import os

import os.path

import codecs

import pandas

import numpy

import jieba

#建立詞庫

corpos = pandas.dataframe(columns=['filepath','content'])

for root ,dirs,files in os.walk(r'e:\大三下\王東波\19113114 - 副本'):

for name in files:

filepath=root+'\\'+name

f = codecs.open(filepath,'r','utf-8')

content=f.read()

f.close()

corpos.loc[len(corpos)+1]=[filepath,content.strip()]

segments = pandas.dataframe(columns=['segment'])

for content in corpos['content']:

for i in range(len(content)):

segments.loc[len(segments)+1]=[content[i]]

segstat = segments.groupby(

by="segment"

)["segment"].agg();

python統計字頻

author 魏振東 data 2019.09.19 func 求一段文字中的字頻 import re 正規表示式庫 from collections import counter 讀取檔案 fn open doc text.txt rt 開啟檔案 string data fn.read 讀出整個檔...

漢字字頻統計程式(Python版)

用python寫了乙個漢字詞頻統計程式,針對已經分好詞的文字。python 3.4.3 功能 統計文字中的詞頻。缺陷 標點符號的頻數也會計算在內。with open test.txt mode r encoding utf 8 as infile dict 建立乙個空字典 word 空字串以便於連線...

Perl 中文 字頻統計 Perl 例子

usr bin perl 如果在文字中使用大字符集,那麼將文字儲存成utf 8格式。並將下面的注釋標誌去掉,同時給後面的簡體中文編碼語句加注釋標記 use utf8 使用簡體中文編碼,否則拆分單個漢字會出錯。use encoding euc cn 如果不提供待統計文字,退出程式 die if arg...