統計單詞出現頻率

這裡有乙個大文字，檔案請從獲取，在解壓後大約有20m（實際比賽時檔案是1.1g）。文字中都是英文單詞，空格以及英文的標點符號: [.,;-~"?'!] （句號，逗號，分號，破折號，波浪號，雙引號，問號，單引號，感嘆號）

請統計出該文字中最常出現的前10個單詞(不區分大小寫)。請注意，在統計中這20個單詞請忽略（the, and, i, to, of, a, in, was, that, had, he, you, his, my, it, as, with, her, for, on)

#
import re, collections
import heapq
ignore_words = ['the','and','to','in','a','that','he','was','it','his','of', 'is', 'with', 'as', 'i', 'had', 'for', 'at', 'by', 'on','not', 'be', 'from', 'but', 's', 'you', 'or', 'her', 'him', 'which']
def words(text): 
return re.findall('[a-z]+', text.lower())
def train(features):
model = collections.defaultdict(lambda: 1)
for f in features:
model[f] += 1
return model
import time
starttime = time.time()
f = file('/duitang/data/nltk_data/big.txt').read()
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 'read',exe_time
starttime = time.time()
f = words(f)
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 're',exe_time
starttime = time.time()
f = train(f)
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 'dict',exe_time
starttime = time.time()
max_list=heapq.nlargest(40,f,key=f.get)
nmax_list = 
for m in max_list:
if m in ignore_words: continue
print nmax_list
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 'sort',exe_time

統計單詞出現頻率

統計單詞出現的頻率

計算單詞出現頻率

統計元素出現頻率

統計單詞出現頻率

統計單詞出現的頻率

計算單詞出現頻率

統計元素出現頻率

相關推薦