20180918 1 詞頻統計

2022-09-01 01:12:08 字數 2055 閱讀 2566

此作業要求參見:【

一.詞頻統計程式開發想法:

1.建立用於存放單詞和數目的函式。

2.從檔案中進行讀取。

3.對讀出的單詞進行處理。

5.對字母的個數進行記錄。

二.程式主要部分:

1.檔案的讀取

2.對字母的數目計量,運用了逐行讀取,類的測試,用

if語句處理列表,迴圈語句

3.結果的輸出

**如下:

import

reclass

wf():

def__init__

(self):

self.file_name = input('

please input the name of book:')

self.get_words()

self.console_print()

self.

__init__

()

defget_words(self):

file_tail = ''if'

.txt

'in self.file_name else

'.txt

'with open (self.file_name + file_tail, '

r', encoding = '

utf-8

') as f:

for line in

f:

for i in re.sub(r'

[^\w\s]

','', line).replace('

\n','').split(''):

if i not

in else

: def

console_print(self):

for k, w in

print

(k, w)

print('

\ntotal: %swords

wf()

功能一:

功能二:

我只能完成功能1和功能2

難點:對於單詞的記數,重複的單詞數記錄時,不在總數的記錄上並不增加。

盲點:由於沒有多少寫**的經驗,導致對函式的運用很是生疏,在進行多次的閱讀和例子的學習之後後才知道如何正確的使用。

突破:類的測試一直只是停留在書本上,但是自己這次進行了一點使用。

總結:我上面所寫的**只能實現功能一和功能二,會努力完成剩餘的其他功能。

三.psp**:

任務task

預計花費時間(min)

實際花費時間(min)

相差時間(min)

功能120

3313

功能290

195105

測試功能152

3測試功能2810

2原因:

沒有太多程式設計的經驗,程式設計時間會延長在意料之內。

pathon的知識運用不熟,函式和類的運用不能很好的與題目結合起來。 

讀懂題目要求花了較多時間。

PTA 詞頻統計

請編寫程式,對一段英文文字,統計其中所有不同單詞的個數,以及詞頻最大的前10 的單詞。所謂 單詞 是指由不超過80個單詞字元組成的連續字串,但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的 單詞字元 為大小寫字母 數字和下劃線,其它字元均認為是單詞分隔符。輸入給出一段非空文字,最後以符號 ...

詞頻統計(上機)

include include include define error 1 define ok 0 const int word length 250 定義單個單詞最大長度 typedef int status 定義儲存單詞及其出現次數的結構體 typedef struct nodewordnod...

hamlet詞頻統計

part2 code 10.1calhamlet.py def gettext txt open hamlet.txt r read 將文字中的英文本母全部轉為小寫字母 txt txt.lower return txt hamlettxt gettext words hamlettxt.split ...