關於單詞統計的問題

2022-08-21 09:45:13 字數 1123 閱讀 1932

要求:

字母頻率 = 這個字母出現的次數 / (所有a-z,a-z字母出現的總數) 如果兩個字母出現的頻率一樣,那麼就按照字典序排列。

如果 s 和 t 出現頻率都是 10.21%, 那麼, s 要排在t 的前面。

第1步:輸出單個檔案中的前 n 個最常出現的英語單詞。

單詞:以英文本母開頭,由英文本母和字母數字符號組成的字串視為乙個單詞。單詞以分隔符分割且不區分大小寫。在輸出時,所有單詞都用小寫字元表示。 英文本母:a-z,a-z 字母數字符號:

a-z,a-z,0-9  

分割符:空格,非字母數字符號 例:good123是乙個單詞,123good不是乙個單詞。good,good和good是同乙個單詞。  

功能1:輸出檔案中所有不重複的單詞,按照出現次數由多到少排列,出現次數同樣多的,以字典序排列。

功能2: 指定檔案目錄,對目錄下每乙個檔案執行統計的操作。 

功能3:指定檔案目錄,是會遞迴遍歷目錄下的所有子目錄的檔案進行統計單詞的功能。

功能4:輸出出現次數最多的前 n 個單詞。

第2步:第二步: 支援 stop words

在一本**裡, 頻率出現最高的單詞一般都是 "a", "it", "the", "and", "this", 這些詞, 可以做乙個 stop word 檔案 (停詞表), 在統計詞彙的時候,跳過這些詞。 我們把這個檔案叫 "stopwords.txt"   file.

第3步: 想看看常用的短語是什麼

先定義短語:"兩個或多個英語單詞, 它們之間只有空格分隔". 請看下面的例子:   hello world //這是乙個短語   hello, world //這不是乙個短語

第4步:把動詞形態都統一之後再計數。

想找到常用的單詞和短語,但是發現英語動詞經常有時態和語態的變化,導致同乙個詞,同乙個短語卻被認為是不同的。 怎麼解決這個問題呢? 假設我們有這樣乙個文字檔案,這個檔案的每一行都

是這樣構成: 動詞原型 動詞變形1 動詞變形2... ,詞之間用空格分開。 e.g. 動詞 take 有下面的各種變形:take takes took taken taking 我們希望在實現上面的各種功能的時候,有乙個選項, 就

是把動詞的各種變形都歸為它的原型來統計。 功能 支援動詞形態的歸一化。

1046 單詞統計問題

單詞統計問題 time limit 1000ms memory limit 65536k total submit 118 accepted 73 description 巨硬公司 huge hard 最近計畫出品乙個字處理軟體。軟體基本功能已經完成,但還缺少乙個單詞統計的功能,你的任務就是為該公司...

1221 單詞統計問題

1221 單詞統計問題 description 巨硬公司 huge hard 最近計畫出品乙個字處理軟體。軟體基本功能已經完成,但還缺少乙個單詞統計的功能,你的任務就是為該公司寫一段程式,完成統計功能。需要統計的資訊有兩項 出現單詞的個數和單個單詞出現的次數。input 輸入為一行字串,即要統計的文...

mysql 統計單詞 Spark單詞統計示例

在spark字數統計示例中,將找出指定檔案中存在的每個單詞的出現頻率。在這裡,我們使用scala語言來執行spark操作。執行spark字數計算示例的步驟 在此示例中,查詢並顯示每個單詞的出現次數。在本地計算機中建立乙個文字檔案並在其中寫入一些文字。檢查sparkdata.txt檔案中寫入的文字。c...