關於單詞統計的問題

要求：

字母頻率 = 這個字母出現的次數 / （所有a-z，a-z字母出現的總數）如果兩個字母出現的頻率一樣，那麼就按照字典序排列。

如果 s 和 t 出現頻率都是 10.21%，那麼， s 要排在t 的前面。

第1步：輸出單個檔案中的前 n 個最常出現的英語單詞。

單詞：以英文本母開頭，由英文本母和字母數字符號組成的字串視為乙個單詞。單詞以分隔符分割且不區分大小寫。在輸出時，所有單詞都用小寫字元表示。英文本母：a-z，a-z 字母數字符號：

a-z，a-z，0-9　　

分割符：空格,非字母數字符號例：good123是乙個單詞，123good不是乙個單詞。good，good和good是同乙個單詞。　　

功能1：輸出檔案中所有不重複的單詞，按照出現次數由多到少排列，出現次數同樣多的，以字典序排列。

功能2：指定檔案目錄，對目錄下每乙個檔案執行統計的操作。

功能3：指定檔案目錄，是會遞迴遍歷目錄下的所有子目錄的檔案進行統計單詞的功能。

功能4：輸出出現次數最多的前 n 個單詞。

第2步：第二步: 支援 stop words

在一本**裡，頻率出現最高的單詞一般都是 "a", "it", "the", "and", "this", 這些詞，可以做乙個 stop word 檔案（停詞表），在統計詞彙的時候，跳過這些詞。我們把這個檔案叫 "stopwords.txt" 　　file.

第3步: 想看看常用的短語是什麼

先定義短語："兩個或多個英語單詞，它們之間只有空格分隔". 請看下面的例子：　　hello world //這是乙個短語　　hello, world //這不是乙個短語

第4步：把動詞形態都統一之後再計數。

想找到常用的單詞和短語，但是發現英語動詞經常有時態和語態的變化，導致同乙個詞，同乙個短語卻被認為是不同的。怎麼解決這個問題呢？假設我們有這樣乙個文字檔案，這個檔案的每一行都

是這樣構成：動詞原型動詞變形1 動詞變形2... ，詞之間用空格分開。 e.g. 動詞 take 有下面的各種變形：take takes took taken taking 我們希望在實現上面的各種功能的時候，有乙個選項，就

是把動詞的各種變形都歸為它的原型來統計。功能支援動詞形態的歸一化。

1046 單詞統計問題

單詞統計問題 time limit 1000ms memory limit 65536k total submit 118 accepted 73 description 巨硬公司 huge hard 最近計畫出品乙個字處理軟體。軟體基本功能已經完成，但還缺少乙個單詞統計的功能，你的任務就是為該公司...

1221 單詞統計問題

1221 單詞統計問題 description 巨硬公司 huge hard 最近計畫出品乙個字處理軟體。軟體基本功能已經完成，但還缺少乙個單詞統計的功能，你的任務就是為該公司寫一段程式，完成統計功能。需要統計的資訊有兩項出現單詞的個數和單個單詞出現的次數。input 輸入為一行字串，即要統計的文...

mysql 統計單詞 Spark單詞統計示例

在spark字數統計示例中，將找出指定檔案中存在的每個單詞的出現頻率。在這裡，我們使用scala語言來執行spark操作。執行spark字數計算示例的步驟在此示例中，查詢並顯示每個單詞的出現次數。在本地計算機中建立乙個文字檔案並在其中寫入一些文字。檢查sparkdata.txt檔案中寫入的文字。c...

關於單詞統計的問題

1046 單詞統計問題

1221 單詞統計問題

mysql 統計單詞 Spark單詞統計示例

相關推薦