統計文章中單詞出現的次數(續)

2021-05-21 19:07:12 字數 570 閱讀 4250

符號問題的處理:

void filtrate_word(string& word)//處理字串中的標點符號}

順便把單詞中的大小寫也統一一下,很簡單:

void strip_cap( string& word)//將單詞中的大寫字母轉化成小寫字母}

兩處處理都用到string類的函式find_first_of(),有幾個過載,它是查詢與被搜尋字串中任意乙個字元相匹配的第一次出現,並返回它的索引位置。

語法問題的處理,書中是分成幾類來處理,處理分s、ed、ly、ing等字尾處理,如可以定義成suffix_s();suffix_ed(); suffix_ly; suffix_ing()等函式,而s的字尾有幾種情況來處理,如果單詞以ies 結尾如babies 和cries 則我們需要用y 代替ies。

void suffix_s(string& word)//字尾s的處理

void suffix_word(string& word )//字尾的處理比如ed ing ly 等

感覺這樣處理字尾,容易考慮不周全,會考慮不到一些特殊情況,作者也是這樣認為。如果要有比較好的效果估計要寫很多的字尾處理函式。

統計文章單詞出現次數

英文文章中的標點符號的處理,單詞大小寫的處理,再將單詞通過字典的統計出現次數,最後用sorted 排序 利用maketrans函式將標點符號對映為空格 table str.maketrans 開啟需要統計的檔案 f open r c python 1.txt file1 f.read f.close...

統計文章內各個單詞出現的次數

演算法的思路是 從頭到尾遍歷檔案,從檔案中讀取遍歷到的每乙個單詞。把遍歷到的單詞放到hash map中,並統計這個單詞出現的次數。遍歷hash map,將遍歷到的單詞的出現次數放到優先順序佇列中。當優先順序佇列的元素個數超過k個時就把元素級別最低的那個元素從佇列中取出,這樣始終保持佇列的元素是k個。...

python統計文章單詞次數

題目是這樣的 你有乙個目錄,放了你乙個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。其實就是統計一篇文章出現最多的單詞,但是要去除那些常見的連詞 介詞和謂語動詞等,coding utf 8 import collections import re i...