linux 統計檔案中單詞出現次數

2021-06-22 06:34:50 字數 831 閱讀 6568

[請教]統計檔案a.txt中「每個單詞」的重複出現次數?若該檔案大到幾個g又該如何處理?

方案一:

#!/bin/sh  

#定義原始檔和臨時檔案  

srcfile=word.txt  

tempfile_words=tempfile_words  

tempfile_words_uniq=tempfile_words_uniq  

#取出所有單詞,存入臨時檔案$tempfile_words,一行乙個單詞  

#去除$tempfile_words中重複單詞,並把換行符替換為空格,存入臨時檔案$tempfile_words_uniq  

tr "[\015]" "[\n]"<$srcfile|sed 's/[^0-9a-za-z ]*\([0-9a-za-z]*\)[^0-9a-za-z]*/\1\n/g'|sed '/^$/d'>$tempfile_words  

sort $tempfile_words|uniq|tr "[\n]" "[ ]">$tempfile_words_uniq  

#遍歷所有單詞,統計數目  

words=$(cat $tempfile_words_uniq)  

for word in $words  

do  

word_num=$(grep $word $tempfile_words|wc -l)  

echo $word $word_num  

done  

方案二:

tr -s "\t| " "\n" < filename | sort | uniq -c | sort -n -k 1 -r

統計單詞出現頻率

這裡有乙個大文字,檔案請從 獲取,在解壓後大約有20m 實際比賽時檔案是1.1g 文字中都是英文單詞,空格以及英文的標點符號 句號,逗號,分號,破折號,波浪號,雙引號,問號,單引號,感嘆號 請統計出該文字中最常出現的前10個單詞 不區分大小寫 請注意,在統計中這20個單詞請忽略 the,and,i,...

統計檔案中單詞個數

狀態機基本適合所有的遊戲專案,做做雜兵啦,做做boss啦,做做選單啦啥的。當它有超過兩個狀態,就可以去考慮做個狀態機了 要不還是if方便 這樣在工程迭代的時候很容易加入新的更新。include include include define init word 0 初始化單詞,預編譯時被替換 defi...

統計單詞中出現的單詞數

描述 笨小熊的詞彙量很小,所以每次做英語選擇題的時候都很頭疼。但是他找到了一種方法,經試驗證明,用這種方法去選擇選項的時候選對的機率非常大!這種方法的具體描述如下 假設maxn是單詞中出現次數最多的字母的出現次數,minn是單詞中出現次數最少的字母的出現次數,如果maxn minn是乙個質數,那麼笨...