linux 統計檔案中單詞出現次數

[請教]統計檔案a.txt中「每個單詞」的重複出現次數？若該檔案大到幾個g又該如何處理？

方案一：

#!/bin/sh

#定義原始檔和臨時檔案

srcfile=word.txt

tempfile_words=tempfile_words

tempfile_words_uniq=tempfile_words_uniq

#取出所有單詞，存入臨時檔案$tempfile_words，一行乙個單詞

#去除$tempfile_words中重複單詞，並把換行符替換為空格，存入臨時檔案$tempfile_words_uniq

tr "[\015]" "[\n]"<$srcfile|sed 's/[^0-9a-za-z ]*$[0-9a-za-z]*$[^0-9a-za-z]*/\1\n/g'|sed '/^$/d'>$tempfile_words

sort $tempfile_words|uniq|tr "[\n]" "[ ]">$tempfile_words_uniq

#遍歷所有單詞，統計數目

words=$(cat $tempfile_words_uniq)

for word in $words

word_num=$(grep $word $tempfile_words|wc -l)

echo $word $word_num

done

方案二：

tr -s "\t| " "\n" < filename | sort | uniq -c | sort -n -k 1 -r

統計單詞出現頻率

這裡有乙個大文字，檔案請從獲取，在解壓後大約有20m 實際比賽時檔案是1.1g 文字中都是英文單詞，空格以及英文的標點符號句號，逗號，分號，破折號，波浪號，雙引號，問號，單引號，感嘆號請統計出該文字中最常出現的前10個單詞不區分大小寫請注意，在統計中這20個單詞請忽略 the,and,i,...

統計檔案中單詞個數

狀態機基本適合所有的遊戲專案，做做雜兵啦，做做boss啦，做做選單啦啥的。當它有超過兩個狀態，就可以去考慮做個狀態機了要不還是if方便這樣在工程迭代的時候很容易加入新的更新。include include include define init word 0 初始化單詞,預編譯時被替換 defi...

統計單詞中出現的單詞數

描述笨小熊的詞彙量很小，所以每次做英語選擇題的時候都很頭疼。但是他找到了一種方法，經試驗證明，用這種方法去選擇選項的時候選對的機率非常大！這種方法的具體描述如下假設maxn是單詞中出現次數最多的字母的出現次數，minn是單詞中出現次數最少的字母的出現次數，如果maxn minn是乙個質數，那麼笨...

linux 統計檔案中單詞出現次數

統計單詞出現頻率

統計檔案中單詞個數

統計單詞中出現的單詞數

相關推薦