shell awk 統計檔案詞頻

2022-06-20 19:18:10 字數 707 閱讀 9250

現有檔案file,如何統計輸出file中每個單詞的詞頻,並按照詞頻排序?

awk -f '[:/]' '} end ' file | sort -t ' ' -nr -k2
各引數含義:

awk -f '[ '']+'  '

} end ' # 列印鍵,值

words.txt | sort -t ' ' -nr -k2 # 管道命令進行sort排序;-t自定義分隔符,-n按照數字型別排序,-r反序,-k2:用字段2排序

現有檔案:a.txt,如何只輸出[host]下的所有屬性?

[name]

aaabbb

ccc[path]

lasf

lasdf

lsioe

[host]

192.1681.11

29u342.2348

293[title]

lasod

lasjdoife

lksjfoe

$ awk 'begin  else if(ex==1 && !/\[.*\]/) print $0; else ex=0;}' a.txt

[host]

192.1681.11

29u342.2348

293

shell awk 統計重複個數

有檔案file.log內容如下 要統每個網域名稱出現次數 4 2 1 答案是 awk f end file.log 解釋一下,awk語法就不說了 f引數是制定awk分隔符,這裡制定的是 所以每行被分成4個部分。sort 的 r是降序,k是按照第幾組字元排序,從1開始。a可以理解成key value形...

PTA 詞頻統計

請編寫程式,對一段英文文字,統計其中所有不同單詞的個數,以及詞頻最大的前10 的單詞。所謂 單詞 是指由不超過80個單詞字元組成的連續字串,但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的 單詞字元 為大小寫字母 數字和下劃線,其它字元均認為是單詞分隔符。輸入給出一段非空文字,最後以符號 ...

詞頻統計(上機)

include include include define error 1 define ok 0 const int word length 250 定義單個單詞最大長度 typedef int status 定義儲存單詞及其出現次數的結構體 typedef struct nodewordnod...