高效詞頻分析

2022-04-12 08:22:09 字數 449 閱讀 7264

由於密碼洩露越來越普遍,使得各類「密碼分析」工具越來越多。比如最近很火的pipal,由ruby編寫的一款程式,可以分析出密碼頻率top n。但實際使用中發現效率較低。

實際上通過簡單的bash命令就可以實現上述的功能:

cat password.txt |sort |uniq -c |sort -k1,1nr |head -10

提取password詞頻top10的密碼

time cat pass.txt | sort | uniq -c | sort -k1,1nr | head -10 >result.txt

儲存提取結果並記錄所消耗時間

由於sort是c語言編寫,效率遠高於pipal。在資料量較大的詞頻統計時,差距尤其明顯。

實際測試 在虛擬機器中兩億條資料獲取top 10000 大概50分鐘左右。

文字詞頻同意問題分析

1.1 問題分析 文字詞頻統計 該怎麼做呢?英文文字 中文文字 f open r e python實訓 python預科班 day06 hamlet.txt r encoding utf 8 讀取檔案 data f.read lower 通過 切割單詞 data split data.split 統...

C 詞頻統計 效能分析

在鄒老師的效能分析的建議下對上次寫過的詞頻統計的程式進行分析改進。效能分析 個人很淺顯的認為就是程式的執行效率,的執行效率 1.vs 提供了自帶的分析工具 performance tool 效能分析 先看一下vs工具的自己介紹 診斷應該程式的效能問題 識別應用程式中最常見的高開銷方法。perform...

分析「詞頻統計「專案程序

目錄 功能需求 實現 psp功能需求 1.小檔案輸入 2.支援命令列輸入英文作品的檔名 3.支援命令列輸入儲存有英文作品檔案的目錄名,批量統計 4從控制台讀入英文單篇作品 實現 本次 實現了功能3。類名功能 void main string 主函式,呼叫其他函式實現基本功能 void sortmap...