從海量文字中統計出前k個頻率最高的詞語

現有如下題目：有乙個海量文字，儲存的是漢語詞語，要求從中找出前k個出現頻率最高的詞語，寫出最優演算法，兼顧時間和空間複雜度。

思路分析：熟悉搜尋引擎的程式設計師，應該不是難題。用傳統的hashmap是無法解決的，因為資料量非常龐大的時候，空間複雜度會導致程式執行時，頻繁執行minorgc和majorgc，最終jvm會宕掉。之前寫的字母排列演算法的時候，當輸出100多萬條資料的時候，jvm就宕掉了，下面用自平衡的三叉樹來解決此問題。

第一步：對文字進行排序和折中處理，更新文字，要要用到pinyin4j專案包；

第二步：把更新後的字典，載入到三叉樹中，實現平衡的三叉樹，自定義的三叉樹要增加節點字元出現次數的變數，以便實現詞頻統計；

第三步：遍歷字典，每次讀到的詞語，用三叉樹查詢，得到頻率，然後把讀到的詞語和頻率寫到另乙個檔案中，用空格分開，類似於key-value鍵值對形式；

第五步：得到最小頻率值的堆後，從新的文字中找到對應的詞語，加入到set中，統一頻率的詞語會有很多，而不是乙個，輸出應該是如下形式：

[***,***,***……]

**省略，不上傳了！

posted @

2016-03-08 18:45

佟學強閱讀(

...)

編輯收藏

在海量資料中統計出現次數最多的n個

在海量資料中統計出現次數最多的n個分兩種情況，1 如果資料能夠在記憶體中放下，比如如果海量資料是ip位址，最多有4g個ip位址，每個ip位址佔4個位元組需要記憶體16g，如果內存在幾十g，則完全可以全部裝入記憶體，直接讀取大檔案，然後建立乙個hash表，統計次數，最後再用堆統計最大的n個 2 如...

堆 heap 從海量資料中尋找最大的k個值

1 目的獲取大量元素 topk 大個元素，固定記憶體 2 思路 1 先放入元素前 k 個建立乙個最小堆 2 迭代剩餘元素 a 如果當前元素小於堆頂元素，跳過該元素肯定不是前 k 大 b 否則替換堆頂元素為當前元素，並重新調整。3 示例 import heapq class topk 獲取大量元素...

小公尺OJ 13（出現頻率最高的前 K 個元素）

出現頻率最高的前 k 個元素序號 13 難度有挑戰時間限制 1000ms 記憶體限制 10m描述有乙個不為空且僅包含正整數的陣列，找出其現頻率最高的前 k 個數，時間複雜度必須在 o n log n 以內。輸入一行資料報括兩部分，乙個正整數陣列數字間分隔和乙個正整數 k 1 k 陣列...

從海量文字中統計出前k個頻率最高的詞語

在海量資料中統計出現次數最多的n個

堆 heap 從海量資料中尋找最大的k個值

小公尺OJ 13（出現頻率最高的前 K 個元素）

相關推薦