海量資料處理

海量資料處理，思路有hash、bitmap、merge、堆、top k（bfprt演算法）、trie樹、布隆過濾器。

hash：對很多資料進行hash，然後取餘乙個正整數n，可以分成n份不同的資料組，每份資料組中資料通過hash演算法得到相同的下標，所以相同的資料一定會分在同一資料組中。

bitmap：為操作，如果為每個資料分配n個bit，那麼每個資料可最多有2^n種情況，在很多資料的情況下，bitmap總長可設為很大並間隔n位分給一格資料。

merge：乙個很大資料量資料排序，分成不同資料組，每組內進行排序，不同組之間進行merge排序。

堆排序：資料量大，而只需要知道最大或最小的幾個，可以用堆排序。

top k：速度很快（類似快排選乙個基準，不過這個基準選取方式為：n個資料5個一組，每個排序得到組內中位數，各組之間中位數排序得到組間中位數，該中位數為基準，大於該值一邊，小於的另一邊，則最終左邊和右邊都至少有3/10的資料量，遞迴下去最後得到想要的位置）。

trie數（字典樹）：用於去重字串。字典樹每個樹枝（兩個節點之間連線）乙個字元，從根節點到葉子節點構成了不同的路徑，每個路徑唯一地表示了乙個字串。

布隆過濾器：使用了bitmap和hash，乙個資料雜湊出n個特徵點，乙個很長的bitmap儲存這些特徵點，用此bitmap上的特徵點去驗證其它資料是否相同。布隆過濾器存在誤差，因為hash可能會衝突，而且布隆過濾器有時會在乙個bitmap上加上多個資料的特徵點，會增加失誤的可能性。