Top K問題詳解

最容易想到的方法是將資料全部排序，然後在排序後的集合中進行查詢，最快的排序演算法的時間複雜度一般為o（nlogn），如快速排序。但是在32位的機器上，每個float型別佔4個位元組，1億個浮點數就要占用400mb的儲存空間，對於一些可用記憶體小於400m的計算機而言，很顯然是不能一次將全部資料讀入記憶體進行排序的。其實即使記憶體能夠滿足要求該方法也並不高效，因為題目的目的是尋找出最大的10000個數即可，而排序卻是將所有的元素都排序了，做了很多的無用功。

區域性淘汰法與排序方法類似，用乙個容器儲存前10000個數，然後將剩餘的所有數字——與容器內的最小數字相比，如果所有後續的元素都比容器內的10000個數還小，那麼容器內這個10000個數就是最大10000個數。如果某一後續元素比容器內最小數字大，則刪掉容器內最小元素，並將該元素插入容器，最後遍歷完這1億個數，得到的結果容器中儲存的數即為最終結果了。此時的時間複雜度為o（n*m^2），其中m為容器的大小，即10000。

分治法將1億個資料分成100份，每份100萬個資料，找到每份資料中最大的10000個，最後在剩下的100*10000個資料裡面找出最大的10000個。如果100萬資料選擇足夠理想，那麼可以過濾掉1億資料裡面99%的資料。100萬個資料裡面查詢最大的10000個資料的方法如下：用快速排序的方法，將資料分為2堆，如果大的那堆個數n大於10000個，繼續對大堆快速排序一次分成2堆，如果大的那堆個數n大於10000個，繼續對大堆快速排序一次分成2堆，如果大堆個數n小於10000個，就在小的那堆裡面快速排序一次，找第10000-n大的數字；遞迴以上過程，就可以找到第1w大的數。參考上面的找出第1w大數字，就可以類似的方法找到前10000大數字了。此種方法需要每次的記憶體空間為10^6*4=4mb，一共需要101次這樣的比較。

如果這1億個書裡面有很多重複的數，先通過hash法把這1億個數字去重複，這樣如果重複率很高的話，會減少很大的記憶體用量，從而縮小運算空間，然後通過分治法或最小堆法查詢最大的10000個數。

首先讀入前10000個數來建立大小為10000的最小堆，建堆的時間複雜度為o（mlogm）（m為陣列的大小即為10000），然後遍歷後續的數字，並於堆頂（最小）數字進行比較。如果比最小的數小，則繼續讀取後續數字；如果比堆頂數字大，則替換堆頂元素並重新調整堆為最小堆。整個過程直至1億個數全部遍歷完為止。然後按照中序遍歷的方式輸出當前堆中的所有10000個數字。該演算法的時間複雜度為o（nmlogm），空間複雜度是10000（常數）。堆排序利用的大頂堆所有子節點元素都比父節點小的性質來實現的。既乙個大頂堆的頂是最大的元素，那我們要找最小的k個元素，是不是可以先建立乙個包含k個元素的堆，然後遍歷集合，如果集合的元素比堆頂元素小（說明它目前應該在k個最小之列），那就用該元素來替換堆頂元素，同時維護該堆的性質不變，那在遍歷結束的時候，堆中包含的k個元素就是我們要找的最小的k個元素。堆排序利用的小頂堆所有子節點元素都比父節點大的性質來實現的。既乙個小頂堆的頂是最小的元素，那我們要找最大的k個元素，是不是可以先建立乙個包含k個元素的堆，然後遍歷集合，如果集合的元素比堆頂元素大（說明它目前應該在k個最大之列），那就用該元素來替換堆頂元素，同時維護該堆的性質不變，那在遍歷結束的時候，堆中包含的k個元素就是我們要找的最大的k個元素。最小的k個用最大堆，最大的k個用最小堆。堆排序的動態示例：

實際上，最優的解決方案應該是最符合實際設計需求的方案，在時間應用中，可能有足夠大的記憶體，那麼直接將資料扔到記憶體中一次性處理即可，也可能機器有多個核，這樣可以採用多執行緒處理整個資料集。下面針對不容的應用場景，分析了適合相應應用場景的解決方案。

單機+單核+足夠大記憶體——如果需要查詢10億個查詢次（每個佔8b）中出現頻率最高的10個，考慮到每個查詢詞佔8b，則10億個查詢次所需的記憶體大約是10^9 * 8b=8gb記憶體。如果有這麼大記憶體，直接在記憶體中對查詢次進行排序，順序遍歷找出10個出現頻率最大的即可，這種方法簡單、快速。當然也可以先用hashmap求出每個詞出現的頻率，然後求出頻率最大的10個詞。

單機+多核+足夠大記憶體——這時可以直接在記憶體總使用hash方法將資料劃分成n個partition，每個partition交給乙個執行緒處理，執行緒的處理邏輯同上面1類似，最後乙個執行緒將結果歸併。該方法存在乙個瓶頸會明顯影響效率，即資料傾斜。每個執行緒的處理速度可能不同，快的執行緒需要等待慢的執行緒，最終的處理速度取決於慢的執行緒。而針對此問題，解決的方法是，將資料劃分成c×n個partition（c>1），每個執行緒處理完當前partition後主動取下乙個partition繼續處理，知道所有資料處理完畢，最後由乙個執行緒進行歸併。

單機+單核+受限記憶體——這種情況下，需要將原資料檔案切割成乙個乙個小檔案，如次啊用hash(x)%m，將原檔案中的資料切割成m小檔案，如果小檔案仍大於記憶體大小，繼續採用hash的方法對資料檔案進行分割，知道每個小檔案小於記憶體大小，這樣每個檔案可放到記憶體中處理。採用1的方法依次處理每個小檔案。

多機+受限記憶體——這種情況為了合理利用多台機器的資源，可將資料分發到多台機器上，每台機器採用3中的策略解決本地的資料。可採用hash+socket方法進行資料分發。

總結：從實際應用的角度考慮1、2、3、4方案並不可行，因為在大規模資料處理環境下，作業效率並不是首要考慮的問題，演算法的擴充套件性和容錯性才是首要考慮的。演算法應該具有良好的擴充套件性，以便資料量進一步加大（隨著業務的發展，資料量加大是必然的）時，在不修改演算法框架的前提下，可達到近似的線性比；演算法應該具有容錯性，即當前某個檔案處理失敗後，能自動將其交給另外乙個執行緒繼續處理，而不是從頭開始處理。top k問題很適合採用mapreduce框架解決，使用者只需編寫乙個map函式和兩個reduce 函式，然後提交到hadoop（採用mapchain和reducechain）上即可解決該問題。具體而言，就是首先根據資料值或者把資料hash(md5)後的值按照範圍劃分到不同的機器上，最好可以讓資料劃分後一次讀入記憶體，這樣不同的機器負責處理不同的數值範圍，實際上就是map。得到結果後，各個機器只需拿出各自出現次數最多的前n個資料，然後彙總，選出所有的資料中出現次數最多的前n個資料，這實際上就是reduce過程。對於map函式，採用hash演算法，將hash值相同的資料交給同乙個reduce task；對於第乙個reduce函式，採用hashmap統計出每個詞出現的頻率，對於第二個reduce 函式，統計所有reduce task，輸出資料中的top k即可。直接將資料均分到不同的機器上進行處理是無法得到正確的結果的。因為乙個資料可能被均分到不同的機器上，而另乙個則可能完全聚集到乙個機器上，同時還可能存在具有相同數目的資料。

Top K問題詳解

TopK問題詳解

TopK問題詳解

Top K 演算法詳解

Top K問題詳解

TopK問題詳解

TopK問題詳解

Top K 演算法詳解

相關推薦