Top K演算法詳細解析百度面試外排演算法

1b（byte，位元組）= 8 bit

1kb（kilobyte，千位元組）=1024b= 2^10 b

1mb（megabyte，兆位元組，百萬位元組，簡稱「兆」）=1024kb= 2^20 b；

1gb（gigabyte，吉位元組，十億位元組，又稱「千兆」）=1024mb= 2^30 b；

附：外部排序演算法

插入排序、選擇排序、歸併排序等等，這些演算法都屬於內部排序演算法，即排序的整個過程只是在記憶體中完成。而當待排序的檔案比記憶體的可使用容量還大時，檔案無法一次性放到記憶體中進行排序，需要借助於外部儲存器（例如硬碟、u盤、光碟），這時就需要用到本章介紹的外部排序演算法來解決。

外部排序演算法由兩個階段構成：

按照記憶體大小，將大檔案分成若干長度為 l 的子檔案（l 應小於記憶體的可使用容量），然後將各個子檔案依次讀入記憶體，使用適當的內部排序演算法對其進行排序（排好序的子檔案統稱為「歸併段」或者「順段」），將排好序的歸併段重新寫入外存，為下乙個子檔案排序騰出記憶體空間；對得到的順段進行合併，直至得到整個有序的檔案為止。例如，有乙個含有 10000 個記錄的檔案，但是記憶體的可使用容量僅為 1000 個記錄，毫無疑問需要使用外部排序演算法，具體分為兩步：將整個檔案其等分為 10 個臨時檔案（每個檔案中含有 1000 個記錄），然後將這 10 個檔案依次進入記憶體，採取適當的記憶體排序演算法對其中的記錄進行排序，將得到的有序檔案（初始歸併段）移至外存。對得到的 10 個初始歸併段進行如圖 1 的兩兩歸併，直至得到乙個完整的有序檔案。

注意：此例中採用了將檔案進行等分的操作，還有不等分的演算法，後面章節會介紹。

如圖 1 所示有 10 個初始歸併段到乙個有序檔案，共進行了 4 次歸併，每次都由 m 個歸併段得到 ⌈m/2⌉ 個歸併段，這種歸併方式被稱為 2-路平衡歸併。

注意：在實際歸併的過程中，由於記憶體容量的限制不能滿足同時將 2 個歸併段全部完整的讀入記憶體進行歸併，只能不斷地取 2 個歸併段中的每一小部分進行歸併，通過不斷地讀資料和向外存寫資料，直至 2 個歸併段完成歸併變為 1 個大的有序檔案。

對於外部排序演算法來說，影響整體排序效率的因素主要取決於讀寫外存的次數，即訪問外存的次數越多，演算法花費的時間就越多，效率就越低。

計算機中處理資料的為**處理器（cpu），如若需要訪問外存中的資料，只能通過將資料從外存匯入記憶體，然後從記憶體中獲取。同時由於記憶體讀寫速度快，外存讀寫速度慢的差異，更加影響了外部排序的效率。

對於同乙個檔案來說，對其進行外部排序時訪問外存的次數同歸並的次數成正比，即歸併操作的次數越多，訪問外存的次數就越多。圖 1 中使用的是 2-路平衡歸併的方式，舉一反三，還可以使用 3-路歸併、4-路歸併甚至是 10-路歸併的方式，圖 2 為 5-路歸併的方式：

對比圖 1 和圖 2可以看出，對於 k-路平衡歸併中 k 值得選擇，增加 k 可以減少歸併的次數，從而減少外存讀寫的次數，最終達到提高演算法效率的目的。除此之外，一般情況下對於具有 m 個初始歸併段進行 k-路平衡歸併時，歸併的次數為：s=⌊logk⁡m ⌋（其中 s 表示歸併次數）。

從公式上可以判斷出，想要達到減少歸併次數從而提高演算法效率的目的，可以從兩個角度實現：

增加 k-路平衡歸併中的 k 值；

儘量減少初始歸併段的數量 m，即增加每個歸併段的容量；

其增加 k 值的想法引申出了一種外部排序演算法：多路平衡歸併演算法；增加數量 m 的想法引申出了另一種外部排序演算法：置換-選擇排序演算法。兩種外部排序演算法會在後序章節中詳細介紹。

問題解析：【分析】：要統計最熱門查詢，首先就是要統計每個query出現的次數，然後根據統計結果，找出top 10。所以我們可以基於這個思路分兩步來設計該演算法。下面分別給出這兩步的演算法：

第一步：query統計

演算法一：直接排序法

首先我們能想到的演算法就是排序了，首先對這個日誌裡面的所有query都進行排序，然後再遍歷排好序的query，統計每個query出現的次數了。但是題目中有明確要求，那就是記憶體不能超過1g，一千萬條記錄，每條記錄是225byte，很顯然要佔據2.55g記憶體，這個條件就不滿足要求了。

1000w條記錄，一般認為1000近似位1024=2^10處理，

故1000w=1000 * 1000 * 10 ~2^10 *2^10 *10=10 * 2^20

每條記錄是225byte,故1000w條資料是2250*2^20byte=2.25 * 2^30byte =2.25gb

讓我們回憶一下資料結構課程上的內容，當資料量比較大而且記憶體無法裝下的時候，我們可以採用外排序的方法來進行排序，這裡筆者採用歸併排序，是因為歸併排序有乙個比較好的時間複雜度o(nlgn)。

排完序之後我們再對已經有序的query檔案進行遍歷，統計每個query出現的次數，再次寫入檔案中。

綜合分析一下，排序的時間複雜度是o(nlgn)，而遍歷的時間複雜度是o(n)，因此該演算法的總體時間複雜度就是o(nlgn)。

演算法二：hash table法

在上個方法中，我們採用了排序的辦法來統計每個query出現的次數，時間複雜度是nlgn，那麼能不能有更好的方法來儲存，而時間複雜度更低呢？

題目中說明了，雖然有一千萬個query，但是由於重複度比較高，因此事實上只有300萬的query，每個query255byte，因此我們可以考慮把他們都放進記憶體中去，而現在只是需要乙個合適的資料結構，在這裡，hash table絕對是我們優先的選擇，因為hash table的查詢速度非常的快，幾乎是o(1)的時間複雜度。

那麼，我們的演算法就有了：維護乙個key為query字串，value為該query出現次數的hashtable，每次讀取乙個query，如果該字串不在table中，那麼加入該字串，並且將value值設為1；如果該字串在table中，那麼將該字串的計數加一即可。最終我們在o(n)的時間複雜度內完成了對該海量資料的處理。

本方法相比演算法一：在時間複雜度上提高了乙個數量級，但不僅僅是時間複雜度上的優化，該方法只需要io資料檔案一次，而演算法一的io次數較多的，因此該演算法比演算法一在工程上有更好的可操作性。

演算法一：排序

我想對於排序演算法大家都已經不陌生了，這裡不在贅述，我們要注意的是排序演算法的時間複雜度是nlgn，在本題目中，三百萬條記錄，用1g記憶體是可以存下的。

演算法二：部分排序

題目要求是求出top 10，因此我們沒有必要對所有的query都進行排序，我們只需要維護乙個10個大小的陣列，初始化放入10query，按照每個query的統計次數由大到小排序，然後遍歷這300萬條記錄，每讀一條記錄就和陣列最後乙個query對比，如果小於這個query，那麼繼續遍歷，否則，將陣列中最後一條資料淘汰，加入當前的query。最後當所有的資料都遍歷完畢之後，那麼這個陣列中的10個query便是我們要找的top10了。

不難分析出，這樣的演算法的時間複雜度是n*k，其中k是指top多少。

演算法三：堆

在演算法二中，我們已經將時間複雜度由nlogn優化到nk，不得不說這是乙個比較大的改進了，可是有沒有更好的辦法呢？

分析一下，在演算法二中，每次比較完成之後，需要的操作複雜度都是k，因為要把元素插入到乙個線性表之中，而且採用的是順序比較。

這裡我們注意一下，該陣列是有序的，一次我們每次查詢的時候可以採用二分的方法查詢，這樣操作的複雜度就降到了logk，可是，隨之而來的問題就是資料移動，因為移動資料次數增多了。不過，這個演算法還是比演算法二有了改進。

基於以上的分析，我們想想，有沒有一種既能快速查詢，又能快速移動元素的資料結構呢？回答是肯定的，那就是堆。借助堆結構，我們可以在log量級的時間內查詢和調整/移動。因此到這裡，我們的演算法可以改進為這樣，維護乙個k(該題目中是10)大小的小根堆，然後遍歷300萬的query，分別和根元素進行對比。。。

結語：

至此，我們的演算法就完全結束了，經過步驟一和步驟二的最優結合，我們最終的時間複雜度是o（n） + o（n』）logk。如果各位有什麼好的演算法，歡迎跟帖討論。

Top K演算法詳細解析 百度面試 外排演算法

Top K演算法詳細解析 百度面試

Top K演算法詳細解析 百度面試

TopK問題 百度面試

相關推薦

Top K演算法詳細解析百度面試外排演算法

Top K演算法詳細解析百度面試

Top K演算法詳細解析百度面試

TopK問題百度面試