Top K 演算法詳解

2021-08-26 09:54:36 字數 2571 閱讀 1257

假設目前有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。),請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1g。

問題解析:

要統計最熱門查詢,首先就是要統計每個query出現的次數,然後根據統計結果,找出top 10。所以我們可以基於這個思路分兩步來設計該演算法。

即,此問題的解決分為以下倆個步驟

第一步:query統計

query統計有以下倆個方法,可供選擇:

1、直接排序法

首先我們最先想到的的演算法就是排序了,首先對這個日誌裡面的所有query都進行排序,然後再遍歷排好序的query,統計每個query出現的次數了。

但是題目中有明確要求,那就是記憶體不能超過1g,一千萬條記錄,每條記錄是255byte,很顯然要佔據2.375g記憶體,這個條件就不滿足要求了。

讓我們回憶一下資料結構課程上的內容,當資料量比較大而且記憶體無法裝下的時候,我們可以採用外排序的方法來進行排序,這裡我們可以採用歸併排序,因為歸併排序有乙個比較好的時間複雜度o(nlgn)。

排完序之後我們再對已經有序的query檔案進行遍歷,統計每個query出現的次數,再次寫入檔案中。

綜合分析一下,排序的時間複雜度是o(nlgn),而遍歷的時間複雜度是o(n),因此該演算法的總體時間複雜度就是o(n+nlgn)=o(nlgn)。

2、hash table法

在第1個方法中,我們採用了排序的辦法來統計每個query出現的次數,時間複雜度是nlgn,那麼能不能有更好的方法來儲存,而時間複雜度更低呢?

題目中說明了,雖然有一千萬個query,但是由於重複度比較高,因此事實上只有300萬的query,每個query255byte,因此我們可以考慮把他們都放進記憶體中去,而現在只是需要乙個合適的資料結構,在這裡,hash table絕對是我們優先的選擇,因為hash table的查詢速度非常的快,幾乎是o(1)的時間複雜度。

那麼,我們的演算法就有了:維護乙個key為query字串,value為該query出現次數的hashtable,每次讀取乙個query,如果該字串不在table中,那麼加入該字串,並且將value值設為1;如果該字串在table中,那麼將該字串的計數加一即可。最終我們在o(n)的時間複雜度內完成了對該海量資料的處理。

本方法相比演算法1:在時間複雜度上提高了乙個數量級,為o(n),但不僅僅是時間複雜度上的優化,該方法只需要io資料檔案一次,而演算法1的io次數較多的,因此該演算法2比演算法1在工程上有更好的可操作性。

第二步:找出top 10

演算法一:普通排序

我想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是nlgn,在本題目中,三百萬條記錄,用1g記憶體是可以存下的。

演算法二:部分排序

題目要求是求出top 10,因此我們沒有必要對所有的query都進行排序,我們只需要維護乙個10個大小的陣列,初始化放入10個query,按照每個query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和陣列最後乙個query對比,如果小於這個query,那麼繼續遍歷,否則,將陣列中最後一條資料淘汰,加入當前的query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10個query便是我們要找的top10了。

不難分析出,這樣,演算法的最壞時間複雜度是n*k, 其中k是指top多少。

演算法三:

在演算法二中,我們已經將時間複雜度由nlogn優化到nk,不得不說這是乙個比較大的改進了,可是有沒有更好的辦法呢?

分析一下,在演算法二中,每次比較完成之後,需要的操作複雜度都是k,因為要把元素插入到乙個線性表之中,而且採用的是順序比較。這裡我們注意一下,該陣列是有序的,一次我們每次查詢的時候可以採用二分的方法查詢,這樣操作的複雜度就降到了logk,可是,隨之而來的問題就是資料移動,因為移動資料次數增多了。不過,這個演算法還是比演算法二有了改進。

基於以上的分析,我們想想,有沒有一種既能快速查詢,又能快速移動元素的資料結構呢?回答是肯定的,那就是堆。

借助堆結構,我們可以在log量級的時間內查詢和調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護乙個k(該題目中是10)大小的小根堆,然後遍歷300萬的query,分別和根元素進行對比。

思想與上述演算法二一致,只是演算法在演算法三,我們採用了最小堆這種資料結構代替陣列,把查詢目標元素的時間複雜度有o(k)降到了o(logk)。

那麼這樣,採用堆資料結構,演算法三,最終的時間複雜度就降到了n『logk,和演算法二相比,又有了比較大的改進。

備註:從這個例子裡可以看到,如果我們只要求前k個最大(小)值的時候,用堆是最好的選擇,因為這裡不用每次都排序了。

總結:至此,演算法就完全結束了,經過上述第一步、先用hash表統計每個query出現的次數,o(n);然後第二步、採用堆資料結構找出top 10,n*o(logk)。所以,我們最終的時間複雜度是:o(n) + n'*o(logk)。(n為1000萬,n』為300萬)。

**:

TopK問題詳解

1.基本topk問題描述 從1百萬個數中找出最大 或最小 的5個數 看到這個問題,很多同學的第一反應會是 排序。那麼,選擇哪種排序方法呢,有同學說 快排,將所有數排序後,再選出最大的5個。雖然快排確實能解決這個問題,但是需要對1百萬個數排序,但我們僅僅需要其中的5個。那麼,有更好的方法嗎?還記得我們...

Top K問題詳解

最容易想到的方法是將資料全部排序,然後在排序後的集合中進行查詢,最快的排序演算法的時間複雜度一般為o nlogn 如快速排序。但是在32位的機器上,每個float型別佔4個位元組,1億個浮點數就要占用400mb的儲存空間,對於一些可用記憶體小於400m的計算機而言,很顯然是不能一次將全部資料讀入記憶...

TopK問題詳解

問題描述 本文 以在面試題40.最小的k個數中可提交 在無序陣列 nums 中,找出最小 或最大 的 k 個數。例如,輸入 4,5,1,6,2,7,3,8 這8個數字,則最小的4個數字是1 2 3 4。直接將陣列進行排序,然後取出前 k 個元素即可。這是最容易想到的。略。直接排序需要對整個陣列 n ...