Top K 演算法詳解 雜湊表Hash的使用

2021-07-13 01:29:20 字數 3432 閱讀 1655

要說明這個問題,還是用例項說明比較容易理解,看下面一道

搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。

假設目前有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門),請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1g。

必備知識:

雜湊表!

詳情請看這裡:

問題解析:

要統計最熱門查詢,首先就是要統計每個query出現的次數,然後根據統計結果,找出top 10。所以我們可以基於這個思路分兩步來設計該演算法。

即,此問題的解決分為以下

兩個步驟

第一步:query統計

query統計有以下倆個方法,可供選擇:

1、直接排序法

首先我們最先想到的的演算法就是排序了,首先對這個日誌裡面的所有query都進行排序,然後再遍歷排好序的query,統計每個query出現的次數了。

但是題目中有明確要求,那就是記憶體不能超過1g,一千萬條記錄,每條記錄是255byte,很顯然要佔據2.375g記憶體,這個條件就不滿足要求了。

在資料結構中,

當資料量比較大而且記憶體無法裝下的時候,我們可以採用外排序的方法來進行排序

,這裡我們可以採用

歸併排序

,因為歸併排序有乙個比較好的時間複雜度o(nlgn)。

排完序之後我們再對已經有序的query檔案進行遍歷,統計每個query出現的次數,再次寫入檔案中。

綜合分析一下,排序的時間複雜度是o(nlgn),而遍歷的時間複雜度是o(n),因此該演算法的總體時間複雜度就是o(n+nlgn)=o(nlgn)。

2、hash table法

在第1個方法中,我們採用了排序的辦法來統計每個query出現的次數,時間複雜度是nlgn,那麼能不能有更好的方法來儲存,而時間複雜度更低呢?

題目中說明了,雖然有一千萬個query,但是由於重複度比較高,因此事實上只有300萬的query,每個query255byte,因此我們可以考慮把他們都放進記憶體中去,而現在只是需要乙個合適的資料結構,在這裡,hash table絕對是我們優先的選擇,因為hash table的查詢速度非常的快,幾乎是o(1)的時間複雜度。

那麼,我們的演算法就有了:維護乙個key為query字串,value為該query出現次數的hashtable,每次讀取乙個query,如果該字串不在table中,那麼加入該字串,並且將value值設為1;如果該字串在table中,那麼將該字串的計數加一即可。最終我們在

o(n)

的時間複雜度內完成了對該海量資料的處理。

本方法相比演算法1:在時間複雜度上提高了乙個數量級,為o(n),但不僅僅是時間複雜度上的優化,該方法只需要io資料檔案一次,而演算法1的io次數較多的,因此該演算法2比演算法1在工程上有更好的可操作性。

第二步:找出top 10

演算法一:普通排序

我想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是nlgn,在本題目中,三百萬條記錄,用1g記憶體是可以存下的。

演算法二:部分排序

題目要求是求出top 10,因此我們沒有必要對所有的query都進行排序,我們只需要維護乙個10個大小的陣列,初始化放入10個query,按照每個query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和陣列最後乙個query對比,如果小於這個query,那麼繼續遍歷,否則,將陣列中最後一條資料淘汰,加入當前的query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10個query便是我們要找的top10了。

不難分析出,這樣,演算法的最壞時間複雜度是

n*k, 其中k是指top多少。

演算法三:堆

在演算法二中,我們已經將時間複雜度由nlogn優化到nk,不得不說這是乙個比較大的改進了,可是有沒有更好的辦法呢?

分析一下,在演算法二中,每次比較完成之後,需要的操作複雜度都是k,因為要把元素插入到乙個線性表之中,而且採用的是順序比較。這裡我們注意一下,該陣列是有序的,一次我們每次查詢的時候可以採用二分的方法查詢,這樣操作的複雜度就降到了logk,可是,隨之而來的問題就是資料移動,因為移動資料次數增多了。不過,這個演算法還是比演算法二有了改進。

基於以上的分析,我們想想,有沒有一種既能快速查詢,又能快速移動元素的資料結構呢?回答是肯定的,那就是堆。

借助堆結構,我們可以在log量級的時間內查詢和調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護乙個k(該題目中是10)大小的小根堆,然後遍歷300萬的query,

分別和根元素進行對比。

具體過程是,堆頂存放的是整個堆中最小的數,現在遍歷n個數,把最先遍歷到的k個數存放到最小堆中,並假設它們就是我們要找的最大的k個數,x1>x2...xmin(堆頂),而後遍歷後續的n-k個數,一一與堆頂元素進行比較,如果遍歷到的xi大於堆頂元素xmin,則把xi放入堆中,而後更新整個堆,更新的時間複雜度為logk,如果xi。

堆排序的3d動畫演示:

思想與上述演算法二一致,只是演算法在演算法三,我們採用了最小堆這種資料結構代替陣列,把查詢目標元素的時間複雜度有o(k)降到了o(logk)。

那麼這樣,採用堆資料結構,演算法三,最終的時間複雜度就降到了

n『logk

,和演算法二相比,又有了比較大的改進。

總結:

至此,演算法就完全結束了,經過上述第一步、先用hash表統計每個query出現的次數,o(n);然後第二步、採用堆資料結構找出top 10,n*o(logk)。所以,我們最終的時間複雜度是:

o(n) + n'*o(logk)。

(n為1000萬,n』為300萬)。

所以,本題的最優時間複雜度為:o(

n)+ n'*o

(logk

)(n為1000萬,n』為300萬)。

hash表(雜湊表)詳解

什麼是雜湊表?雜湊表 hash table,也叫雜湊表 是 根據關鍵碼值 key value 而直接進行訪問的資料結構。也就是說,它通過把關鍵碼值對映到表中乙個位置來訪問記錄,以加快查詢的速度。這個對映函式叫做 雜湊函式 存放記錄的陣列叫做 雜湊表。記錄的儲存位置 f 關鍵字 這裡的對應關係f稱為雜...

Hash 表詳解(雜湊表)

雜湊表 hash table,也叫雜湊表 是根據關鍵碼值 key value 而直接進行訪問的資料結構。也就是說,它通過把關鍵碼值對映到表中乙個位置來訪問記錄,以加快查詢的速度。這個對映函式叫做雜湊函式,存放記錄的陣列叫做雜湊表。給定表m,存在函式f key 對任意給定的關鍵字值key,代入函式後若...

雜湊(hash 雜湊表)

可以認為雜湊有著陣列的思想,它將所有的資料段拼成乙個陣列 順序表 進行儲存,通過雜湊函式,可以基本上以o 1 的時間複雜度來查詢和儲存資料。通過資料段中的唯一關鍵字 key 經過某種演算法,得出此資料段在整個雜湊陣列 順序表 中的的下標,然後直接取元素即可。有資料結構如下 資料段 key,value...