雜湊表（雜湊表）應用例項，同時借助最小堆

1.介紹

陣列的特點是：定址容易，插入和刪除困難；

而鍊錶的特點是：定址困難，插入和刪除容易。

這個世界上有沒有一種能夠綜合兩者優點的，既定址容易又插入和刪除容易的資料結構？yes，它就是hash表。

2.雜湊雜湊方法

1）除留取餘法

2）平方雜湊法

3）fibonacci雜湊法

3.雜湊表使用範圍

快速查詢，刪除的基本資料結構o(1),通常需要將總資料量放入記憶體

4.必備知識

什麼是雜湊表：hash table，也叫雜湊表，是根據關鍵碼值(key value)而直接進行訪問的的一種資料結構。

也就是說，它通過把關鍵碼值對映到表中乙個位置來訪問記錄，以加快查詢速度。

這個函式叫做雜湊函式，存放記錄的陣列叫做雜湊表。

實戰1.直接排序法。

首先我們最先想到的的演算法就是排序了，首先對這個日誌裡面的所有query都進行排序，然後再遍歷排好序的query，統計每個query出現的次數了。但是題目中有明確要求，那就是記憶體不能超過1g，一千萬條記錄，每條記錄是255byte，很顯然要佔據2.375g記憶體，這個條件就不滿足要求了。讓我們回憶一下資料結構課程上的內容，當資料量比較大而且記憶體無法裝下的時候，我們可以採用外排序的方法來進行排序，這裡我們可以採用歸併排序，因為歸併排序有乙個比較好的時間複雜度o(nlgn)。

排完序之後我們再對已經有序的query檔案進行遍歷，統計每個query出現的次數，再次寫入檔案中。

綜合分析一下，排序的時間複雜度是o(nlgn)，而遍歷的時間複雜度是o(n)，因此該演算法的總體時間複雜度就是o(n+nlgn)=o（nlgn）。

2、hash table法

在第1個方法中，我們採用了排序的辦法來統計每個query出現的次數，時間複雜度是nlgn，那麼能不能有更好的方法來儲存，而時間複雜度更低呢？

題目中說明了，雖然有一千萬個query，但是由於重複度比較高，因此事實上只有300萬的query，每個query255byte，因此我們可以考慮把他們都放進記憶體中去，而現在只是需要乙個合適的資料結構，在這裡，hash table絕對是我們優先的選擇，因為hash table的查詢速度非常的快，幾乎是o(1)的時間複雜度。

那麼，我們的演算法就有了：維護乙個key為query字串，value為該query出現次數的hashtable，每次讀取乙個query，如果該字串不在table中，那麼加入該字串，並且將value值設為1；如果該字串在table中，那麼將該字串的計數加一即可。最終我們在o(n)的時間複雜度內完成了對該海量資料的處理。

本方法相比演算法1：在時間複雜度上提高了乙個數量級，為o（n），但不僅僅是時間複雜度上的優化，該方法只需要io資料檔案一次，而演算法1的io次數較多的，因此該演算法2比演算法1在工程上有更好的可操作性。

第二步：找出top 10

演算法一：普通排序

我想對於排序演算法大家都已經不陌生了，這裡不在贅述，我們要注意的是排序演算法的時間複雜度是nlgn，在本題目中，三百萬條記錄，用1g記憶體是可以存下的。

演算法二：部分排序

題目要求是求出top10，因此我們沒有必要對所有的query都進行排序，我們只需要維護乙個10個大小的陣列，初始化放入10個query，按照每個query的統計次數由大到小排序，然後遍歷這300萬條記錄，每讀一條記錄就和陣列最後乙個query對比，如果小於這個query，那麼繼續遍歷，否則，將陣列中最後一條資料淘汰，加入當前的query。最後當所有的資料都遍歷完畢之後，那麼這個陣列中的10個query便是我們要找的top10了。

不難分析出，這樣，演算法的最壞時間複雜度是n*k，其中k是指top多少。

演算法三：堆

在演算法二中，我們已經將時間複雜度由nlogn優化到nk，不得不說這是乙個比較大的改進了，可是有沒有更好的辦法呢？

分析一下，在演算法二中，每次比較完成之後，需要的操作複雜度都是k，因為要把元素插入到乙個線性表之中，而且採用的是順序比較。這裡我們注意一下，該陣列是有序的，一次我們每次查詢的時候可以採用二分的方法查詢，這樣操作的複雜度就降到了logk，可是，隨之而來的問題就是資料移動，因為移動資料次數增多了。不過，這個演算法還是比演算法二有了改進。

基於以上的分析，我們想想，有沒有一種既能快速查詢，又能快速移動元素的資料結構呢？回答是肯定的，那就是堆。

借助堆結構，我們可以在log量級的時間內查詢和調整/移動。因此到這裡，我們的演算法可以改進為這樣，維護乙個k(該題目中是10)大小的小根堆，然後遍歷300萬的query，分別和根元素進行對比。

思想與上述演算法二一致，只是演算法在演算法三，我們採用了最小堆這種資料結構代替陣列，把查詢目標元素的時間複雜度有o（k）降到了o（logk）。

那麼這樣，採用堆資料結構，演算法三，最終的時間複雜度就降到了n*logk，和演算法二相比，又有了比較大的改進。

總結：

至此，演算法就完全結束了，經過上述第一步、先用hash表統計每個query出現的次數，o（n）；

然後第二步、採用堆資料結構找出top 10，n*o（logk）。

所以，我們最終的時間複雜度是：o（n） + n』*o（logk）。（n為1000萬，k為300萬）。

雜湊表（雜湊表）應用例項，同時借助最小堆

雜湊表應用例項

雜湊表應用

雜湊表應用

雜湊表（雜湊表）應用例項，同時借助最小堆

雜湊表應用例項

雜湊表應用

雜湊表應用

相關推薦