Top K演算法詳細解析 百度面試 外排演算法

2021-09-25 11:44:57 字數 4669 閱讀 2270

1b(byte,位元組)= 8 bit

1kb(kilobyte,千位元組)=1024b= 2^10 b

1mb(megabyte,兆位元組,百萬位元組,簡稱「兆」)=1024kb= 2^20 b;

1gb(gigabyte,吉位元組,十億位元組,又稱「千兆」)=1024mb= 2^30 b;

附:外部排序演算法

插入排序、選擇排序、歸併排序等等,這些演算法都屬於內部排序演算法,即排序的整個過程只是在記憶體中完成。而當待排序的檔案比記憶體的可使用容量還大時,檔案無法一次性放到記憶體中進行排序,需要借助於外部儲存器(例如硬碟、u盤、光碟),這時就需要用到本章介紹的外部排序演算法來解決。

外部排序演算法由兩個階段構成:

按照記憶體大小,將大檔案分成若干長度為 l 的子檔案(l 應小於記憶體的可使用容量),然後將各個子檔案依次讀入記憶體,使用適當的內部排序演算法對其進行排序(排好序的子檔案統稱為「歸併段」或者「順段」),將排好序的歸併段重新寫入外存,為下乙個子檔案排序騰出記憶體空間;對得到的順段進行合併,直至得到整個有序的檔案為止。例如,有乙個含有 10000 個記錄的檔案,但是記憶體的可使用容量僅為 1000 個記錄,毫無疑問需要使用外部排序演算法,具體分為兩步:將整個檔案其等為 10 個臨時檔案(每個檔案中含有 1000 個記錄),然後將這 10 個檔案依次進入記憶體,採取適當的記憶體排序演算法對其中的記錄進行排序,將得到的有序檔案(初始歸併段)移至外存。對得到的 10 個初始歸併段進行如圖 1 的兩兩歸併,直至得到乙個完整的有序檔案。

注意:此例中採用了將檔案進行等分的操作,還有不等分的演算法,後面章節會介紹。

如圖 1 所示有 10 個初始歸併段到乙個有序檔案,共進行了 4 次歸併,每次都由 m 個歸併段得到 ⌈m/2⌉ 個歸併段,這種歸併方式被稱為 2-路平衡歸併。

注意:在實際歸併的過程中,由於記憶體容量的限制不能滿足同時將 2 個歸併段全部完整的讀入記憶體進行歸併,只能不斷地取 2 個歸併段中的每一小部分進行歸併,通過不斷地讀資料和向外存寫資料,直至 2 個歸併段完成歸併變為 1 個大的有序檔案。

對於外部排序演算法來說,影響整體排序效率的因素主要取決於讀寫外存的次數,即訪問外存的次數越多,演算法花費的時間就越多,效率就越低。

計算機中處理資料的為**處理器(cpu),如若需要訪問外存中的資料,只能通過將資料從外存匯入記憶體,然後從記憶體中獲取。同時由於記憶體讀寫速度快,外存讀寫速度慢的差異,更加影響了外部排序的效率。

對於同乙個檔案來說,對其進行外部排序時訪問外存的次數同歸並的次數成正比,即歸併操作的次數越多,訪問外存的次數就越多。圖 1 中使用的是 2-路平衡歸併的方式,舉一反三,還可以使用 3-路歸併、4-路歸併甚至是 10-路歸併的方式,圖 2 為 5-路歸併的方式:

對比 圖 1 和圖 2可以看出,對於 k-路平衡歸併中 k 值得選擇,增加 k 可以減少歸併的次數,從而減少外存讀寫的次數,最終達到提高演算法效率的目的。除此之外,一般情況下對於具有 m 個初始歸併段進行 k-路平衡歸併時,歸併的次數為:s=⌊logk⁡m ⌋(其中 s 表示歸併次數)。

從公式上可以判斷出,想要達到減少歸併次數從而提高演算法效率的目的,可以從兩個角度實現:

增加 k-路平衡歸併中的 k 值;

儘量減少初始歸併段的數量 m,即增加每個歸併段的容量;

其增加 k 值的想法引申出了一種外部排序演算法:多路平衡歸併演算法;增加數量 m 的想法引申出了另一種外部排序演算法:置換-選擇排序演算法。兩種外部排序演算法會在後序章節中詳細介紹。

問題解析:【分析】:要統計最熱門查詢,首先就是要統計每個query出現的次數,然後根據統計結果,找出top 10。所以我們可以基於這個思路分兩步來設計該演算法。下面分別給出這兩步的演算法:

第一步:query統計

演算法一:直接排序法

首先我們能想到的演算法就是排序了,首先對這個日誌裡面的所有query都進行排序,然後再遍歷排好序的query,統計每個query出現的次數了。但是題目中有明確要求,那就是記憶體不能超過1g,一千萬條記錄,每條記錄是225byte,很顯然要佔據2.55g記憶體,這個條件就不滿足要求了。

1000w條記錄,一般認為1000近似位1024=2^10處理,

故1000w=1000 * 1000 * 10 ~2^10 *2^10 *10=10 * 2^20

每條記錄是225byte,故1000w條資料是2250*2^20byte=2.25 * 2^30byte =2.25gb

讓我們回憶一下資料結構課程上的內容,當資料量比較大而且記憶體無法裝下的時候,我們可以採用外排序的方法來進行排序,這裡筆者採用歸併排序,是因為歸併排序有乙個比較好的時間複雜度o(nlgn)。

排完序之後我們再對已經有序的query檔案進行遍歷,統計每個query出現的次數,再次寫入檔案中。

綜合分析一下,排序的時間複雜度是o(nlgn),而遍歷的時間複雜度是o(n),因此該演算法的總體時間複雜度就是o(nlgn)。

演算法二:hash table法

在上個方法中,我們採用了排序的辦法來統計每個query出現的次數,時間複雜度是nlgn,那麼能不能有更好的方法來儲存,而時間複雜度更低呢?

題目中說明了,雖然有一千萬個query,但是由於重複度比較高,因此事實上只有300萬的query,每個query255byte,因此我們可以考慮把他們都放進記憶體中去,而現在只是需要乙個合適的資料結構,在這裡,hash table絕對是我們優先的選擇,因為hash table的查詢速度非常的,幾乎是o(1)的時間複雜度。

那麼,我們的演算法就有了:維護乙個key為query字串,value為該query出現次數的hashtable,每次讀取乙個query,如果該字串不在table中,那麼加入該字串,並且將value值設為1;如果該字串在table中,那麼將該字串的計數加一即可。最終我們在o(n)的時間複雜度內完成了對該海量資料的處理。

本方法相比演算法一:在時間複雜度上提高了乙個數量級,但不僅僅是時間複雜度上的優化,該方法只需要io資料檔案一次,而演算法一的io次數較多的,因此該演算法比演算法一在工程上有更好的可操作性。

演算法一:排序

我想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是nlgn,在本題目中,三百萬條記錄,用1g記憶體是可以存下的。

演算法二:部分排序

題目要求是求出top 10,因此我們沒有必要對所有的query都進行排序,我們只需要維護乙個10個大小的陣列,初始化放入10query,按照每個query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和陣列最後乙個query對比,如果小於這個query,那麼繼續遍歷,否則,將陣列中最後一條資料淘汰,加入當前的query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10個query便是我們要找的top10了。

不難分析出,這樣的演算法的時間複雜度是n*k, 其中k是指top多少。

演算法三:堆

在演算法二中,我們已經將時間複雜度由nlogn優化到nk,不得不說這是乙個比較大的改進了,可是有沒有更好的辦法呢?

分析一下,在演算法二中,每次比較完成之後,需要的操作複雜度都是k因為要把元素插入到乙個線性表之中,而且採用的是順序比較

這裡我們注意一下,該陣列是有序的,一次我們每次查詢的時候可以採用二分的方法查詢,這樣操作的複雜度就降到了logk,可是,隨之而來的問題就是資料移動,因為移動資料次數增多了。不過,這個演算法還是比演算法二有了改進。

基於以上的分析,我們想想,有沒有一種既能快速查詢,又能快速移動元素的資料結構呢?回答是肯定的,那就是。借助堆結構,我們可以在log量級的時間內查詢和調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護乙個k(該題目中是10)大小的小根堆,然後遍歷300萬的query,分別和根元素進行對比。。。

結語:

至此,我們的演算法就完全結束了,經過步驟一和步驟二的最優結合,我們最終的時間複雜度是o(n) + o(n』)logk。如果各位有什麼好的演算法,歡迎跟帖討論。

Top K演算法詳細解析 百度面試

搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1 255位元組。假設目前有一千萬個記錄,這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請你統計最熱門的10個查詢串,要求...

Top K演算法詳細解析 百度面試

搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1 255位元組。假設目前有一千萬個記錄,這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請你統計最熱門的10個查詢串,要求...

TopK問題 百度面試

題目描述 easy 找到最大的十個數 and 如果檔案很大,不能一次讀入 演算法分析 1.快排的partition函式,以第k個數作為key時,大於k的右邊的數即為所求 2.構建小頂堆 partition實現 class solution else if loc k return vector in...