額定記憶體進行資源分配

題目剖析

1、資料理解：

整數，1個整數佔4個b，即32bit，40億個整數，佔40億*4b，即16gb

40億，如果用二級制推算，最接近2^32=4,294,967,296（42.9億），即32bit，佔4個b

2、最壞情況：40億個數都不相同，需要輸出4b*40億=160億b=16g

解題重點：

1、找出未出現過的數時，不可以直接將數字儲存並輸出，需要尋找乙個容器

解題思路：

1、尋找策略：借鑑桶排序，用跟資料大小相同長度的陣列標記重複情況

2、容器選擇：bitset，容器體積小，每個元素只能為1或0，可以滿足需求

3、具體做法：

題目解剖：

1、資料理解：

10m，即10240b，即81920bit，如果要用這些來處理40億資料，即要進行分塊處理，每塊的資料量為40億/81920=48.83，比較靠近2^6=64，所以需要拆成64塊，然後分開處理，即每組資料最大量為67,108,864（資料全齊狀態）

2、最壞情況：全部資料都出現過

3、解題策略：如果按上述桶排序思路，需使用500m記憶體，超出要求

解題重點：

1、利用布隆過濾器的思想，先把絕對會出現的資料過濾掉，即採用兩個容器進行統計

解題思路：

1、尋找策略：借鑑布隆過濾器，先排除不是目標的物件，再找未出現的數

2、具體做法：

—第乙個容器：

–第二個容器

合併用記憶體256b+8192kb=8mb，符合條件..

題目剖析：

資料理解：4g即4,294,967,296位元組，可以處理67,108,864個url，即0.67億個。可分兩種情況討論，乙個是小於0.67億個url的時候和大於0.67億個url的時候

解題重點：分類處理

解題思路：

1、n小於0.67億

計算url的hash，通過hash得到每個url的次數，遍歷hash找出最大的三個

2、n大於等於0.67

用hash把n個資料分成y=n/0.67億（分組數量y貼近2^x），在每組找出最多的3個，再在y個組裡找出最多的三個進行比對。

資料理解

乙個url64位元組，每個檔案50億個，即乙個檔案298gb，兩個檔案一共569g，遠大於4g

假設所有url相同，則同時儲存相同url時，需要使用記憶體298gb，也遠大於4g

可以考慮分資料塊考慮問題，例如雜湊分組，每個組內可能有相同的資料，但是不同組肯定沒有相同的資料

假設1個檔案分組n組，則每組占用空間298/n，要用到2組，則每次載入需要空間2*298/n，另考慮計算用的記憶體，假設分成1024組，則每次載入資料使用記憶體598mb。

解題思路

1、將a,b檔案分別按n進行雜湊分組，先將第一組分別載入進陣列。（598）

2、將a陣列對映到hashmap裡面（298），再遍歷b資料，比對是否會存在一樣的url，有就儲存下來，輸出

3、釋放記憶體，再迴圈後續的分組..

資料理解：

1個詞16b，100個詞即1.56kb

1g檔案，存的都是16b的詞，即16,777,216個詞

1m記憶體，最大能存16,384個詞，那麼處理1g的詞，剛好需要1024個分割槽，秉承預留執行記憶體、防止資料嚴重傾斜的思想，劃分2^11即2048個分割槽，每個分割槽使用記憶體情況不確定，因為有可能出現傾斜，出現資料傾斜就要進行二次分組，確保每個分割槽的大小不超過一定的值

解題思路：（理想情況，不需要二次分組）

1、將檔案採用雜湊分組分成2048個分割槽，將第乙個分割槽的資料載入進hashmap，取出value最大的100個詞，持久化到檔案中，這樣就可以得到2048個檔案，每個檔案有1600b的資料，即一共3.125mb

2、將所有檔案載入到記憶體中，將entry放入容量為100的大頂堆裡，按value排序，得到100個最大的值

額定記憶體進行資源分配

Spark如何進行動態資源分配

對malloc分配的資源做記憶體對齊

GPU資源分配

額定記憶體進行資源分配

Spark如何進行動態資源分配

對malloc分配的資源做記憶體對齊

GPU資源分配

相關推薦