海量資料中選出最大的N個

前幾天，面試了一家公司，其中出了一道演算法應用題，題是這樣的：有100個檔案，每個檔案裡有10000個資料，選出前100個大的資料；

聽到這麼大的資料，第乙個想法就是堆排，因為這個題很符合堆排的條件：（1）大資料（2）選擇前多少個

當我說出堆排的時候，自己也有在想，這麼多的資料，能不能一下全部讀入呢，，如果全部讀入，要用多少空間來儲存？？？

之後，面試官提醒我，利用歸併的思想，最後下來查了一下，也是

對於海量的資料，必須要有乙個思想：首先分塊處理，再合併。

（1）在每個檔案的內部進行排序，找出前100個大的資料；這就是先分塊處理；對於為什麼要找出前100個，而不是最大的乙個，大家有沒有想過，，如果說，這100個大的資料都在乙個檔案裡面呢，，所以必須要找出每個檔案的前 100 個大的；

（2）再將這100個檔案的前100個大的進行比較；

這兩步下來，我們就把10000個資料縮小為 100個資料，這樣資料量就縮小為 100 * 100，

之後，還看到一種方法，叫做區域性淘汰法：

思想：該方法與排序方法類似，用乙個容器儲存前10000個數，然後將剩餘的所有數字——與容器內的最小數字相比，如果所有後續的元素都比容器內的10000個數還小，那麼容器內這個10000個數就是最大10000個數。如果某一後續元素比容器內最小數字大，則刪掉容器內最小元素，並將該元素插入容器，最後遍歷完這1億個數，得到的結果容器中儲存的數即為最終結果了。此時的時間複雜度為o（n+m^2），其中m為容器的大小，即10000。

總之，並不是所有的大資料都可以用堆排來處理，，如果有什麼更好的思路，記得告訴我，，，

海量資料中選出最大的N個

海量資料中選出若干大數字的演算法

N個元素中選最大最小

從n個數選出最大的m個的演算法比較

海量資料中選出最大的N個

海量資料中選出若干大數字的演算法

N個元素中選最大最小

從n個數選出最大的m個的演算法比較

相關推薦