大資料量下的sort

2021-06-20 13:13:57 字數 463 閱讀 1780

sort在linux命令列下面是乙個非常好用的工具,有人把它當做每個程式設計師都應該知道的8個linux命令之一,

。最近在處理大資料的時候發現兩點。

1. 用sort -u 而不是sort|uniq。 

sort應該是按照歸併的思想來的,先分成乙個個小檔案,排序後再組合成最後拍好序的檔案。所以,sort -u 要比sort | uniq 快。因為越早去除那些相同的元素,肯定是對後面歸併的速度有好處的。

具體的測試如下:

2.更換sort的臨時檔案生成目錄。

上面所說的sort的臨時小檔案是預設放在/tmp路徑下的,有時候/tmp的空間有限制,比如4g,那麼,超過4g的檔案就沒有辦法用sort了。可以用sort -t 

path 來臨時檔案的目錄。不用擔心,歸併完以後小檔案會自動刪除的。

3. 按鍵值排序

這點其實跟大資料量有多大關係,而是很好用,sort -k 按照鍵值來排序。

大資料量下的分頁

大資料量下的分頁 郭紅俊 select from orders where orderid between 10248 and 10253 select from orders where orderid in 10248,10249,10250,10251,10252,10253 order by...

Oracle 大資料量下的資料遷移

本文主要描述了從oracle 9i至oracle 10g的單錶大資料量的遷移過程,其間作者嘗試了不同方法,對比之後,主要使用了db link。正文 由於公司伺服器公升級,原oracle 9i rac 裸裝置 系統也公升級到了oracle 10g rac asm 原資料庫中的資料也要匯入到新建的資料庫...

大資料量演算法

給40億個不重複的unsigned int的整數,沒排過序的,然後再給乙個數,如何快速判斷這個數是否在那40億個數當中 位圖思想解法 include stdio.h include stdlib.h include memory.h define max num 4294967295 int mai...