用uniq來處理檔案重複資料交集，差集，計數等

經常有這樣的需求：兩個文字檔案要求取重複的行或只取不重複的，簡單的情況下用sort和uniq來處理是非常方便的：

利用現存兩個檔案，生成乙個新的檔案

1. 取出兩個檔案的並集(重複的行只保留乙份)

2. 取出兩個檔案的交集(只留下同時存在於兩個檔案中的檔案)

3. 刪除交集，留下其他的行

1. cat file1 file2 | sort | uniq

2. cat file1 file2 | sort | uniq -d

3. cat file1 file2 | sort | uniq -u

當然如果需要計數也有乙個很好的引數uniq -c 可以將相同行數的計數放在行首

不過如果要求複雜，這個方法就不好用了，之後我會和大家分享乙個按列比較的指令碼。

------

sort [選項] 檔案

說明：sort命令對指定檔案中所有的行進行排序，並將結果顯示在標準輸出上。如不指定輸入檔案或使用「- 」，則表示排序內容來自標準輸入。

sort排序是根據從輸入行抽取的乙個或多個關鍵字進行比較來完成的。排序關鍵字定義了用來排序的最小的字串行。預設情況下以整行為關鍵字按ascii字元順序進行排序。

改變預設設定的選項主要有：

- m 若給定檔案已排好序，合併檔案。

- c 檢查給定檔案是否已排好序，如果它們沒有都排好序，則列印乙個出錯資訊，並以狀態值1退出。

- u 對排序後認為相同的行只留其中一行。

- o 輸出檔案將排序輸出寫到輸出檔案中而不是標準輸出，如果輸出檔案是輸入檔案之一，sort先將該檔案的內容寫入乙個臨時檔案，然後再排序和寫輸出結果。

改變預設排序規則的選項主要有：

- d 按字典順序排序，比較時僅字母、數字、空格和製表符有意義。

- f 將小寫字母與大寫字母同等對待。

- i 忽略非列印字元。

- m 作為月份比較：「jan」<「feb」

- r 按逆序輸出排序結果。

-k, --key=pos1[,pos2] posl - pos2 指定乙個或幾個字段作為排序關鍵字，字段位置從posl開始，到pos2為止（包括posl，不包括pos2）。如不指定pos2，則關鍵字為從posl到行尾。欄位和字元的位置從0開始。

- b 在每行中尋找排序關鍵字時忽略前導的空白（空格和製表符）。

- t separator 指定字元separator作為字段分隔符。

uniq命令

檔案經過處理後在它的輸出檔案中可能會出現重複的行。例如，使用cat命令將兩個檔案合併後，再使用sort命令進行排序，就可能出現重複行。這時可以使用uniq命令將這些重複行從輸出檔案中刪除，只留下每條記錄的唯一樣本。

語法：uniq [選項] 檔案

說明：這個命令讀取輸入檔案，並比較相鄰的行。在正常情況下，第二個及以後更多個重複行將被刪去，行比較是根據所用字符集的排序序列進行的。該命令加工後的結果寫到輸出檔案中。輸入檔案和輸出檔案必須不同。如果輸入檔案用「- 」表示，則從標準輸入讀取。

該命令各選項含義如下：

- c 顯示輸出中，在每行行首加上本行在檔案中出現的次數。它可取代- u和- d選項。

- d 只顯示重複行。

- u 只顯示檔案中不重複的各行。

- n 前n個字段與每個欄位前的空白一起被忽略。乙個欄位是乙個非空格、非製表符的字串，彼此由製表符和空格隔開（欄位從0開始編號）。

+n 前n個字元被忽略，之前的字元被跳過（字元從0開始編號）。

- f n 與- n相同，這裡n是字段數。

- s n 與＋n相同，這裡n是字元數。

------------------

更詳細的說明來自linux的man

用 sort 和 tsort 對檔案進行排序

用uniq來處理檔案重複資料交集，差集，計數等

spss 資料清洗處理重複資料

表中重複資料的處理

資料處理之去除重複資料

用uniq來處理檔案重複資料 交集，差集，計數等

spss 資料清洗 處理重複資料

表中重複資料的處理

資料處理之去除重複資料

相關推薦

用uniq來處理檔案重複資料交集，差集，計數等

spss 資料清洗處理重複資料