Shell指令碼 資料清洗

2022-04-20 23:16:34 字數 3538 閱讀 4238

需要做的任務是將上圖類似的格式的檔案進行處理,將年月日小時分別提取出來放到每行的行尾(上圖已清洗好)

自己的思路是先用cut命令將每行的年月日小時提取出來,分別給乙個變數,然後再迴圈利用sed命令將年月日小時複製到行尾

實現起來感覺有問題,因為sed命令不熟,sed -i不知道能不能實現

簡單了解一下sed

sed是乙個很好的檔案處理工具,本身是乙個管道命令,主要是以行為單位進行處理,可以將資料行進行替換、刪除、新增、選取等特定工作,下面先了解一下sed的用法

sed命令列格式為:

sed [-nefri] 『command』 輸入文字        

常用選項:

-n∶使用安靜(silent)模式。在一般 sed 的用法中,所有來自 stdin的資料一般都會被列出到螢幕上。但如果加上 -n 引數後,則只有經過sed 特殊處理的那一行(或者動作)才會被列出來。

-e∶直接在指令列模式上進行 sed 的動作編輯;

-f∶直接將 sed 的動作寫在乙個檔案內, -f filename 則可以執行 filename 內的sed 動作;

-r∶sed 的動作支援的是延伸型正規表示法的語法。(預設是基礎正規表示法語法)

-i∶直接修改讀取的檔案內容,而不是由螢幕輸出。       

常用命令:

a   ∶新增, a 的後面可以接字串,而這些字串會在新的一行出現(目前的下一行)~

c   ∶取代, c 的後面可以接字串,這些字串可以取代 n1,n2 之間的行!

d   ∶刪除,因為是刪除啊,所以 d 後面通常不接任何咚咚;

i   ∶插入, i 的後面可以接字串,而這些字串會在新的一行出現(目前的上一行);

p  ∶列印,亦即將某個選擇的資料印出。通常 p 會與引數 sed -n 一起運作~

s  ∶取代,可以直接進行取代的工作哩!通常這個 s 的動作可以搭配正規表示法!例如 1,20s/old/new/g 就是啦!

舉例:(假設我們有一檔名為ab)

刪除某行

[root@localhost ruby] # sed '1d' ab              #刪除第一行 

[root@localhost ruby] # sed '$d' ab              #刪除最後一行

[root@localhost ruby] # sed '1,2d' ab           #刪除第一行到第二行

[root@localhost ruby] # sed '2,$d' ab           #刪除第二行到最後一行

顯示某行

.    [root@localhost ruby] # sed -n '1p' ab           #顯示第一行 

[root@localhost ruby] # sed -n '$p' ab           #顯示最後一行

[root@localhost ruby] # sed -n '1,2p' ab        #顯示第一行到第二行

[root@localhost ruby] # sed -n '2,$p' ab        #顯示第二行到最後一行

使用模式進行查詢

[root@localhost ruby] # sed -n '/ruby/p' ab    #查詢包括關鍵字ruby所在所有行

[root@localhost ruby] # sed -n '/\$/p' ab        #查詢包括關鍵字$所在所有行,使用反斜線\遮蔽特殊含義

增加一行或多行字串

[root@localhost ruby]# cat ab

hello!

ruby is me,welcome to my blog.

end[root@localhost ruby] # sed '1a drink tea' ab  #第一行後增加字串"drink tea"

hello!

drink tea

ruby is me,welcome to my blog. 

end[root@localhost ruby] # sed '1,3a drink tea' ab #第一行到第三行後增加字串"drink tea"

hello!

drink tea

ruby is me,welcome to my blog.

drink tea

enddrink tea

[root@localhost ruby] # sed '1a drink tea\nor coffee' ab   #第一行後增加多行,使用換行符\n

hello!

drink tea

or coffee

ruby is me,welcome to my blog.

end代替一行或多行

[root@localhost ruby] # sed '1c hi' ab                #第一行代替為hi

hiruby is me,welcome to my blog.

end[root@localhost ruby] # sed '1,2c hi' ab             #第一行到第二行代替為hi

hiend

替換一行中的某部分

格式:sed 's/要替換的字串/新的字串/g'   (要替換的字串可以用正規表示式)

[root@localhost ruby] # sed -n '/ruby/p' ab | sed 's/ruby/bird/g'    #替換ruby為bird

[root@localhost ruby] # sed -n '/ruby/p' ab | sed 's/ruby//g'        #刪除ruby

插入[root@localhost ruby] # sed -i '$a bye' ab         #在檔案ab中最後一行直接輸入"bye"

[root@localhost ruby]# cat ab

hello!

ruby is me,welcome to my blog.

endbye

刪除匹配行

sed -i '/匹配字串/d'  filename  (注:若匹配字串是變數,則需要「」,而不是『』。記得好像是)

替換匹配行中的某個字串

sed -i '/匹配字串/s/替換源字串/替換目標字串/g' filename

發現sed用來替換檔案內容更合適,所以此方法行不通,換種方法:

將年、月、日、小時分別匯出為乙個檔案,然後用paste命令進行拼接,之後再》新增進乙個文字文件中

構建指令碼將年月日小時分別倒入相應文件

利用paste進行拼接後加到是s1.ext檔案中

檢視是s1.ext文件內容,可以看到完成預定的任務

Shell指令碼陣列詳解

陣列包括的資料型別 獲取陣列的長度 陣列的遍歷 陣列的切片 陣列的替換 向函式傳陣列引數 從函式中返回陣列 陣列中的元素 30 20 10 60 50 40 陣列中的索引 0 1 2 3 4 5 方法一陣列名 value0 value1 value2 方法二陣列名 0 value 1 value 2...

shell指令碼 數值比較

用於數值比較的無非大於 小於 等於 大於等於 小於等於這幾個。比較格式 數值1 比較符 數值2 注意左邊的括號與數值1之間有乙個空格,同樣,數值2和右邊的括號之間也有空格。數值比較運算子對應下面幾個 eq判斷相等,相等返回true,否則返回false ne判斷是否不相等,不相等返回true,否則返回...

shell指令碼 資料庫的備份

set root password?y n y 設定密碼 new password re enter new password password updated successfully reloading privilege tables.success remove anonymous user...