使用 awk 過濾文字或檔案中的字串

2021-09-08 11:59:57 字數 4066 閱讀 7417

當我們在 unix/linux 下使用特定的命令從字串或檔案中讀取或編輯文字時,我們經常需要過濾輸出以得到感興趣的部分。這時正規表示式就派上用場了。

什麼是正規表示式?

正規表示式可以定義為代表若干個字串行的字串。它最重要的功能之一就是它允許你過濾一條命令或乙個檔案的輸出、編輯文字或配置檔案的一部分等等。

正規表示式的特點

正規表示式由以下內容組合而成:

你必須使用類似 awk 這樣的文字過濾工具來過濾文字。你還可以把 awk 自身當作乙個程式語言。但由於這個指南的適用範圍是關於使用 awk 的,我會按照乙個簡單的命令列過濾工具來介紹它。

awk 的一般語法如下:

# awk 'script' filename
此處 'script' 是乙個由 awk 可以理解並應用於 filename 的命令集合。

它通過讀取檔案中的給定行,複製該行的內容並在該行上執行指令碼的方式工作。這個過程會在該檔案中的所有行上重複。

該指令碼 'script' 中內容的格式是 '/pattern/ action',其中 pattern 是乙個正規表示式,而 action 是當 awk 在該行中找到此模式時應當執行的動作。

如何在 linux 中使用 awk 過濾工具

在下面的例子中,我們將聚焦於之前討論過的元字元。

乙個使用 awk 的簡單示例:

下面的例子列印檔案 /etc/hosts 中的所有行,因為沒有指定任何的模式。

awk 列印檔案中的所有行

結合模式使用 awk

在下面的示例中,指定了模式 localhost,因此 awk 將匹配檔案 /etc/hosts 中有 localhost 的那些行。

awk 列印檔案中匹配模式的行

在 awk 模式中使用萬用字元 (.)

在下面的例子中,符號 (.) 將匹配包含 loc、localhost、localnet 的字串。

這裡的正規表示式的意思是匹配l乙個字元c

使用 awk 列印檔案中匹配模式的字串

在 awk 模式中使用字元 (*)

在下面的例子中,將匹配包含 localhost、localnet、lines, capable 的字串。

使用 awk 匹配檔案中的字串

你可能也意識到 (*) 將會嘗試匹配它可能檢測到的最長的匹配。

讓我們看一看可以證明這一點的例子,正規表示式 t*t 的意思是在下面的行中匹配以 t 開始和 t 結束的字串:

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint.
當你使用模式 /t*t/ 時,會得到如下可能的結果:

this is t

this is tecmint

this is tecmint, where you get t

this is tecmint, where you get the best good t

this is tecmint, where you get the best good tutorials, how t

this is tecmint, where you get the best good tutorials, how tos, guides, t

this is tecmint, where you get the best good tutorials, how tos, guides, tecmint

在 /t*t/ 中的萬用字元 (*) 將使得 awk 選擇匹配的最後一項:

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint
結合集合 [ character(s) ] 使用 awk以集合 [al1] 為例,awk 將匹配檔案 /etc/hosts 中所有包含字元 a 或 l 或 1 的字串。

# awk '/[al1]/' /etc/hosts
使用 awk 列印檔案中匹配的字元

使用 awk 列印檔案中匹配的字元

以範圍的方式指定字元

awk 所能理解的字元:

讓我們看看下面的例子:

使用 awk 列印檔案中匹配的數字

在上面的例子中,檔案 /etc/hosts 中的所有行都至少包含乙個單獨的數字 [0-9]。

結合元字元 (^) 使用 awk

在下面的例子中,它匹配所有以給定模式開頭的行:

使用 awk 列印與模式匹配的行

結合元字元 ($) 使用 awk

它將匹配所有以給定模式結尾的行:

使用 awk 列印與模式匹配的字串

結合轉義字元 (/) 使用 awk

它允許你將該轉義字元後面的字元作為文字,即理解為其字面的意思。

在下面的例子中,第乙個命令列印出檔案中的所有行,第二個命令中我想匹配具有 $25.00 的一行,但我並未使用轉義字元,因而沒有列印出任何內容。

第三個命令是正確的,因為乙個這裡使用了乙個轉義字元以轉義 $,以將其識別為 '$'(而非元字元)。

結合轉義字元使用 awk

總結

以上內容並不是 awk 命令用做過濾工具的全部,上述的示例均是 awk 的基礎操作。在下面的章節中,我將進一步介紹如何使用 awk 的高階功能。

使用awk命令獲取命令或文字的行 列

以ll為例說明 1 列印命令的第1列 ll awk 列印文件的第1列 awk filename 2 列印命令的前2列 ll awk 列印文件的前2列 awk filename 3 列印完命令第一列,然後列印第2列 ll awk 列印完文字第一列,然後列印第2列 awk filename 4 列印文字...

使用sed過濾提取文字中的資訊

sed r n e error p mntenu check.log sed r e mlf d sed r e s mlf 1 g uniq filenamestoberemoved.log note 顯示的不正確,請用plain text來看和拷貝。1.第一步,在檔案中將含有 error 字串的...

檔案中的awk 命令

如果awk命令 被寫在檔案裡,就要用 f選項指定awk的檔名,後面再加上所要處理的輸入檔案的檔名。awk從緩衝區讀入一條記錄,接著測試awk檔案中的每一條命令,然後對讀入的記錄執行命令。處理完第一條記錄後,awk將其丟棄,接著將下一條記錄讀入緩衝區,依次處理所有記錄。如果沒有模式限制,預設的操作就是...