正規表示式之C程式中使用正則

posix規定了正規表示式的

c語言庫函式，詳見

regex(3)

。我們已經學習了很多

c語言庫函式的用法，讀者應該具備自己看懂

man手冊的能力了。本章介紹了正規表示式在

grep

、sed

、awk

中的用法，學習要能夠舉一反三，請讀者根據

regex(3)

自己總結正規表示式在

c語言中的用法，寫一些簡單的程式，例如驗證使用者輸入的

ip位址或

位址格式是否正確。

c語言處理正規表示式常用的函式有

regcomp()

、regexec()

、regfree()

和regerror()

，一般分為三個步驟，如下所示：

c語言中使用正規表示式一般分為三步：

編譯正規表示式 regcomp()
匹配正規表示式 regexec()
釋放正規表示式 regfree()

下邊是對三個函式的詳細解釋

這個函式把指定的正規表示式pattern編譯成一種特定的資料格式

compiled

，這樣可以使匹配更有效。函式

regexec

會使用這個資料在目標文字串中進行模式匹配。執行成功返回０。

int regcomp (regex_t *compiled, const char *pattern, int cflags)
regex_t 是乙個結構體資料型別，用來存放編譯後的正規表示式，它的成員re_nsub 用來儲存正規表示式中的子正規表示式的個數，
子正規表示式就是用圓括號包起來的部分表示式。
pattern 是指向我們寫好的正規表示式的指標。
cflags 有如下4個值或者是它們或運算(|)後的值：
reg_extended 以功能更加強大的擴充套件正規表示式的方式進行匹配。
reg_icase 匹配字母時忽略大小寫。
reg_nosub 不用儲存匹配後的結果,只返回是否成功匹配。如果設定該標誌位，那麼在regexec將忽略nmatch和pmatch兩個引數。
reg_newline 識別換行符，這樣'$'就可以從行尾開始匹配，'^'就可以從行的開頭開始匹配。

當我們編譯好正規表示式後，就可以用regexec 匹配我們的目標文字串了，如果在編譯正規表示式的時候沒有指定

cflags

的引數為

reg_newline

，則預設情況下是忽略換行符的，也就是把整個文字串當作乙個字串處理。

執行成功返回０。

regmatch_t 是乙個結構體資料型別，在

regex.h

中定義：

typedef struct  regmatch_t;

成員rm_so 存放匹配文字串在目標串中的開始位置，

rm_eo

存放結束位置。通常我們以陣列的形式定義一組這樣的結構。因為往往我們的正規表示式中還包含子正規表示式。陣列

0單元存放主正規表示式位置，後邊的單元依次存放子正規表示式位置。

int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr, int eflags) compiled 是已經用regcomp函式編譯好的正規表示式。 string 是目標文字串。 nmatch 是regmatch_t結構體陣列的長度。 matchptr regmatch_t型別的結構體陣列，存放匹配文字串的位置資訊。 eflags 有兩個值: reg_notbol 讓特殊字元^無作用

reg_noteol 讓特殊字元＄無作用

當我們使用完編譯好的正規表示式後，或者要重新編譯其他正規表示式的時候，我們可以用這個函式清空compiled指向的

regex_t

結構體的內容，請記住，如果是重新編譯的話，一定要先清空

regex_t

結構體。

void regfree (regex_t *compiled)

當執行regcomp 或者

regexec

產生錯誤的時候，就可以呼叫這個函式而返回乙個包含錯誤資訊的字串。

size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length) errcode 是由regcomp 和 regexec 函式返回的錯誤代號。 compiled 是已經用regcomp函式編譯好的正規表示式，這個值可以為null。 buffer 指向用來存放錯誤資訊的字串的記憶體空間。 length 指明buffer的長度，如果這個錯誤資訊的長度大於這個值，則regerror 函式會自動截斷超出的字串，

但他仍然會返回完整的字串的長度。所以我們可以用如下的方法先得到錯誤字串的長度。

例如： size_t length = regerror (errcode, compiled, null, 0);

測試用例：

#include #include #include int main(int argc, char ** argv)
const char * pregexstr = argv[1];
const char * ptext = argv[2];
regex_t oregex;
int nerrcode = 0;
char szerrmsg[1024] = ;
size_t unerrmsglen = 0;
if ((nerrcode = regcomp(&oregex, pregexstr, reg_extended|reg_nosub)) == 0) 
}unerrmsglen = regerror(nerrcode, &oregex, szerrmsg, sizeof(szerrmsg));
unerrmsglen = unerrmsglen < sizeof(szerrmsg) ? unerrmsglen : sizeof(szerrmsg) - 1;
szerrmsg[unerrmsglen] = '\0';
printf("errmsg: %s\n", szerrmsg);
regfree(&oregex);
return 1;
}

匹配**：

注：\w匹配乙個字元，包含下劃線

正規表示式之C程式中使用正則

C 中使用正規表示式

C 中使用正規表示式初探

在C 中使用正規表示式

正規表示式之C程式中使用正則

C 中使用正規表示式

C 中使用正規表示式初探

在C 中使用正規表示式

相關推薦