re2正規表示式引擎學習（三）

prog.h 和 prog.cc定義了幾種基本的資料結構：

bitmap（用bit位來標記某個元素的值）,主要用於bytemap字元到字元集合的計算，劃分字元區間：[00-ff],[61-61],[62-62],[63-63]

instop（幾種基本的指令操作碼，與inst對應）,

emptyop（^,$,\a,\z,\b,\b）,

inst表示指令，所有的正規表示式都可以由這幾種指令所構成（類似nfa的幾種基本結構，複雜的大型結構由多種基本結構復合構成）inst定義了若干函式構建對應的基本結構

anchor,

matchkind, 匹配時的貪婪與否

prog compile之後的型別，類似於nfa,

compile.cc檔案

frag 結構，多個inst復合的一種結構，包括開始inst和結束inst，與patchlist的函式一起使用對多個inst結合為乙個大的frag

encoding 編碼方式，專案中使用的應該是kencodinglatin1編碼方式

compiler

後序遍歷構建的regexp結構（如ab*c|d -> ab*.c.d|），每讀取乙個元素，建立對應的基本inst結構，當遇到符號要進行歸併時，建立對應的inst結構並將其中的out，out1等替換為對應的frag結構，即多個小的frag組合為乙個大的frag。完成後，最終應該為乙個大的frag結構

compiler中使用遍歷語法樹regexp的walker來逐步遍歷語法樹，轉換為prog形式。

使用walker遍歷語法樹regexp，每個節點的型別為frag（結構）。掃瞄節點對應的所有子樹，並根據其操作符與父節點結合成為新的節點，取代原來的節點樹，一直持續直到語法樹中只剩下乙個節點frag。這個過程是在compiler中進行的，compiler根據遍歷的狀態，動態的為掃瞄到的每乙個狀態分配空間，記錄狀態數。當完成整個掃瞄過程後，將最終的狀態數等資訊存入prog中，銷毀compiler。完成語法樹regexp到prog的轉換。compiler只在過程中使用，完成轉換後就銷毀

prog轉換為nfa進行匹配，匹配時，q0_,q1_分別作為當前的狀態集合和下乙個狀態集合，對runq狀態集合，匹配字元並轉移到狀態集合nextq。step函式來完成匹配並轉移狀態集合的功能(狀態集合中的所有狀態runq，分別接受字元c，p指標向前移動一位，並將新狀態和新狀態通過空邊可以到達的狀態加入到狀態集nextq中。addtothreadq函式，inst的id，及後通過空邊可以到達的狀態加入到狀態集threadq中)。然後銷毀runq，置換runq和nextq，重新開始匹配過程。

re2正規表示式引擎學習（三）

re正規表示式2

正規表示式 RE

re正規表示式

re2正規表示式引擎學習（三）

re正規表示式2

正規表示式 RE

re正規表示式

相關推薦