KMP 字串匹配演算法講解

kmp 演算法全稱 knuth-morris-pratt 匹配演算法，常用於字串匹配，時間複雜度 o(n + m)，空間複雜度 o(n + m)，其中 n 為文字串的長度，m 為模式串的長度。

舉個例子，令文字串 t = 「abaabaaabaaaabaaaaab」，模式串 p = 「aabaaaab」，當 t 已經匹配到第8位，p 已經匹配到第6位，即 t[3..8] = p[1..6] 時，因為 t[9] ≠ p[7]，故匹配失敗。

對於樸素的匹配演算法而言，此時 p 的下標應歸 1，t 的下標應設成 4 重新匹配。但是，在這種情況下，由於 t[3..8] 已知，我們便可以通過找出p[1..6]的乙個字首和 t[3..8] 的乙個字尾使其相等，即找出 p[1..6] 的乙個字首和 p[1..6] 的乙個字尾使其相等，在這個例子中 p[1..6] = 「aabaaa」，找出的相等的最長字首和最長字尾（不包括自身）為「aa」，這個過程可以在預處理中進行，故在進行下一輪匹配時t下標不變，p 下標改為 3 繼續匹配，因為 t[7..8] = p[5..6] = p[1..2]。

推廣到一般情況，若 t[i-q..i-1] = p[1..q]，此時 t[i] ≠ p[q + 1]，則我們可以計算出 p[1..q] 不包括自身的相等最長字首和最長字尾的長度，記為 π[q]。如此一來，因為 t[i-π[q]..i-1] = p[q-π[q]+1..q] = p[1.. π[q]]，匹配時可以不更改 t 下標，使 p 下標更改為 π[q]，繼續匹配 t[i] 和 p[π[q]]。由於 t 下標不降，故該過程的時間複雜度近似為 o(n)。

現在，我們有乙個問題，那就是如何查詢模式串的乙個字首的相等最長字首和最長字尾的長度（不包括自身），即構建 π 陣列。這個過程可以放在預處理中進行。為了構建 π[i]，我們可以用模式串與自身相匹配的方法。仍以前文為例，模式串 p = 「aabaaaab」，當 p 分別匹配到第 6 位和第 2 位時，即 p[5..6] = p[1..2]，因為 p[7] ≠ p[3]，由於 p[6] = p[2] = p[1]，所以下一輪匹配時 7 下標不變，3下標改為 π[2]+1（即為2）繼續匹配。

推廣到一般情況，當p分別匹配到i下標和q下標時，即 p[i-q..i-1] = p[1..q]，若 p[i] ≠ p[q+1]，則因為 p[i-q+π[q]-1..i-1] = p[π[q]..q] = p[1..q-π[q]+1]，所以在下一輪匹配中i不變，匹配 p[i] 和 p[π[q]+1]。由於 i 不降，故該過程的時間複雜度近似為 o(m)。

kmp 演算法的偽**如下：

π[1] := q := 0
n := t . length
m := p . length
for i := [2 , m]
while (q > 0 && p[i] ≠ p[q + 1])
q := π[q]
if (p[i] = p[q + 1])
q := q + 1
π[i] := q
q := 0
for i := [1 , n]
while (s > 0 && t[i] ≠ p[q + 1])
q := π[q]
if (t[i] = p[q + 1])
q := q + 1
if (m = q)
print i-m+1
q := π[q]

當 p = 「aabaaaab」時，π 陣列取值如下：

ip[i]

π[i]1a

02a1

3b04

a15a

26a2

7a28

b3說到這裡，我們不禁想：由於從表面看，這個演算法裡存在二重迴圈，這樣能達到線性時間複雜度嗎？

我們說，其實是可以的。觀察 π 陣列的構造過程，我們可以發現對於一切 i = [1, m]，一定有 i > π[i]，此時無論執不執行 while 迴圈則必有 π[i] ≤ π[i - 1] + 1，在最壞情況下最多執行 m 次 while 迴圈，而此時必有 i = m 。也就是說，π 陣列的構造最多迴圈 2m 次。同理可得，匹配過程最多迴圈 2n 次。於是 kmp 演算法的時間複雜度可近似為 o(m + n) 。

下面是幾道 kmp 演算法的習題：poj1961，poj2406，poj2752，poj3461。

KMP 字串匹配演算法講解

KMP演算法字串匹配

KMP字串匹配演算法

KMP字串匹配演算法

KMP 字串匹配演算法講解

KMP演算法 字串匹配

KMP字串匹配演算法

KMP字串匹配演算法

相關推薦

KMP演算法字串匹配