kmp演算法講解

kmp演算法本身，解決的是判斷模板字串t，是否是字串s的子串的問題。

當只需判斷子串首次出現的位置，或是否包含子串。可以用庫函式strstr（s,t )代替,判斷t是否為s的子串來代替。該函式的返回值是t首次出現的位置，如果t不是s的子串則返回null。該函式的複雜度與kmp類似。

kmp演算法主要分為兩個部分第一部分是求解nexta陣列（注意此處不能寫next因為肯能會和c++的庫變數重名，導致編譯錯誤），第二部分利用nexta陣列進行匹配。

先說為什麼要求nexta陣列。樸素的匹配方法。當發現字串不匹配時，就要重頭開始重新匹配，造成很高的複雜度（m*n）。如下面三組所示（圖一圖二圖三圖四，來自

kmp演算法對模式串進行處理，得出當匹配到不相等的地方時，指向模式串的指標重新指向的位置（樸素法的指標指向的位置是0）。且指向母串的指標始終是不會向左移動的，及只向右移動。當發現不匹配時利用nexta陣列產生的效果。如圖四所示。只有j改變了i不動，再次判斷。使得複雜度是線性的。

那麼nexta陣列的含義是什麼呢？

設進行處理的字串為s。nexta[i] = k.k是使得s[0...k-1] == s[i - k,i - 1]成立的最大值。

也就是求s的字首，和以i-1結尾的字尾的最大值。

這種字尾等於字首的模式保證移動是合適的

那麼如何求解nexta陣列呢？

此處借鑑「北京小王子」的方法

下面我們看乙個彩圖：

下面我們用數學歸納法來解決這個填值的問題。

這裡我們借鑑數學歸納法的三個步驟：

1、初始狀態

2、假設第j位以及第j位之前的我們都填完了

3、推論第j+1位該怎麼填

初始狀態我們稍後再說，我們這裡直接假設第j位以及第j位之前的我們都填完了。也就是說，從上圖來看，我們有如下已知條件：

next[j] == k;

next[k] == 綠色色塊所在的索引;

next[綠色色塊所在的索引] == 黃色色塊所在的索引;

這裡要做乙個說明：圖上的色塊大小是一樣的（沒騙我？好吧，請忽略色塊大小，色塊只是代表陣列中的一位）。

1.由"next[j] == k;"這個條件，我們可以得到a1子串 == a2子串（根據next陣列的定義，前字尾那個）。

2.由"next[k] == 綠色色塊所在的索引;"這個條件，我們可以得到b1子串 == b2子串。

3.由"next[綠色色塊所在的索引] == 黃色色塊所在的索引;"這個條件，我們可以得到c1子串 == c2子串。

4.由1和2(a1 == a2，b1 == b2)可以得到b1 == b2 == b3。

5.由2和3(b1 == b2， c1 == c2)可以得到c1 == c2 == c3。

6.b2 == b3可以得到c3 == c4 == c1 == c2

上面這個就是很簡單的幾何數學，仔細看看都能看懂的。我這裡用相同顏色的線段表示完全相同的子陣列，方便觀察。

接下來，我們開始用上面得到的條件來推導如果第j+1位失配時，我們應該填寫next[j+1]為多少？

next[j+1]即是找str從0到j這個子串的最大前字尾：

我們已知a1 == a2，那麼a1和a2分別往後增加乙個字元後是否還相等呢？我們得分情況討論：

(1)如果str[k] == str[j]，很明顯，我們的next[j+1]就直接等於k+1。

用**來寫就是next[++j] = ++k;

(2)如果str[k] != str[j]，那麼我們只能從已知的，除了a1，a2之外，最長的b1，b3這個前字尾來做文章了。（為什麼b1,b3是最長的？假設它們不是最長的，還有更長的next[k]就等於更長的了）

那麼b1和b3分別往後增加乙個字元後是否還相等呢？

由於next[k] == 綠色色塊所在的索引，我們先讓k = next[k]，把k挪到綠色色塊的位置。如果還不相等就一直往前挪。挪到開頭會做特殊處理。

由於j+1位之前的next陣列我們都是假設已經求出來了的，因此，上面這個遞迴總會結束，從而得到next[j+1]的值。

我們唯一欠缺的就是初始條件了：

next[0] = -1, k = -1, j = 0

另外有個特殊情況是k為-1時，不能繼續遞迴了，此時next[j+1]應該等於0，即把j回退到首位。

即 next[j+1] = 0; 也可以寫成next[++j] = ++k

獲得nexta的**如下

//定義nexta大小與s相同
void getnexta(char s)
else}}

下面談談

第二部分利用nexta陣列進行匹配。

同樣設兩個指標i，j初始值都為零。假設j為模式串t的指標，i為母串s的指標。當s[i] ==t[j]時，顯然i ++,j++.當j= -1時j要重新等於零，i也要向右移一位（因為這個位置已經與模式串全部試過了）除了這兩種情況之外，剩餘的狀況及兩個字串不匹配且並未

挪到開頭之前，則j = nexta[j].

以下是kmp**

int kmp(char s,char t)//t模式串，s母串.此種為返回首次匹配的位置，不能匹配則返回-1.
else
if(j == m)//根據題目要求改變
}return -1;
}

kmp演算法講解

KMP演算法講解

擴充套件kmp演算法講解

KMP演算法入門講解

kmp演算法講解

KMP演算法講解

擴充套件kmp演算法講解

KMP演算法入門講解

相關推薦