KMP演算法的學習和理解

首先kmp演算法是主要用來字串匹配

打個比方，比如現在有字串"bbc abcdab abcdabcdabde",我想要知道這個字串是否包含"abcdabd",那麼正常的匹配就是用搜尋詞"abcdabd"從字串"bbc abcdab abcdabcdabde"的"b"開始一直匹配。

如果首字母不對，那麼就開始往後移

當發現從綠色的字母"a", "bbc abcdab abcdabcdabde"開始匹配，

接著,匹配上後就開始繼續匹配,如此類推

一直到匹配到b都匹配成功

但是現在搜尋詞"abcdabd",到匹配"d"的時候就匹配失敗了

於是kmp演算法是利用已知的資訊(已經匹配成功的部分字串),把搜尋詞整段移，這樣就不從把「搜尋詞」移回已經比較過的地方，大大增加了效率

那應該要怎樣移呢，既保證不錯過符合的字串又要保證效率

那麼就誕生了《部分匹配表》,和公式

"部分匹配值"就是"字首"和"字尾"的最長的共有元素的長度。

對應的部分匹配值這樣算:

我們剛剛的搜尋詞匹配成功的字串是"

abcdab"

那麼可以出現的字串方式是："a","ab","abc","abcd","abcda","abcdab"

"a"的字首和字尾都是空集共有元素的長度=0;

"ab"的字首是:[a],字尾是:[b] 共有元素的長度=0;

"abc"的字首是:[a , ab],字尾是:[bc , c] 共有元素的長度=0;

"abcd"的字首是:[a , ab , abc],字尾是:[bcd , bc , c] 共有元素的長度=0;

"abcda"的字首是：[a , ab , abc , abcd ],字尾是:[bcda , cda , da , a] 共有元素為"a"，長度為1

"abcdab"的字首是:[a , ab , abc , abcd , abcda ],字尾是:[bcdab , cdab , dab , ab , a] 共有元素為"a"，"ab" 長度為2

因為 6 - 2 等於4，所以將搜尋詞向後移動4位。

由於a與空格不匹配所以繼續向後移一位

所以現在已匹配值是6,部分匹配值是2，(上面已經列出了abcdab的共有元素為"a"，"ab" 長度為2)，那麼繼續移動4位

完全匹配，包含

其實通過以上的例子，可以發現，

"部分匹配"的實質是，有時候，字串頭部和尾部會有重複。比如，"abcdab"之中有兩個"ab"，那麼它的"部分匹配值"就是2（"ab"的長度）。搜尋詞移動的時候，第乙個"ab"向後移動4位（字串長度-部分匹配值），就可以來到第二個"ab"的位置。