字串匹配與KMP演算法

2021-10-09 05:09:00 字數 1631 閱讀 1729

參考:

j.boxer』s blog: the knuth-morris-pratt algorithm in my own words.

在電腦科學中,knuth-morris-pratt字串查詢演算法(簡稱為kmp演算法)可在乙個主文字字串 s 內查詢乙個詞 w 的出現位置。 此演算法通過運用對這個詞在不匹配時本身就包含足夠的資訊來確定下乙個匹配將在**開始的發現,從而避免重新檢查先前匹配的字元。

——from 維基百科

下面,給出乙個模式「abababca」的部分匹配表:

char

:| a | b | a | b | a | b | c | a |

index:|0

|1|2

|3|4

|5|6

|7| value:|0

|0|1

|2|3

|4|0

|1|

如果我有八個字元的模式(在此示例中,假設為「 abababca」),則我的部分匹配表將包含八個單元格。 如果我檢視**中的第8個單元,則對整個模式(「 abababca」)感興趣。 如果我檢視**中的第七個單元格,則只對模式中的前七個字元感興趣(「 abababc」); 第八個(「 a」)無關緊要,不管它來自**。 對於第六個,也同樣如此。。。

下面介紹==「部分匹配表」==是如何產生的。

首先,要了解兩個概念:「字首"和"字尾」。

字首」——指除了最後乙個字元以外,乙個字串的全部頭部組合;

字尾」——指除了第乙個字元以外,乙個字串的全部尾部組合。

"部分匹配值"就是"字首"和"字尾"的最長的共有元素的長度。以abababca為例, 移動位

數=已匹

配的字元

數−對應

的部分匹

配值

移動位數 = 已匹配的字元數 - 對應的部分匹配值

移動位數=已

匹配的字

符數−對

應的部分

匹配值

char:  | a | b | a | b | a | b | c | a |

index: | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |

value: | 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |

假設搜尋的文字如下:

bacbababaabcbab

|||||

abababca

此時已匹配的[ababa] 長度為5,下乙個模式為b,其對應的value==2,所以接下來移動的距離為5−2

=3

5-2=3

5−2=

3. 如下所示:

// x denotes a skip

bacbababaabcbab

xx|||

abababca

KMP演算法 字串匹配

kmp演算法基本思想 我們在用常規的思想做 字串匹配時候是 如 對如 字元如果 t abab 用p ba 去匹配,常規思路是 看 t 第乙個元素 a 是否 和p 的乙個 b 匹配 匹配的話 檢視各自的第二個元素,不匹配 則將 t 串的 第二個元素開始 和 p 的第乙個匹配,如此 一步一步 的後移 來...

KMP字串匹配演算法

kmp核心思想 計算模式串的next陣列,主串的索引在比較的過程中不回朔 ifndef kmp h define kmp h class kmp endif include kmp.h include include include using namespace std int kmp calcu...

KMP字串匹配演算法

在介紹kmp演算法之前,先介紹一下bf演算法。一.bf演算法 bf演算法是普通的模式匹配演算法,bf演算法的思想就是將目標串s的第乙個字元與模式串p的第乙個字元進行匹配,若相等,則繼續比較s的第二個字元和p的第二個字元 若不相等,則比較s的第二個字元和p的第乙個字元,依次比較下去,直到得出最後的匹配...