字串匹配的KMP演算法

2022-04-07 17:21:22 字數 1878 閱讀 5016

字串匹配是計算機的基本任務之一。

舉例來說,有乙個字串」bbc abcdab abcdabcdabde」,我想知道,裡面是否包含另乙個字串」abcdabd」?

這種演算法不太容易理解,網上有很多解釋,但讀起來都很費勁。直到讀到jake boxer的文章,我才真正理解這種演算法。下面,我用自己的語言,試圖寫一篇比較好懂的kmp演算法解釋。

1.首先,字串」bbc abcdab abcdabcdabde」的第乙個字元與搜尋詞」abcdabd」的第乙個字元,進行比較。因為b與a不匹配,所以搜尋詞後移一位。

2.因為b與a不匹配,搜尋詞再往後移。

3.就這樣,直到字串有乙個字元,與搜尋詞的第乙個字元相同為止。

4.接著比較字串和搜尋詞的下乙個字元,還是相同。

5.直到字串有乙個字元,與搜尋詞對應的字元不相同為止。

6.這時,最自然的反應是,將搜尋詞整個後移一位,再從頭逐個比較。這樣做雖然可行,但是效率很差,因為你要把」搜尋位置」移到已經比較過的位置,重比一遍。

7.乙個基本事實是,當空格與d不匹配時,你其實知道前面六個字元是」abcdab」。kmp演算法的想法是,設法利用這個已知資訊,不要把」搜尋位置」移回已經比較過的位置,繼續把它向後移,這樣就提高了效率。

8.怎麼做到這一點呢?可以針對搜尋詞,算出一張《部分匹配表》(partial match table)。這張表是如何產生的,後面再介紹,這裡只要會用就可以了。

9.已知空格與d不匹配時,前面六個字元」abcdab」是匹配的。查表可知,最後乙個匹配字元b對應的」部分匹配值」為2,因此按照下面的公式算出向後移動的位數:

移動位數 = 已匹配的字元數 - 對應的部分匹配值

因為 6 - 2 等於4,所以將搜尋詞向後移動4位。

10.因為空格與c不匹配,搜尋詞還要繼續往後移。這時,已匹配的字元數為2(」ab」),對應的」部分匹配值」為0。所以,移動位數 = 2 - 0,結果為 2,於是將搜尋詞向後移2位。

11.因為空格與a不匹配,繼續後移一位。

12.逐位比較,直到發現c與d不匹配。於是,移動位數 = 6 - 2,繼續將搜尋詞向後移動4位。

13.逐位比較,直到搜尋詞的最後一位,發現完全匹配,於是搜尋完成。如果還要繼續搜尋(即找出全部匹配),移動位數 = 7 - 0,再將搜尋詞向後移動7位,這裡就不再重複了。

14.下面介紹《部分匹配表》是如何產生的。

首先,要了解兩個概念:」字首」和」字尾」。 「字首」指除了最後乙個字元以外,乙個字串的全部頭部組合;」字尾」指除了第乙個字元以外,乙個字串的全部尾部組合。

15.「部分匹配值」就是」字首」和」字尾」的最長的共有元素的長度。以」abcdabd」為例,

- 「a」的字首和字尾都為空集,共有元素的長度為0;

- 「ab」的字首為[a],字尾為[b],共有元素的長度為0;

- 「abc」的字首為[a, ab],字尾為[bc, c],共有元素的長度0;

- 「abcd」的字首為[a, ab, abc],字尾為[bcd, cd, d],共有元素的長度為0;

- 「abcda」的字首為[a, ab, abc, abcd],字尾為[bcda, cda, da, a],共有元素為」a」,長度為1;

- 「abcdab」的字首為[a, ab, abc, abcd, abcda],字尾為[bcdab, cdab, dab, ab, b],共有元素為」ab」,長度為2;

- 「abcdabd」的字首為[a, ab, abc, abcd, abcda, abcdab],字尾為[bcdabd, cdabd, dabd, abd, bd, d],共有元素的長度為0。

16.「部分匹配」的實質是,有時候,字串頭部和尾部會有重複。比如,」abcdab」之中有兩個」ab」,那麼它的」部分匹配值」就是2(」ab」的長度)。搜尋詞移動的時候,第乙個」ab」向後移動4位(字串長度-部分匹配值),就可以來到第二個」ab」的位置。

KMP演算法 字串匹配

kmp演算法基本思想 我們在用常規的思想做 字串匹配時候是 如 對如 字元如果 t abab 用p ba 去匹配,常規思路是 看 t 第乙個元素 a 是否 和p 的乙個 b 匹配 匹配的話 檢視各自的第二個元素,不匹配 則將 t 串的 第二個元素開始 和 p 的第乙個匹配,如此 一步一步 的後移 來...

KMP字串匹配演算法

kmp核心思想 計算模式串的next陣列,主串的索引在比較的過程中不回朔 ifndef kmp h define kmp h class kmp endif include kmp.h include include include using namespace std int kmp calcu...

KMP字串匹配演算法

在介紹kmp演算法之前,先介紹一下bf演算法。一.bf演算法 bf演算法是普通的模式匹配演算法,bf演算法的思想就是將目標串s的第乙個字元與模式串p的第乙個字元進行匹配,若相等,則繼續比較s的第二個字元和p的第二個字元 若不相等,則比較s的第二個字元和p的第乙個字元,依次比較下去,直到得出最後的匹配...