字串匹配演算法

字串匹配定義：文字是乙個長度為n的陣列t[1…n], 模式是以個長度m<=n的陣列p[1…m]

p和t的元素都是有限字母表∑中的字元

１.字串樸素匹配

也就是蠻力匹配，每次移動乙個步長，然後匹配，時間複雜度o((n-m+1)m)

２.rabin-karp演算法

rabin-karp演算法的思想是將模式串p表達為乙個值，這樣每次進行串匹配的時候，只需要比較這個值就可以了，而不需要對m個字串進行m次比較。

核心思想是用乙個值來代替整個字串來參與比較

比如以十進位制為例，文字串為'1234567'，模式串為'234'(其值為234),當搜尋指標指向第乙個字元'1'時,計算出串'123'的值為123，直接與模式串的值234進行比較，不匹配，那麼就表明此時模式串匹配失敗，將搜尋指標移向下乙個字元。

如何用　值　來代表　字串？

想象一下將字串轉換為數值的情形

計算串"123"的值：1*100+2*10+3*1 = 123

串"6789"的值：6*1000+7*100+8*10+9*1 = 6789

十進位制字母表只有0-9，因此選取基數10可以完成的表述整個串

對於ascii字母表，則可以選取基256。

因此，將乙個串表述成乙個值是可行的，其時間複雜度為o(m)，其中m為串的長度。

對於文字串t[1…n]，可以在o(m)的時間複雜度計算出前m個字元t[1…m]的值。

而t[2…m+1],t[3…m+2],...t[n-m+1…n]的值，可以在o(n-m)的時間計算出來（動態規劃）。

新的問題：值太大，溢位？

通過乙個值來表述乙個串以後，如果串比較長，那麼這個表述串的這個值自然會比較大，而且，可能會溢位。很自然的解決辦法是對這個值取模，將它限制到乙個固定的範圍內。

那麼問題又來了，模運算是多對一對映，比如，55和66對11取模後都是0，但是它們的值並不相等。

因此，取模運算會導致乙個新的問題，就是偽命中。也就是，模運算匹配，但串本身並不匹配。

可以顯式的檢查t[i…m+i]與p[1…m]是否相等。

假設計算的值對q取模，倘若q夠大，那麼t[i…m+i]的值與p[1…m]的值發生偽命中的機率就會比較低，那麼額外的測試時間就足夠低了。

這樣看來，對字串求值，通過值來進行串的匹配，更像乙個啟發式的思想，對文字串進行一次過濾，然後在進行逐字匹配。

由於每次在判定模式串是否匹配時，只需要進行一次比較，因此匹配過程中的期望時間複雜度為o(n-m+1)，這個時間沒有加上對模式串求值的時間o(m)。最壞是時間複雜度也為o((n-m+1)m)，也就是每一次唯一產生的值都與串的值取模相等，但實際情況下比蠻力匹配要快許多。

3.fa

針對模式串，構造乙個有窮自動機，那麼，有窮自動機接收的語言就是該模式串匹配的句子。

對於每個模式串，都存在乙個字串匹配自動機，必須在預處理階段，根據模式構造出相應的自動機後，才能利用它來搜尋字串。構造自動機的核心是構造其狀態轉移函式。

這種方法功能比較強大，因為它可以搜尋以正則式表達的模式串。而其他演算法則不能。

4.kmp

先看乙個例子。文字串t為bababaabcccb,模式p為ababaca

如圖所示。此時，紅色的5個字元ababa已經匹配，

從字元c開始不匹配。這時候開始移動模式p。到底該移動幾個字元呢？樸素的字串匹配移動一位，然後重新開始比較。但是根本模式本身的資訊，移動s'=s+1是無效的，s'=s+2才有可能導致乙個成功的匹配。因為模式p的前5個字元裡，ababa的前面三個字元aba同時也是ababa的字尾。也就是說，p的最長字首同時也是p5的的乙個真字尾。這些資訊是可以被預先計算的，用字首函式π來表示。在位移s處有q個字元成功匹配，那下乙個可能有效的位移為s'=s+(q-π[q]).

首先假定文字串從第s個位置開始與模式匹配，共匹配q個字元，匹配第q+1個字元時失敗，即滿足：p[1…q]=t[s+1…s+q]，那麼，我們的目標就是，尋找乙個位移s'，使得移動1,2,..s'-1都是不可能導致與模式p匹配成功，只有移動s'，才有可能使得與模式p匹配成功。那該怎麼尋找這個位移呢？關鍵就在這個模式本身了。

如果p[1…q]已經匹配成功，在q+1處匹配失敗，倘若已知p[1…k]=p[q-k+1…q]（k這個k就包含了模式串本身的資訊。它預先被計算，被定義為字首函式。定義如下：

模式p的字首函式是函式π(0,1,2,...,m-1}→並滿足

π[q]=max;

解釋一下，如果字元x在模式p中沒有出現，那麼從字元x開始的m個文字顯然不可能與p匹配成功，直接全部跳

過該區域即可。如果x在模式p中出現，則以該字元進行對齊。

2) 好字尾規則

p中的某一子串p[j-s+1..m-s]與已比較部分p[j+1..m]相同，可讓p右移s位。

delta2的定義如下：

delta2（j）=

（這部分還看得暈乎暈乎的，下次在來完善）

貼個bm例子

移動的時候，取兩者較大值作為位移值移動。

bm演算法在字母表很大，模式串很長時尤其適用，能夠顯著提高匹配速度。

實際應用中，bm演算法比同樣具有o(m+n)時間複雜度的kmp演算法效率高出3-5倍。具體來說，bm演算法的預處理階段的時間空間複雜性是o(m+n)，查詢階段的時間複雜性是o(mn)，最好情況下的效能是o(n/m)。

參考：前面幾個演算法主要參考《演算法導論》

bm演算法參考

字串匹配演算法

字串匹配演算法 字串匹配演算法總覽

字串匹配演算法

字串匹配演算法

相關推薦

字串匹配演算法字串匹配演算法總覽