關於面試高頻問題之字串匹配問題

1. 字串是什麼

字串（string）是由 n 個字元組成的乙個有序整體（ n >= 0 ）。例如，s = 「beijing」，s 代表這個串的串名，beijing 是串的值。這裡的雙引號不是串的值，作用只是為了將串和其他結構區分開。字串的邏輯結構和線性表很相似，不同之處在於字串針對的是字符集，也就是字串中的元素都是字元，線性表則沒有這些限制。

在實際操作中，我們經常會用到一些特殊的字串：

s =""; // 表示空串，指含有零個字元的串，書面中也可以直接用 ø 表示。 s =" " ;//不是空串，表示空格串，只包含空格的串。空格串中是有內容的，只不過內容是空格，且空格串中可以包含多個空格。

子串：串中任意連續字元組成的字串叫作該串的子串。

原串通常也稱為主串。例如：

a =
"bei"
;b =
"beijing"
;c =
"bjingei"
;

對於字串 a 和 b 來說，由於 b 中含有字串 a ，所以可以稱 a 是 b 的子串，b 是 a 的主串；

而對於 c 和 a 而言，雖然 c 中也含有 a 的全部字元，但不是連續的「bei」，所以串 c 和 a 沒有任何關係。

當要判斷兩個串是否相等的時候，就需要定義相等的標準了。只有兩個串的串值完全相同，這兩個串才相等。根據這個定義可見，即使兩個字串包含的字元完全一致，它們也不一定是相等的。例如b = "beijing"，c = "bjingei"，則 b 和 c 並不相等。

字串的儲存結構與線性表相同，也有順序儲存和鏈式儲存兩種。

在鏈式儲存中，每個結點設定字元數量的多少，與串的長度、可以占用的儲存空間以及程式實現的功能相關。

因此，串的鏈式儲存結構除了在連線串與串操作時有一定的方便之外，總的來說，不如順序儲存靈活，在效能方面也不如順序儲存結構好。

2. 字串的基本操作

2.1 字串的新增操作

字串的新增操作和陣列非常相似，都牽涉對插入字串之後字元的挪移操作，所以時間複雜度是 o(n)。

例如，在字串s1 = "123456"的正中間插入s2 = "abc"，則需要讓 s1 中的「456」向後挪移 3 個字元的位置，再讓 s2 的「abc」插入進來。很顯然，挪移的操作時間複雜度是 o(n)。不過，對於特殊的插入操作時間複雜度也可以降低為 o(1)。這就是在 s1 的最後插入 s2，也叫作字串的連線，最終得到「123456abc」。

2.2 字串的刪除操作

字串的刪除操作和陣列同樣非常相似，也可能會牽涉刪除字串後字元的挪移操作，所以時間複雜度是 o(n)。

例如，在字串s1 = "123456"的正中間刪除兩個字元"34"，則需要刪除「34」並讓 s1 中的「56」向前挪移 2 個字元的位置。很顯然，挪移的操作時間複雜度是 o(n)。不過，對於特殊的插入操作時間複雜度也可以降低為 o(1)。這就是在 s1 的最後刪除若干個字元，不牽涉任何字元的挪移。

2.3 字串的查詢操作

字串的查詢操作，是反映工程師對字串理解深度的高頻考點，這裡需要你格外注意。

例如，字串s = "goodgoogle"，判斷字串t = "google"在 s 中是否存在。需要注意的是，如果字串 t 的每個字元都在 s **現過，這並不能證明字串 t 在 s **現了。當 t = 「dog」時，那麼字元「d」、「o」、「g」都在 s **現過，但他們並不連在一起。

那麼我們如何判斷乙個子串是否在字串**現過呢？這個問題也被稱作子串查詢或字串匹配，接下來我們來重點分析。

子串查詢（字串匹配）:

首先，我們來定義兩個概念，主串和模式串。我們在字串 a 中查詢字串 b，則 a 就是主串，b 就是模式串。我們把主串的長度記為 n，模式串長度記為 m。由於是在主串中查詢模式串，因此，主串的長度肯定比模式串長，n>m。因此，字串匹配演算法的時間複雜度就是 n 和 m 的函式。

假設:

要從主串 s = 「goodgoogle」中找到 t = 「google」子串。根據我們的思考邏輯，則有：

首先，我們從主串 s 第 1 位開始，判斷 s 的第 1 個字元是否與 t 的第 1 個字元相等。

如果不相等，則繼續判斷主串的第 2 個字元是否與 t 的第1 個字元相等。直到在 s 中找到與 t

第乙個字元相等的字元時，然後開始判斷它之後的字元是否仍然與 t 的後續字元相等。

如果持續相等直到 t 的最後乙個字元，則匹配成功。

如果發現乙個不等的字元，則重新回到前面的步驟中，查詢 s 中是否有字元與 t 的第乙個字元相等。

如下圖所示，s 的第1 個字元和 t 的第 1 個字元相等，則開始匹配後續。直到發現前三個字母都匹配成功，但 s 的第 4個字母匹配失敗，則回到主串繼續尋找和 t 的第乙個字元相等的字元。

如下圖所示，這時我們發現主串 s 第 5 位開始相等，並且隨後的 6 個字母全匹配成功，則找到結果。

這種匹配演算法需要從主串中找到跟模式串的第 1 個字元相等的位置，然後再去匹配後續字元是否與模式串相等。顯然，從實現的角度來看，需要兩層的迴圈。第一層迴圈，去查詢第乙個字元相等的位置，第二層迴圈基於此去匹配後續字元是否相等。因此，這種匹配演算法的時間複雜度為 o(nm)。其**如下：

public
voids1(
) jc = j;}if
(jc == t.
length()
-1)}
} system.out.
println
(isfind)
;}

3. 字串匹配演算法的案例

最後我們給出一道面試中常見的高頻題目，這也是對字串匹配演算法進行拓展，從而衍生出的問題，即查詢出兩個字串的最大公共字串。

假設:

有且僅有 1 個最大公共子串。比如，輸入 a = 「13452439」， b = 「123456」。由於字串「345」同時在 a 和 b **現，且是同時出現在 a 和 b 中的最長子串。因此輸出 "345」。

對於這個問題其實可以用動態規劃的方法來解決，關於動態規劃，我們會在後續的課程會講到，所以在這裡我們沿用前面的匹配演算法。

假設字串 a 的長度為 n，字串 b 的長度為 m，可見時間複雜度是 n 和 m 的函式。

首先，你需要對於字串 a 和 b 找到第乙個共同出現的字元，這跟前面講到的匹配演算法在主串中查詢第乙個模式串字元一樣。

然後，一旦找到了第乙個匹配的字元之後，就可以同時在 a 和 b 中繼續匹配它後續的字元是否相等。這樣 a 和 b

中每個互相匹配的字串都會被訪問一遍。全域性還要維護乙個最長子串及其長度的變數，就可以完成了。

從**結構來看，第一步需要兩層的迴圈去查詢共同出現的字元，這就是 o(nm)。一旦找到了共同出現的字元之後，還需要再繼續查詢共同出現的字串，這也就是又巢狀了一層迴圈。可見最終的時間複雜度是 o(nmm)，即 o(nm²)。**如下：

public
voids2(
)if(max_len < m-i+1)
}}}}
system.out.
println
(maxsubstr)
;}

4. 總結

字串的邏輯結構和線性表極為相似，區別僅在於串的資料物件約束為字符集。但是，字串的基本操作和線性表有很大差別：

在字串的基本操作中，通常以「串的整體」作為操作物件；

字串的增刪操作和陣列很像，複雜度也與之一樣。但字串的查詢操作就複雜多了，它是參加面試、筆試常常被考察的內容。

關於面試高頻問題之字串匹配問題

面試經典字串匹配問題

字串高頻面試題。

字串匹配問題

關於面試高頻問題之 字串匹配問題

面試經典 字串匹配問題

字串高頻面試題。

字串匹配問題

相關推薦

關於面試高頻問題之字串匹配問題

面試經典字串匹配問題