最長公共子串行問題 LCS

2021-06-23 01:50:52 字數 4051 閱讀 6070

最長公共子串行問題(lcs)

【問題】求兩字串行的最長公共字元子串行

問題描述:字串行的子串行是指從給定字串行中隨意地(不一定連續)去掉若干個字元(可能乙個也不去掉)後所形成的字串行。令給定的字串行x=

「x0,x1

,…,xm-1」,序列y=

「y0,y1

,…,yk-1」是x

的子串行,存在x

的乙個嚴格遞增下標序列,i1

,…,ik-1>

,使得對所有的j=0

,1,…,k-1

,有xij=yj

。例如,x=

「abcbdab

」,y=

「bcdb

」是x的乙個子串行。

思路:

考慮最長公共子串行問題如何分解成子問題,設a=

「a0,a1

,…,am-1」,b=

「b0,b1

,…,bm-1」,並z=

「z0,z1

,…,zk-1」為它們的最長公共子串行。不難證明有以下性質:(1)

如果am-1=bn-1

,則zk-1=am-1=bn-1

,且「z0

,z1,…,zk-2」是「a0

,a1,…,am-2」和「b0

,b1,…,bn-2」的乙個最長公共子串行;(2)

如果am-1!=bn-1

,則若zk-1!=am-1

,蘊涵「z0

,z1,…,zk-1」是「a0

,a1,…,am-2」和「b0

,b1,…,bn-1」的乙個最長公共子串行;(3)

如果am-1!=bn-1

,則若zk-1!=bn-1

,蘊涵「z0

,z1,…,zk-1」是「a0

,a1,…,am-1」和「b0

,b1,…,bn-2」的乙個最長公共子串行。

這樣,在找a

和b的公共子串行時,如有am-1=bn-1

,則進一步解決乙個子問題,找「a0

,a1,…,am-2」和「b0

,b1,…,bm-2」的乙個最長公共子串行;如果am-1!=bn-1

,則要解決兩個子問題,找出「a0

,a1,…,am-2」和「b0

,b1,…,bn-1」的乙個最長公共子串行和找出「a0

,a1,…,am-1」和「b0

,b1,…,bn-2」的乙個最長公共子串行,再取兩者中較長者作為a

和b的最長公共子串行。

求解:

引進乙個二維陣列c,用c[i][j]記錄x[i]與y[j] 的lcs 的長度,b[i][j]記錄c[i][j]是通過哪乙個子問題的值求得的,以決定搜尋的方向。

我們是自底向上進行遞推計算,那麼在計算c[i,j]之前,c[i-1][j-1],c[i-1][j]與c[i][j-1]均已計算出來。此時我們根據x[i] = y[j]還是x[i] != y[j],就可以計算出c[i][j]。

問題的遞迴式寫成:

回溯輸出最長公共子串行過程:

演算法分析:

由於每次呼叫至少向上或向左(或向上向左同時)移動一步,故最多呼叫(m + n)次就會遇到i = 0或j = 0的情況,此時開始返回。返回時與遞迴呼叫時方向相反,步數相同,故演算法時間複雜度為θ(m + n)。

#include #include using namespace std;

int max(int a,int b)

int main()};

int i = 0;

int j = 0;

for(i = 1; i <= x_len; i++)

else}}

for(i = 0 ; i <= x_len; i++)

cout << endl;

}for(i = x_len, j = y_len; i >= 1 && j >= 1;)

else

else}}

cout << endl;

system("pause");

return 0;

}

輸出結果為:a   b   c   b   (倒序輸出的),應該儲存起來倒序輸出

附遞迴寫法**:

/*

題目描述:遞迴方法求最長公共子串行的長度

採用技術:1)設有字串a[0...n],b[0...m],下面就是遞推公式。

當陣列a和b對應位置字元相同時,則直接求解下乙個位置;

當不同時取兩種情況中的較大數值。

用遞迴的方法優點是程式設計簡單,容易理解。缺點是效率不高,

有大量的重複執行遞迴呼叫,而且只能求出最大公共子串行的長度,

求不出具體的最大公共子串行。

開發者:geefine

開發日期:20140320 */

#include#includechar a[30],b[30];

int lena,lenb;

int lcs(int,int);///兩個引數分別表示陣列a的下標和陣列b的下標

int main()

int lcs(int i,int j)

附動態規劃寫法**:

/*

題目描述:動態規劃求最長公共子串行的長度

採用技術:動態規劃採用二維陣列來標識中間計算結果,避免重複的計算來提高效率。

最長公共子串行的長度的動態規劃方程

設有字串a[0...n],b[0...m],下面就是遞推公式。字串a對應的是二維陣列num的行,

字串b對應的是二維陣列num的列。

另外,採用二維陣列flag來記錄下標i和j的走向。

數字"1"表示,斜向下;數字"2"表示,水平向右;數字"3"表示,豎直向下。

這樣便於以後的求解最長公共子串行。

開發者:geefine

開發日期:20140320 */

#include#includechar a[500],b[500];

char num[501][501]; ///記錄中間結果的陣列

char flag[501][501]; ///標記陣列,用於標識下標的走向,構造出公共子串行

void lcs(); ///動態規劃求解

void getlcs(); ///採用倒推方式求最長公共子串行

int main()

void lcs()

else if(num[i][j-1]>num[i-1][j])

else}}

}void getlcs()

else if(flag[i][j]==2) ///如果是斜向右標記

j--;

else if(flag[i][j]==3) ///如果是斜向下標記

i--;

}for(i=k-1;i>=0;i--)

printf("%c",res[i]);

}

最長公共子串和最長公共子串行的區別。

最長公共子串

longest common substirng

)和最長公共子串行

longest common subsequence

,lcs

)的區別為:子串是串的乙個連續的部分,子串行則是從不改變序列的順序,而從序列中去掉任意的元素而獲得新的序列;

也就是說,

子串中字元的位置必須是連續的,子串行則可以不必連續。

子串行(subsequence)

的概念不同於串的子串。它是乙個不一定連續但按順序取自字串

x中的字串行。

n例如:串

"aaag"

就是串「

cgataattgaga」

的乙個子串行。

最長公共子串行(LCS)問題

問題描述 見演算法導論p208 p209 前提概念 給定乙個序列x x1,x2,xm 對i 0,1,m,記x的第i個字首為xi x1,x2,xi 故xm x,而x0是個空序列 乙個給定序列的子串行就是該序列去掉0個或多個元素 不一定連續 如bcdb是abcbdab的乙個子串行 基於以上定義,最長公共...

最長公共子串行問題LCS

乙個給定序列的子串行是指在原序列順序不變的基礎上刪去若干元素後得到的序列。給定兩個序列x和y,當乙個序列z既是x的子串行又是y的子串行時,稱z序列為x和y 的公共子串行。例如,x a,b,c,b,d,a,b y b,d,c,a,b,a 則序列 b,c,a 是x和y的乙個公共子串行,但不是x和y的最長...

最長公共子串行 LCS 問題

前言 學習過的知識,只要不經常使用就會忘記,所以在此寫部落格,記錄下來,方便自己,也可能有利於他人。最長公共子串行 lcs 問題。1.什麼是最長公共子串行?最長公共子串行,英文縮寫為lcs longest common subsequence 其定義是,乙個序列 s 如果分別是兩個或多個已知序列的子...