字尾自動機

字尾自動機只能對乙個字串建立（多個字串需要廣義字尾自動機），處理關於子串、字典序、出現次數等一系列問題的自動機。

字尾自動機的本質是對具有相同資訊的子串（這裡我們把這些子串看作一種狀態）進行壓縮（注意：這裡字尾自動機對所有子串都進行了維護）。並且這個自動機具有圖的結構，用來支援狀態之間的轉移，也就是乙個子串加上乙個字元會到另乙個子串（前提是這個子串要在這個字串中存在），還有會根據子串在原串**現的位置的不同而形成一種樹狀關係（是不是感覺很高階，看不懂，沒關係，我們先了解完演算法之後在去看就會）

也可以新增一些其它資訊（也就是在一開始自動機裡並沒有這些資訊），這些是對字尾自動機能力的擴充套件，不過一般不會有太大的擴充套件。

先給出對字尾自動機最為重要的乙個集合——$endpos(t)$。它表示狀態$t$在原字串中所有結束位置，例對於$abcbc$，我們有 $endpos(bc)=\$。

我們對具有相同資訊的子串就是根據$endpos$的不同而劃分的，我們把$endpos$相同的看作為乙個等價類。

為什麼這麼劃分呢，因為它有許多特殊的性質來方便我們處理字串中的子串。

現在這三個性質還只是停留在理論上，我們還不能直接體現在演算法（因為如果你對每乙個維護$endpos$的話，空間...）上。所以，乙個重要的來輔助表達出$endpos$的陣列——$link$鏈結來了。

它是幹什麼的呢？

通過上面的性質，我們已經知道，狀態 $v$ 對應於具有相同 $endpos $的等價類。我們如果定義 $w$ 為這些字串中最長的乙個，則所有其它的字串都是 $w$ 的字尾。

我們還知道字串 $w$ 的前幾個字尾（按長度降序考慮）全部包含於這個等價類，且所有其它字尾（至少有乙個——空字尾）在其它的等價類中。我們記 $t$ 為最長的這樣的字尾，然後將 $v$ 的字尾鏈結連到 $t$ 上。

這個$link$也擁有一些優秀的性質：

到這裡，我們發現$link$鏈結的存在，把維護了整個自動機的乙個樹的形態，而結合性質三我們知道每個狀態都可以用乙個長度區間$[x,y]$表示乙個$endpos$等價類(設狀態$v$最長的子串為$s(|s|=y)$)，表示的是$s[1\sim x],s[1\sim x+1],s[1\sim x+2]...s[1\sim y-1],s$這些子串，並且$link[v]$對應的區間的右端點一定是$x-1$，所以我們可以就用以下兩個變數大概表示$endpos$：

這樣通過$link$和$len$，我們能夠表達出該$endpos$對應的長度區間$[len[link[v]]+1,len[v]]$。

這也是字尾自動機對子串壓縮的奧秘，現用endpos表示所有的子串，然後通過$endpos$的性質，轉化為一段長度區間，最後通過$link$和$len$表達出來（所以$link$的實質就在這），所以，我們在字尾自動機裡用到$link$和$len$的時候（雖然有時候$link/len$也會單獨運用在題目中），要想到其背後的$endpos$。

上面是大段對endpos的解釋，是為了更好理解下面對字尾自動機的構造，我們會通過$endpos$用極少的狀態(最大為$2n-1$)表示所有的子串

在構造中，我們要維護$link,len,next$（用來實現狀態之間的轉移）。

這$n$個子串中，一定會有子串對應狀態的$endpos=\$（至少$s[1\sim n]$是），所以這裡加入乙個新狀態，設這個新狀態為$p$，所以$len[p]=n$

如果這$n$個子串都沒在原串（$s[1\sim n-1]$）**現過，對$endpos[p]$的更新就沒了。

而如果有一段（$s[x\sim n]...s[n\sim n]$）已經出現過，那麼我們就要得到表示$s[x\sim n]$這個字串的狀態$y$，並且用這個$y$更新$link[p]$。

為啥不能直接更新呢？

那麼我們怎麼得到這個$y$呢？

考慮$s[x\sim n]$可以拆解為$s[x\sim n-1]+s[n]$，而$s[x\sim n-1]$正是$s[1\sim n-1]$的字尾，那麼根據性質六，我們就可以在$s[1\sim n-1]$對應的狀態（設為$last$）向祖先跳，如果存在$x\in last$的父親，且$next[x][s[n]]!=0$。那麼$x$最長的子串就表示$s[x\sim n-1]$，$y$就是$next[x][s[n]]$。否則$link[x]=$初始狀態。

如果要複製$y$之後為啥要更新$s[x\sim n-1]$對應狀態及其祖先的轉移呢?

因為$endpos[clone]$已經更新了（多了$\$），與$endpos[y]$不同了，那麼所有本應該轉移到$y$，且滿足長度小於$len[clone]-1$的子串都應該更新為$clone$，而我們發現這些子串都是在$x$或$x$的祖先中（就是$s[x\sim n-1]$對應狀態及其祖先），更新它們即可。

現在我們講新子串帶來的轉移的更新。

首先，對於$s[1\sim n],s[2\sim n],s[3\sim n]...s[n\sim n]$這些子串，可以拆成$s[1\sim n-1]+s[n],s[2\sim n-1]+s[n],s[3\sim n-1]+s[n]...s[n]$，那麼我們需要更新的轉移，就是$s[1\sim n-1],s[2\sim n-1],s[3\sim n-1]...s[n-1]$對應的狀態，那麼我們在順著$last$的祖先更新轉移，把所有$x\in last$的父親，且$next[x][s[n]]=0$的更新。如果是上文提到的已經出現過的一段子串（$next[x][s[n]]!=0$），那麼它們的狀態是已經存在的了，那麼就不需它要轉移，結束。

我們可以結合這幾張圖感受一下（黃色邊表示link）：

發現得到$y$的過程和更新轉移的過程很像，我們可以合併一下，**如下：

void sam(int cc)
if(!x)s[p].li=1;//狀態賦值為初始狀態
else
s[y].li=s[p].li=st;
} }la=p;
}

字尾自動機有什麼用呢?

主要體現在根據$endpos$性質，運用$link/len$來做事

字尾自動機

字尾自動機

字尾自動機

字尾自動機

相關推薦