語音頻號處理之（一）動態時間規整（DTW）

語音頻號處理之（一）動態時間規整（dtw）

這學期有《語音頻號處理》這門課，快考試了，所以也要了解了解相關的知識點。呵呵，平時沒怎麼聽課，現在只能抱佛腳了。順便也總結總結，好讓自己的知識架構清晰點，也和大家分享下。下面總結的是第乙個知識點：dtw。因為花的時間不多，所以可能會有不少說的不妥的地方，還望大家指正。謝謝。

dynamic time warping（dtw）誕生有一定的歷史了（日本學者itakura提出），它出現的目的也比較單純，是一種衡量兩個長度不同的時間序列的相似度的方法。應用也比較廣，主要是在模板匹配中，比如說用在孤立詞語音識別（識別兩段語音是否表示同乙個單詞），手勢識別，資料探勘和資訊檢索等中。

一、概述

在大部分的學科中，時間序列是資料的一種常見表示形式。對於時間序列處理來說，乙個普遍的任務就是比較兩個序列的相似性。

在時間序列中，需要比較相似性的兩段時間序列的長度可能並不相等，在語音識別領域表現為不同人的語速不同。因為語音頻號具有相當大的隨機性，即使同乙個人在不同時刻發同乙個音，也不可能具有完全的時間長度。而且同乙個單詞內的不同音素的發音速度也不同，比如有的人會把「a」這個音拖得很長，或者把「i」發的很短。在這些複雜情況下，使用傳統的歐幾里得距離無法有效地求的兩個時間序列之間的距離（或者相似性）。

例如圖a所示，實線和虛線分別是同乙個詞「pen」的兩個語音波形（在y軸上拉開了，以便觀察）。可以看到他們整體上的波形形狀很相似，但在時間軸上卻是不對齊的。例如在第20個時間點的時候，實線波形的a點會對應於虛線波形的b』點，這樣傳統的通過比較距離來計算相似性很明顯不靠譜。因為很明顯，實線的a點對應虛線的b點才是正確的。而在圖b中，dtw就可以通過找到這兩個波形對齊的點，這樣計算它們的距離才是正確的。

也就是說，大部分情況下，兩個序列整體上具有非常相似的形狀，但是這些形狀在x軸上並不是對齊的。所以我們在比較他們的相似度之前，需要將其中乙個（或者兩個）序列在時間軸下warping扭曲，以達到更好的對齊。而dtw就是實現這種warping扭曲的一種有效方法。dtw通過把時間序列進行延伸和縮短，來計算兩個時間序列性之間的相似性。

那如果才知道兩個波形是對齊了呢？也就是說怎麼樣的warping才是正確的？直觀上理解，當然是warping乙個序列後可以與另乙個序列重合recover。這個時候兩個序列中所有對應點的距離之和是最小的。所以從直觀上理解，warping的正確性一般指「feature to feature」的對齊。

二、動態時間規整dtw

動態時間規整dtw是乙個典型的優化問題，它用滿足一定條件的的時間規整函式w(n)描述測試模板和參考模板的時間對應關係，求解兩模板匹配時累計距離最小所對應的規整函式。

假設我們有兩個時間序列q和c，他們的長度分別是n和m：（實際語音匹配運用中，乙個序列為參考模板，乙個序列為測試模板，序列中的每個點的值為語音序列中每一幀的特徵值。例如語音序列q共有n幀，第i幀的特徵值（乙個數或者乙個向量）是qi。至於取什麼特徵，在這裡不影響dtw的討論。我們需要的是匹配這兩個語音序列的相似性，以達到識別我們的測試語音是哪個詞）

q = q1, q2,…,qi,…, qn ;

c = c1, c2,…, cj,…, cm ;

如果n=m，那麼就用不著折騰了，直接計算兩個序列的距離就好了。但如果n不等於m我們就需要對齊。最簡單的對齊方式就是線性縮放了。把短的序列線性放大到和長序列一樣的長度再比較，或者把長的線性縮短到和短序列一樣的長度再比較。但是這樣的計算沒有考慮到語音中各個段在不同情況下的持續時間會產生或長或短的變化，因此識別效果不可能最佳。因此更多的是採用動態規劃（dynamic programming）的方法。

為了對齊這兩個序列，我們需要構造乙個n x m的矩陣網格，矩陣元素(i, j)表示qi和cj兩個點的距離d(qi, cj)（也就是序列q的每乙個點和c的每乙個點之間的相似度，距離越小則相似度越高。這裡先不管順序），一般採用歐式距離，d(qi, cj)= (qi-cj)2（也可以理解為失真度）。每乙個矩陣元素(i, j)表示點qi和cj的對齊。dp演算法可以歸結為尋找一條通過此網格中若干格點的路徑，路徑通過的格點即為兩個序列進行計算的對齊的點。

那麼這條路徑我們怎麼找到呢？那條路徑才是最好的呢？也就是剛才那個問題，怎麼樣的warping才是最好的。

我們把這條路徑定義為warping path規整路徑，並用w來表示， w的第k個元素定義為wk=(i,j)k，定義了序列q和c的對映。這樣我們有：

首先，這條路徑不是隨意選擇的，需要滿足以下幾個約束：

1）邊界條件：w1=(1, 1)和wk=(m, n)。任何一種語音的發音快慢都有可能變化，但是其各部分的先後次序不可能改變，因此所選的路徑必定是從左下角出發，在右上角結束。

2）連續性：如果wk-1= (a』, b』)，那麼對於路徑的下乙個點wk=(a, b)需要滿足 (a-a』) <=1和 (b-b』) <=1。也就是不可能跨過某個點去匹配，只能和自己相鄰的點對齊。這樣可以保證q和c中的每個座標都在w中出現。

3）單調性：如果wk-1= (a』, b』)，那麼對於路徑的下乙個點wk=(a, b)需要滿足0<=(a-a』)和0<= (b-b』)。這限制w上面的點必須是隨著時間單調進行的。以保證圖b中的虛線不會相交。

結合連續性和單調性約束，每乙個格點的路徑就只有三個方向了。例如如果路徑已經通過了格點(i, j)，那麼下乙個通過的格點只可能是下列三種情況之一：(i+1, j)，(i, j+1)或者(i+1, j+1)。

滿足上面這些約束條件的路徑可以有指數個，然後我們感興趣的是使得下面的規整代價最小的路徑：

分母中的k主要是用來對不同的長度的規整路徑做補償。我們的目的是什麼？或者說dtw的思想是什麼？是把兩個時間序列進行延伸和縮短，來得到兩個時間序列性距離最短也就是最相似的那乙個warping，這個最短的距離也就是這兩個時間序列的最後的距離度量。在這裡，我們要做的就是選擇乙個路徑，使得最後得到的總的距離最小。

這裡我們定義乙個累加距離cumulative distances。從(0, 0)點開始匹配這兩個序列q和c，每到乙個點，之前所有的點計算的距離都會累加。到達終點(n, m)後，這個累積距離就是我們上面說的最後的總的距離，也就是序列q和c的相似度。

累積距離γ(i,j)可以按下面的方式表示，累積距離γ(i,j)為當前格點距離d(i,j)，也就是點qi和cj的歐式距離（相似性）與可以到達該點的最小的鄰近元素的累積距離之和：

最佳路徑是使得沿路徑的積累距離達到最小值這條路徑。這條路徑可以通過動態規劃（dynamic programming）演算法得到。

具體搜尋或者求解過程的直觀例子解釋可以參考：

三、dtw在語音中的運用

假定乙個孤立字（詞）語音識別系統，利用模板匹配法進行識別。這時一般是把整個單詞作為識別單元。在訓練階段，使用者將詞彙表中的每乙個單詞說一遍，提取特徵後作為乙個模板，存入模板庫。在識別階段，對乙個新來的需要識別的詞，也同樣提取特徵，然後採用dtw演算法和模板庫中的每乙個模板進行匹配，計算距離。求出最短距離也就是最相似的那個就是識別出來的字了。

四、參考資料

[1]

[2]

[3] (有matlab/c++ code)

[4] eamonn j. keogh, derivative dynamic time warping

語音頻號處理之（一）動態時間規整（DTW）

語音頻號處理

語音頻號的動態時間規整（DTW）

語音頻號的預處理

語音頻號處理之（一）動態時間規整（DTW）

語音頻號處理

語音頻號的動態時間規整（DTW）

語音頻號的預處理

相關推薦