動態時間規整DTW

2022-08-10 01:48:21 字數 3170 閱讀 2302

>

在日常的生活中我們最經常使用的距離毫無疑問應該是歐式距離,但是對於一些特殊情況,歐氏距離存在著其很明顯的缺陷,比如說時間序列,舉個比較簡單的例子,序列a:1,1,1,10,2,3,序列b:1,1,1,2,10,3,如果用歐氏距離,也就是distance[i][j]=(b[j]-a[i])*(b[j]-a[i])來計算的話,總的距離和應該是128,應該說這個距離是非常大的,而實際上這個序列的影象是十分相似的,這種情況下就有人開始考慮尋找新的

時間序列距離

的計算方法,然後提出了dtw演算法,這種方法在語音識別,機器學習方便有著很重要的作用。

這個演算法是基於動態規劃(dp)的思想,解決了發音長短不一的模板匹配問題,簡單來說,就是通過構建乙個鄰接矩陣,尋找最短路徑和。

還以上面的2個序列作為例子,a中的10和b中的2對應以及a中的2和b中的10對應的時候,distance[3]以及distance[4]肯定是非常大的,這就直接導致了最後距離和的膨脹,這種時候,我們需要來調整下時間序列,如果我們讓a中的10和b中的10 對應,a中的1和b中的2對應,那麼最後的距離和就將大大縮短,這種方式可以看做是一種時間扭曲,看到這裡的時候,我相信應該會有人提出來,為什麼不能使用a中的2與b中的2對應的問題,那樣的話距離和肯定是0了啊,距離應該是最小的吧,但這種情況是不允許的,因為a中的10是發生在2的前面,而b中的2則發生在10的前面,如果對應方式交叉的話會導致時間上的混亂,不符合因果關係。

接下來,以output[6][6](所有的記錄下標從1開始,開始的時候全部置0)記錄a,b之間的dtw距離,簡單的介紹一下具體的演算法,這個演算法其實就是乙個簡單的dp,狀態轉移公式是output[i][j]=min(min(output[i-1][j],output[i][j-1]),output[i-1][j-1])+distance[i][j];最後得到的output[5][5]就是我們所需要的dtw距離.

動態時間規整dtw是乙個典型的優化問題,它用滿足一定條件的的時間規整函式w(n)描述輸入模板和參考模板的時間對應關係,求解兩模板匹配時累計距離最小所對應的規整函式。

dtw ( dynamic time warping ),即「動態時間扭曲」或是「動態時間規整」。這是一套根基於「動態規劃」(dynamic programming,簡稱dp)的方法,可以有效地將搜尋比對的時間大幅降低。

dtw 的目標就是要找出兩個向量之間的最短距離。一般而言,對於兩個 n 維空間中的向量 x 和 y,它們之間的距離可以定義為兩點之間的直線距離,稱為尤拉距離(euclidean distance)。

dist(x, y) = |x – y| ,

但是如果向量的長度不同,那它們之間的距離,就無法使用上述的數學式來計算。一般而言,假設這兩個向量的元素位置都是代表時間,由於我們必須容忍在時間軸的偏差,因此我們並不知道兩個向量的元素對應關係,因此我們必須靠著一套有效的運算方法,才可以找到最佳的對應關係。

動態規劃演算法總體思想

動態規劃演算法基本思想是將待求解問題分解成若干個子問題

但是經分解得到的子問題往往不是互相獨立的。不同子問題的數目常常只有多項式量級。求解時,有些子問題被重複計算了許多次。

如果能夠儲存已解決的子問題的答案,而在需要時再找出已求得的答案,就可以避免大量重複計算,從而得到多項式時間演算法。

動態規劃基本步驟

找出最優解的性質,並刻劃其結構特徵。

遞迴地定義最優值。

以自底向上的方式計算出最優值。

根據計算最優值時得到的資訊,構造最優解

這個例子中假設標準模板r為字母abcdef(6個),測試模板t為1234(4個)。r和t中各元素之間的距離已經給出。如下:

既然是模板匹配,所以各分量的先後匹配順序已經確定了,雖然不是一一對應的。現在題目的目的是要計算出測試模板t和標準模板r之間的距離。因為2個模板的長度不同,所以其對應匹配的關係有很多種,我們需要找出其中距離最短的那條匹配路徑。現假設題目滿足如下的約束:當從乙個方格((i-1,j-1)或者(i-1,j)或者(i,j-1))中到下乙個方格(i,j),如果是橫著或者豎著的話其距離為d(i,j),如果是斜著對角線過來的則是2d(i,j).其約束條件如下影象所示:

其中g(i,j)表示2個模板都從起始分量逐次匹配,已經到了m中的i分量和t中的j分量,並且匹配到此步是2個模板之間的距離。並且都是在前一次匹配的結果上加d(i,j)或者2d(i,j),然後取最小值。

所以我們將所有的匹配步驟標註後如下:

怎麼得來的呢?比如說g(1,1)=4, 當然前提都假設是g(0,0)=0,就是說g(1,1)=g(0,0)+2d(1,1)=0+2*2=4.

g(2,2)=9是一樣的道理。首先如果從g(1,2)來算的話是g(2,2)=g(1,2)+d(2,2)=5+4=9,因為是豎著上去的。

如果從g(2,1)來算的話是g(2,2)=g(2,1)+d(2,2)=7+4=11,因為是橫著往右走的。

如果從g(1,1)來算的話,g(2,2)=g(1,1)+2*d(2,2)=4+2*4=12.因為是斜著過去的。

綜上所述,取最小值為9. 所有g(2,2)=9.

當然在這之前要計算出g(1,1),g(2,1),g(1,2).因此計算g(i,j)也是有一定順序的。

其基本順序可以體現在如下:

計算了第一排,其中每乙個紅色的箭頭表示最小值**的那個方向。當計算了第二排後的結果如下:

最後都算完了的結果如下:

到此為止,我們已經得到了答案,即2個模板直接的距離為26. 我們還可以通過回溯找到最短距離的路徑,通過箭頭方向反推回去。如下所示:

來自為知筆記(wiz)

動態時間規整(DTW)

dtw為 dynamic time warping,動態時間歸準 的簡稱。應用很廣,主要是在模板匹配中,比如說用在孤立詞語音識別,計算機視覺中的行為識別,資訊檢索等中。可能大家學過這些類似的課程都看到過這個演算法,公式也有幾個,但是很抽象,當時看懂了但不久就會忘記,因為沒有具體的例項來加深印象。這次...

動態時間規整演算法DTW

動態時間規整演算法 dynamic time warping,dtw 最早由日本學者itakura提出,用於衡量兩個時間序列的相似度,也可用於將多個測試序列與標準序列對齊,從而實現序列長度的歸一化。主要應用於語音識別 手勢識別 步態識別等領域。在語言識別領域,同乙個詞,由於不同個體發音習慣及語速的差...

DTW動態時間規整 學習整理

大舅為了激勵我學習的日常對話 大舅 dtw演算法了解嗎?學習一下,明天給我講講?我 我沒法講的讓人聽懂 dtw演算法,這種方法在語音識別,機器學習方便有著很重要的作用。基於動態規劃 dp 的思想,解決了發音長短不一 語速多變 的模板匹配問題 比如不同的人讀同乙個詞的音訊序列 可以有效地將語音搜尋比對...