Kaldi單音素GMM學習筆記

類學習資料：

統計學習方法–李航

語音識別實踐–俞棟，鄧力

speech and language processing—daniel jurafsky, james h. martin.

ediburg-course. (

個人理解：

論講解的清晰度、條理性，李航的書更好一些。俞棟的書則更貼近語音，並且該書的公式推導簡直清晰，一點都不含糊，比如前向後向公式的推導。

em演算法之前看過幾遍，總是似懂非懂。本次看em演算法，則是在我學習過《數理統計》這門課之後，因此在看em演算法的時候能加入引數估計、期望的一些背景知識去理解em演算法。主要有兩點要搞清楚，第一點，em演算法其實就是在分布已知（概率密度函式的形式已知）、引數未知的情況下去估計未知引數。這樣一來，估計gmm引數的em演算法的輸入輸出就較好理解了。第二點：em演算法是個迭代演算法，最後是可以收斂到區域性最優的。用上一輪計算出來的引數計算當前輪的一些值（比如帶入高斯分布公式算概率），然後去得到新的引數值。

在kaldi中，單音素gmm的訓練用的是viterbi training，而不是baum-welch training。因此就不是用hmm baum-welch那幾個公式去更新引數，也就不用計算前向概率、後向概率了。kaldi中用的是em演算法用於gmm時的那三個引數更新公式，並且稍有改變。

baum-welch演算法更新引數時，因為要計算前向後向概率，很費時間，因此使用viterbi training作為baum-welch演算法的近似。在baum-welch演算法中，計算前向後向概率時，要用到所有的狀態路徑，在viterbi訓練中，用viterbi路徑代替對所有狀態路徑的累積。

在viterbi訓練中，先根據上一輪的模型引數對語音特徵資料進行對齊，得到每一幀的特徵所對應的hmm狀態（在kaldi中是transition-id），也就是forced alignment。forced alignment的結果是對應於特徵序列的狀態序列。

舉個例子：

當前的特徵序列是o1, o2, o3, o4, o5, o6, o7.（每一幀的特徵是39維mfcc）

對應的狀態序列是7, 8, 8, 8, 9, 9, 10.（每個數字代表乙個hmm state）

知道了特徵序列和其對應的狀態序列，我們就可以通過簡單的數數來更新hmm的引數——轉移概率矩陣a。根據對齊結果，統計每乙個hmm狀態總共出現了多少次（可以從transition-id得到hmm state-id），統計該狀態的每乙個轉移出現了多少次（一般只有兩個轉移，轉移到自身和轉移到下一狀態），用每乙個轉移的出現次數除以該狀態的出現次數就得到了轉移概率。hmm引數就是這樣更新的。

首先應該明白，在單音素gmm訓練中，每乙個hmm狀態有乙個對應的gmm概率密度函式（pdf），所以有多少個hmm狀態，就有多少個gmm，也就有多少組gmm引數。在知道了特徵序列和對齊序列後，找出某乙個hmm狀態對應的所有觀測（比如狀態8對應的o2, o3, o4，在kaldi中則是找到某一transition-id對應的所有觀測），也就得到了該狀態對應的gmm所對應的所有觀測。知道了該gmm對應的所有觀測、該gmm的當前引數，就可以根據gmm引數更新公式更新gmm引數了，比如知道了狀態8對應的觀測o2, o3, o4。kaldi中所用的gmm引數更新公式如下圖所示。

kaldi的github分支kaldi-5.0裡，egs/wsj/s5/steps路徑下的train_mono.sh。

usage: steps/train_mono.sh [options] e.g.: steps/train_mono.sh data/train.1k data/lang exp/mono

初始化單音素模型。呼叫gmm-init-mono，生成0.mdl、tree。

編譯訓練時的圖。呼叫compile-train-graph生成text中每句抄本對應的fst，存放在fsts.job.gz中。

第一次對齊資料。呼叫align-equal-stats-ali生成對齊狀態序列，通過管道傳遞給gmm-acc-stats-ali，得到更新引數時用到的統計量。

第一次更新模型引數。呼叫gmm-est更新模型引數。

進入訓練模型的主迴圈：在指定的對齊輪數，使用gmm-align-compiled對齊特徵資料，得到新的對齊狀態序列；每一輪都呼叫gmm-acc-stats-ali計算更新模型引數所用到的統計量，然後呼叫gmm-est更新模型引數，並且在每一輪中增加gmm的分量個數。

usage: gmm-init-mono e.g.: gmm-init-mono topo 39 mono.mdl mono.tree

計算所有特徵資料每一維特徵的全域性均值、方差

讀取topo檔案，建立共享音素列表（根據$lang/phones/sets.int)，根據共享音素列表建立ctx_dep（相當於tree)

每一組共享音素的乙個狀態對應乙個pdf。對每乙個狀態，建立只有乙個分量的gmm，該gmm的均值初始化為全域性均值、方差初始化為全域性方差。（實際上，此時表示gmm的類是diaggmm，該物件根據多維高斯分布的公式和對角協方差矩陣的特殊性，為了方便計算，直接儲存的引數並不是均值、方差，而是方差的逆（實際就是方差矩陣每個元素求倒數）、均值×方差的逆，還提前計算並儲存了公式中的常數部分（.mdl檔案gmm部分的）

根據ctx_dep和topo建立轉移模型。將轉移模型、gmm聲學模型寫到0.mdl

將ctx_dep寫到tree.

usage: compile-train-graphs [options] e.g.: compile-train-graphs tree 1.mdl lex.fst ark:train.tra ark:graphs.fsts

該程式的輸出是ark格式的graphs.fsts(存為exp/mono/fst.job.gz)，包含train.tra中的每個utt-id的fst，fst由無轉移概率的hclg組成。

暫時不用扣wfst相關的細節，只要明白這一步對於整個訓練過程用什麼用就可以了，後面專攻wfst部分**的時候可以把每個階段與wfst相關的部分串起來。

生成與音訊特徵對齊的hmm狀態序列時要用到每句話的fst。

usage: align-equal-compiled e.g.: align-equal-compiled 1.fsts scp:train.scp ark:equal.ali

對每一句話，根據這句話的特徵和這句話的fst，生成對應的對齊狀態序列。

usage: gmm-acc-stats-ali [options] e.g.: gmm-acc-stats-ali 1.mdl scp:train.scp ark:1.ali 1.acc;

對於每一幀的特徵和其對齊（transition-id）：

處理完所有資料後，將tm和am的累積量寫到乙個檔案中：x.job.acc中

gmm-acc-stats-ali生成的累計量分散在job個檔案中，該程式將分散的對應同一trans-id、pdf-id的累計量合併在一起。

usage:  gmm-est [options] e.g.: gmm-est 1.mdl 1.acc 2.mdl

主要分兩部分，一部分更新transitionmodel，一部分更新gmm。

儲存乙個gmm的引數，包括分量權值weights_、均值、方差、每一分量高斯分布裡的常量部分取log後的數值gconsts_。注意均值和方差為了方便計算，儲存的並不是原原本本的均值、方差，而是方差每一元素求倒數後的inv_vars_、均值乘以inv_vars_後的means_invvars_。

對應於diaggmm的標準形式的gmm，儲存乙個gmm原原本本的引數：分量權重weights_，均值means_，方差vars_。

儲存所有的gmm。

對應於diaggmm，儲存引數更新時所需的累積量：

num_comp_：混合分量個數m

dim_：特徵維數

occupancy_：m個元素，每乙個元素是∑n

j=1γ

^jk

mean_accumulator_：mxd維，每一行是∑n

j=1γ

^jky

j variance_accumulator_：mxd維，每一行是∑n

j=1γ

^jky

2j對應於amdiaggmm，儲存所有的accumdiaggmm。

儲存hmm拓撲，log轉移概率，transition-id、transition-state、triplets(phone, hmm-state, forward-pdf)等之間的對映。

Kaldi單音素GMM學習筆記

Kaldi單音子建模

kaldi中修改phones中音素個數

語音識別之HTK入門（三）單音素單高斯模型

Kaldi單音素GMM學習筆記

Kaldi單音子建模

kaldi中修改phones中音素個數

語音識別之HTK入門（三） 單音素單高斯模型

相關推薦

語音識別之HTK入門（三）單音素單高斯模型