有關聲紋識別相關學習部落格位址

pytorch講解

pytorch中文官網

語音特徵提取方法-mfcc：

從最大似然到em演算法淺解

map

1.概率研究的問題是，已知乙個模型和引數，怎麼去**這個模型產生的結果的特性

2.統計是，有一堆資料，要利用這堆資料去**模型和引數。（這些資料的出現類似於總體在這個模型下的結果）

詳解最大似然估計（mle）、最大後驗概率估計（map），以及貝葉斯公式的理解

概率線性判別分析(plda)

假設訓練資料語音由 i 個說話人的語音組成，其中每個說話人有 j 段自己不同的語音。那麼，我們定義第 i 個人的第 j 條語音為 xij 。根據因子分析，我們定義 xij 的生成模型為：

其中：μ 表示全體訓練資料的均值；

f 可以看做是身份空間，包含了可以用來表示各種說話人的資訊；

hi 就可以看做是具體的乙個說話人的身份(或者是說話人在身份空間中的位置)；

g 可以看做是誤差空間，包含了可以用來表示同一說話人不同語音變化的資訊；

wij 表示的是在g空間中的位置；

ϵij 是最後的殘留雜訊項，用來表示尚未解釋的東西。

該項為零均高斯分布，方差為σ。

這個模型可以看成兩個部分：等號右邊前兩項只跟說話人有關而跟說話人的具體某一條語音無關，稱為訊號部分，這描述了說話人類間的差異；等號右邊後兩項描述了同一說話人的不同語音之間的差異，稱為噪音部分。這樣，我們用了這樣兩個假想變數來描述一條語音的資料結構。

我們注意到等號右邊的中間兩項分別是乙個矩陣和乙個向量的表示形式，這便是因子分析的又一核心部分。這兩個矩陣f和g包含了各自假想變數空間中的基本因子，這些因子可以看做是各自空間的特徵向量。比如，f的每一列就相當於類間空間的特徵向量，g的每一列相當於類內空間的特徵向量。而兩個向量可以看做是分別在各自空間的特徵表示，比如hi就可以看做是xij在說話人空間中的特徵表示。在識別打分階段，如果兩條語音的hi特徵相同的似然度越大，那麼這兩條語音就更確定地屬於同乙個說話人。

resnet50 深度剖析，細緻講解，深入理解

resnet50 深度剖析，細緻講解，深入理解

adaboost演算法

**adaboost演算法–附有詳細示例解析

adaboost演算法用於多分類

adaboost多分類轉化二分類思想

有關聲紋識別相關學習部落格位址

聲紋識別調研

d vector聲紋識別基礎

聲紋識別概述（2）聲紋識別原理和過程

有關聲紋識別相關學習部落格位址

聲紋識別調研

d vector聲紋識別基礎

聲紋識別概述（2）聲紋識別原理和過程

相關推薦