有關聲紋識別相關學習部落格位址

2021-09-27 09:34:59 字數 1339 閱讀 2536

pytorch講解

pytorch中文官網

語音特徵提取方法-mfcc:

em

從最大似然到em演算法淺解

map

1.概率研究的問題是,已知乙個模型和引數,怎麼去**這個模型產生的結果的特性

2.統計是,有一堆資料,要利用這堆資料去**模型和引數。(這些資料的出現類似於總體在這個模型下的結果)

詳解最大似然估計(mle)、最大後驗概率估計(map),以及貝葉斯公式的理解

概率線性判別分析(plda)

假設訓練資料語音由 i 個說話人的語音組成,其中每個說話人有 j 段自己不同的語音。那麼,我們定義第 i 個人的第 j 條語音為 xij 。根據因子分析,我們定義 xij 的生成模型為:

其中:μ 表示全體訓練資料的均值;

f 可以看做是身份空間,包含了可以用來表示各種說話人的資訊;

hi 就可以看做是具體的乙個說話人的身份(或者是說話人在身份空間中的位置);

g 可以看做是誤差空間,包含了可以用來表示同一說話人不同語音變化的資訊;

wij 表示的是在g空間中的位置;

ϵij 是最後的殘留雜訊項,用來表示尚未解釋的東西。

該項為零均高斯分布,方差為σ。

這個模型可以看成兩個部分:等號右邊前兩項只跟說話人有關而跟說話人的具體某一條語音無關,稱為訊號部分,這描述了說話人類間的差異;等號右邊後兩項描述了同一說話人的不同語音之間的差異,稱為噪音部分。這樣,我們用了這樣兩個假想變數來描述一條語音的資料結構。

我們注意到等號右邊的中間兩項分別是乙個矩陣和乙個向量的表示形式,這便是因子分析的又一核心部分。這兩個矩陣f和g包含了各自假想變數空間中的基本因子,這些因子可以看做是各自空間的特徵向量。比如,f的每一列就相當於類間空間的特徵向量,g的每一列相當於類內空間的特徵向量。而兩個向量可以看做是分別在各自空間的特徵表示,比如hi就可以看做是xij在說話人空間中的特徵表示。在識別打分階段,如果兩條語音的hi特徵相同的似然度越大,那麼這兩條語音就更確定地屬於同乙個說話人。

resnet50 深度剖析,細緻講解,深入理解

resnet50 深度剖析,細緻講解,深入理解

adaboost演算法

**adaboost演算法–附有詳細示例解析

adaboost演算法用於多分類

adaboost多分類轉化二分類思想

聲紋識別調研

聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...

d vector聲紋識別基礎

dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...

聲紋識別概述(2)聲紋識別原理和過程

多看 聲紋識別技術簡介 化繁為簡的藝術,深入淺出了解聲紋識別。1 困難在哪?不同的人說話語音波形不同,但是相同的人用不同的語調或者在不同的身體狀態下說話其語音波形也不同,還有相同的人說不同的內容波形也不同 那要如何區分出是兩個不同人的語音?2 為什麼可識別?語音具備了乙個良好的性質,稱為短時平穩,在...