語音情感識別常見的聲學特徵

1.韻律特徵

基於基音頻率的特徵，包含jitter，基音頻率的包絡，基音頻率的線性**係數。

共振峰特徵，包含一階共振峰，二階共振峰，以及共振峰的頻寬等。

基於能量的特徵，包含 shimmer，4 階legendre 引數等。

時間特徵，包含說話部分和不說話部分的比值，最長說話的時間等。

發音清晰程度的特徵。

聲音級別：訊號幅度，能量被證明與聲音級別有很大的關係。

短語，音素，單詞以及這些特徵的邊界。

時間結構。

2.譜特徵

短時連貫性(short time coherence，smc)

過零幅度峰值(zeros crossing peak amplitude，zcpa)

線性**倒譜係數(linear predictor cepstral coefficients，lpcc)

lpc mfcc lsp plp ，rasta 感知線性**倒譜係數

(rasta-plp)

最小二乘改進yule-walker 方程(least squares modified yule-walker equations，lsmywe)

單邊自相關線性**係數(one-sided autocorrelation linear predictorcoefficients，osalpc)

單邊自相關線性**倒譜係數(one-side autocorrelation linear predictor cepstral coefficients，osalpcc)

3.其他特徵

根據發音系統提出的基於teager 能量運算元(teager energy operator，teo)的語音特徵。

根據語音屬於一種非平穩的訊號原理，提出的基於經驗模態分解(empirical mode decomposition，emd)的語音特徵。

根據語音頻號的混沌程度在緩和的情緒中比較小，在激烈的情緒中比較大的原理，基於分形維(fractal dimension)的語音特徵。

另外基於深度學習的語音特徵在語音頻號處理中的作用越來越大。

語音識別聲學模型（GMM HMM）

本文主要講解一下gmm hmm演算法聲學模型的大概思路！聲學模型的目的是將經mfcc提取的所有幀的特徵向量轉化為有序的音素輸出。概述如下我們都知道hmm模型裡面有隱含狀態概念。我們需要弄明白音素hmm模型的隱含狀態與乙個音素之間的關係，通常乙個音素含有3到5個狀態，如果乙個包含代表乙個音素的hmm...

Tutorial 語音情感識別

ok，沉迷了快兩個星期，終於有進展了啊啊啊！這段時間內心崩潰，感覺毫無思路，但是我沒放棄！看了許多然後在這個星期也終於調通了。不過還是有很多地方值得優化，後面再繼續努力吧！其實我個人覺得語音識別這一塊的商用還不夠，情感識別就更別說了，而且識別率這一塊有待提公升。開始正題資料集用的是emo db...

語音情感識別踩點篇

不管是情感語音識別，還是語音情感識別，含義是一樣的，都是對帶有情感的語音頻號進感的正確判斷。最傳統的情感語音識別是基於機器學習下的有監督學習完成的。有監督，即使用訓練集訓練出乙個模型，然後使用該模型對測試集中的語音頻號進感狀態的正確判斷。傳統的機器學習可以理解為模式識別，即需要通過三個環節來完...

語音情感識別常見的聲學特徵

語音識別 聲學模型（GMM HMM）

Tutorial 語音情感識別

語音情感識別 踩點篇

相關推薦

語音識別聲學模型（GMM HMM）

語音情感識別踩點篇