語音情感識別常見的聲學特徵

2021-10-08 05:09:19 字數 1068 閱讀 8594

1.韻律特徵

基於基音頻率的特徵,包含jitter,基音頻率的包絡,基音頻率的線性**係數。

共振峰特徵,包含一階共振峰,二階共振峰,以及共振峰的頻寬等。

基於能量的特徵,包含 shimmer,4 階legendre 引數等。

時間特徵,包含說話部分和不說話部分的比值,最長說話的時間等。

發音清晰程度的特徵。

聲音級別:訊號幅度,能量被證明與聲音級別有很大的關係。

短語,音素,單詞以及這些特徵的邊界。

時間結構。

2.譜特徵

短時連貫性(short time coherence,smc)

過零幅度峰值(zeros crossing peak amplitude,zcpa)

線性**倒譜係數(linear predictor cepstral coefficients,lpcc)

lpc mfcc lsp plp ,rasta 感知線性**倒譜係數

(rasta-plp)

最小二乘改進yule-walker 方程(least squares modified yule-walker equations,lsmywe)

單邊自相關線性**係數(one-sided autocorrelation linear predictorcoefficients,osalpc)

單邊自相關線性**倒譜係數(one-side autocorrelation linear predictor cepstral coefficients,osalpcc)

3.其他特徵

根據發音系統提出的基於teager 能量運算元(teager energy operator,teo)的語音特徵。

根據語音屬於一種非平穩的訊號原理,提出的基於經驗模態分解(empirical mode decomposition,emd)的語音特徵。

根據語音頻號的混沌程度在緩和的情緒中比較小,在激烈的情緒中比較大的原理,基於分形維(fractal dimension)的語音特徵。

另外基於深度學習的語音特徵在語音頻號處理中的作用越來越大。

語音識別 聲學模型(GMM HMM)

本文主要講解一下gmm hmm演算法聲學模型的大概思路!聲學模型的目的是將經mfcc提取的所有幀的特徵向量轉化為有序的音素輸出。概述如下 我們都知道hmm模型裡面有隱含狀態概念。我們需要弄明白音素hmm模型的隱含狀態與乙個音素之間的關係,通常乙個音素含有3到5個狀態,如果乙個包含代表乙個音素的hmm...

Tutorial 語音情感識別

ok,沉迷了快兩個星期,終於有進展了啊啊啊!這段時間內心崩潰,感覺毫無思路,但是我沒放棄!看了許多 然後 在這個星期也終於調通了。不過還是有很多地方值得優化,後面再繼續努力吧!其實我個人覺得語音識別這一塊的商用還不夠,情感識別就更別說了,而且識別率這一塊有待提公升。開始正題 資料集用的是emo db...

語音情感識別 踩點篇

不管是情感語音識別,還是語音情感識別,含義是一樣的,都是對帶有情感的語音頻號進 感的正確判斷。最傳統的情感語音識別是基於機器學習下的有監督學習完成的。有監督,即 使用訓練集訓練出乙個模型,然後使用該模型對測試集中的語音頻號進 感狀態的正確判斷。傳統的機器學習可以理解為模式識別,即需要通過三個環節來完...