語音中的關於語音識別的一些知識

以下內容都是抄的，哈哈哈

1.mel頻率：

是模擬人耳對不同頻率語音的感知。

人類對不同頻率語音有不同的感知能力：對1khz以下，與頻率成線性關係，對1khz以上，與頻率成對數關係。頻率越高，感知能力就越差了。因此，在應用中常常只使用低頻mfcc，而丟棄中高頻mfcc。

在mel頻域內，人對音調的感知能力為線性關係，如果兩段語音的mel頻率差兩倍，則人在感知上也差兩倍。轉換公式：b(f)=1125ln(1＋f/700) 其中f為頻率，b為mel－頻率。

2.倒譜：

同態處理的結果，分為複數和實數倒譜，常用實數倒譜，是語音識別中的重要係數。

3，mel頻率倒譜係數引數的提到中：有一步：分幀，然後再加上窗，原因呢：,下面寫的：

4,那現在總結下倒譜分析，它實際上是這樣乙個過程：

1）將原語音訊號經過傅利葉變換得到頻譜：x[k]=h[k]e[k]；

只考慮幅度就是：|x[k] |=|h[k]||e[k] |；

2）我們在兩邊取對數：log||x[k] ||= log ||h[k] ||+ log ||e[k] ||。

3）再在兩邊取逆傅利葉變換得到：x[k]=h[k]+e[k]。

這實際上有個專業的名字叫做同態訊號處理。它的目的是將非線性問題轉化為線性問題的處理方法。對應上面，原來的語音頻號實際上是乙個捲性訊號（聲道相當於乙個線性時不變系統，聲音的產生可以理解為乙個激勵通過這個系統），第一步通過卷積將其變成了乘性訊號（時域的卷積相當於頻域的乘積）。第二步通過取對數將乘性訊號轉化為加性訊號，第三步進行逆變換，使其恢復為捲性訊號。這時候，雖然前後均是時域序列，但它們所處的離散時域顯然不同，所以後者稱為倒譜頻域.

最後幾個圖：

引用：

很好的文獻，可以參考哦:

語音中的關於語音識別的一些知識

以下內容都是抄的，哈哈哈 1.mel頻率是模擬人耳對不同頻率語音的感知。人類對不同頻率語音有不同的感知能力對1khz以下，與頻率成線性關係，對1khz以上，與頻率成對數關係。頻率越高，感知能力就越差了。因此，在應用中常常只使用低頻mfcc，而丟棄中高頻mfcc。在mel頻域內，人對音調的感知能力...

一些關於語音識別和語音情感識別的資源

這些資源要麼就收費很貴，要麼用不了，嗯但是也花了很長時間收集，先留著吧。基於svm的語音情感識別 matlab gui介面和文件點這裡！pythonnlp情感識別專案實戰教程原始碼資料集點這裡！python 語音情感分析搜一搜？基於svm的情感分析系統點這裡！基於svm的語音情感識別系統...

一些語音識別的概念

呼叫日誌 call logging 語音識別的呼叫日誌在系統中有著非常重要的作用，該日誌記錄了輸入的音訊載入的語法識別過程的中間結果識別模組呼叫過程識別使用的各種引數識別結果以及當時的系統環境資訊。這些資料是效果分析的依據，詳盡的call log是效果優化的基礎。說話人自適應當使用者多次...

語音中的關於語音識別的一些知識

語音中的關於語音識別的一些知識

一些關於語音識別和語音情感識別的資源

一些語音識別的概念

相關推薦