語音識別基本流程

所謂語音識別，就是將一段語音頻號轉換成相對應的文字資訊，系統主要包含特徵提取、聲學模型，語言模型以及字典與解碼四大部分，此外為了更有效地提取特徵往往還需要對所採集到的聲音頻號進行濾波、分幀等音訊資料預處理工作，將需要分析的音訊訊號從原始訊號中合適地提取出來；特徵提取工作將聲音頻號從時域轉換到頻域，為聲學模型提供合適的特徵向量；聲學模型中再根據聲學特性計算每乙個特徵向量在聲學特徵上的得分；而語言模型則根據語言學相關的理論，計算該聲音頻號對應可能片語序列的概率；最後根據已有的字典，對片語序列進行解碼，得到最後可能的文字表示。

特徵提取：主要演算法有線性**倒譜係數（

lpcc

）和mel

倒譜係數（

mfcc

聲學模型（am）：

通過對語音資料進行訓練獲得，

輸入是特徵向量，輸出為音素資訊；

字典：字或者詞與音素的對應，簡單來說，中文就是拼音和漢字的對應，英文就是音標與單詞的對應；

語言模型（lm）：

通過對大量文字資訊進行訓練，得到單個字或者詞相互關聯的概率；

解碼：就是通過聲學模型，字典，語言模型對提取特徵後的音訊資料進行文字輸出；

語音識別流程的舉例（只是形象表述，不是真實資料和過程）：

1. 語音頻號：pcm檔案等（我是機械人）

2. 特徵提取：提取特徵向量[1 2 3 4 56 0 ...]

3. 聲學模型：[1 2 3 4 56 0]-> w o s i j i q i r n

4. 字典：窩：w o；我：w o；是：s i；機：j i；器：q i；人：r n；級：j i；忍：r n；

5. 語言模型：我：0.0786，是： 0.0546，我是：0.0898，機器：0.0967，機械人：0.6785；

6. 輸出文字：我是機械人；

不正之處，歡迎提出！~~~謝謝

語音識別基本流程

語音識別基本流程

語音識別的基本方法

語音識別1 基本知識入門

語音識別基本流程

語音識別基本流程

語音識別的基本方法

語音識別1 基本知識入門

相關推薦