當下流行的語音識別技術是不是發展錯了方向

謝謝邀請。我對樓主問題的理解是『使用語音識別方法進行一般的聲音識別或者理解語音內容』，這涉及到人類的語音識別、一般的『聲音事件』的識別（也許我的用詞不夠準確）、以及對語音和聲音事件的認知。我覺得我遠不具有足夠的資格回答這樣的問題，不過我很願意分享我個人的觀點共同討論。我一定程度上贊同樓上張悶財的回答。我的理解大概是很難說現在的方向不正確。

為了清晰，以下我只用語音識別和理解作為進行討論，對於一般的聲音事件的認知，我覺得情況可以謹慎的推廣。我覺得樓主的問題可以分成兩個層次：第一，把語音識別分解成語音到文字和文字內容的理解分別研究是否合理；第二，使用數學模型進行統計語音識別和理解的研究方法是否合理。

第一，我同意樓主的看法，語音的識別和理解當然有著千絲萬縷的聯絡，目前的研究方式大概在語音識別過程中很少考慮語義的理解，在語義的理解中很少考慮語音所蘊含的更豐富的資訊，這當然不能說是最理想的方法。但是如果不進行這樣的分解，恐怕連問題的定義都會變得很困難。直觀上，語音到文字的轉換，以及對閱讀到的文字內涵進行理解本身是兩個非常明確的問題，也是我們人成長中反覆分別鍛鍊的技能（比如小孩的咿咿學語和學生進行的閱讀訓練），拆開研究也有其合理性，何況語音識別和自然語言理解在研究和應用中通常都是不分家的。

第二，對於目前主流的語音識別方法，我首先要糾正樓主的用詞，目前的主流方法並不是模板匹配方法。對語音進行識別的主要思路是通過某種量化方法將每個語音幀都轉換為高維空間中的乙個點，假設對應不同語音內容（比如不同聲韻母）的幀具有一定的空間結構分布，通過大量的已知資料來學得不同聲韻母對應的空間劃分，於是對未知的語音幀就可以根據它所在的位置來判斷它的內容，這樣的方法很難稱之為『匹配』。另外現在做自然語言理解，也很常用類似的方法。這樣的過程當然跟人的機制有很大差別，但我們也很難證明它就一定錯誤。如果證偽，我們需要證明能夠合理劃分語音內容的空間是不存在的，而我們目前的能力甚至是連在不那麼高維的空間中求得已知分布的最優解都做不到的。所以即使不遠的未來我們對人腦的機理有了更深入的認識，也不能就因此否定目前的研究思路，更何況認知科學的進展完全可以用語改進我們現在對語音識別器設計。模擬人的大腦需要提出不超出圖靈機能力的計算模型，而這種計算模型最後數學上也許完全等效於我們用現有方法可以得到的模型。

記得以前聽過一位院士的講座，其中提過這樣乙個故事：一位古波斯哲人晚上丟了鑰匙，他在路燈下尋找，路過的人也幫他一起找了很久也沒找到。路人問哲人是否確定鑰匙是掉在路燈下的，哲人回答說他很確定不是，鑰匙是掉在旁邊漆黑的樹林裡，他只是因為樹林裡太黑才在路燈下找找看的。這個故事與你共勉。

當下流行的語音識別技術是不是發展錯了方向

當下流行的開源框架

當下流行的響應式布局介紹

關於語音識別技術的初探

當下流行的語音識別技術是不是發展錯了方向

當下流行的開源框架

當下流行的響應式布局介紹

關於語音識別技術的初探

相關推薦