當下流行的語音識別技術是不是發展錯了方向

2021-10-25 07:26:51 字數 1178 閱讀 5166

謝謝邀請。 我對樓主 問題的理解是『使用語音識別方法進行一般的聲音識別或者理解語音內容』, 這涉及到人類的語音識別、一般的『聲音事件』的識別(也許我的用詞不夠準確)、以及對語音和聲音事件的認知。我覺得我遠不具有足夠的資格回答這樣的問題,不過我很願意分享我個人的觀點共同討論。我一定程度上贊同樓上張悶財的 回答。我的理解大概是很難說現在的方向不正確。

為了清晰,以下我 只用語音識別和理解作為進行討論,對於一般的聲音事件的認知,我覺得情況可以謹慎的推廣。我覺得樓主的問題可以分成兩個層次:第一,把語音識別分解成語音到文字和文字內容的理解分別研究是否合理;第二,使用數學模型進行統計 語音識別和理解的研究方 法是否合理。

第一,我同意樓主的看法,語音的識別和理解當然有著千絲萬縷的聯絡,目前的研究方式大概在語音識別過程中很少考慮語義的理解,在語義的理解中很少考慮語音所蘊含的更豐富的資訊,這當然不能說是最理想的方法。但是如果不進行這樣的分解,恐怕連問題的定義都會變得很困難。直觀上,語音到文字的轉換,以及對閱讀到的文字內涵進行理解本身是兩個非常明確的問題,也是我們人成長中反覆分別鍛鍊的技能(比如小孩的咿咿學語和學生進行的閱讀訓練),拆開研究也有其合理性,何況語音識別和自然語言理解在研究和應用 中通常都是不分家的。

第二,對於目前主流的語音識別方法,我首先要糾正樓主的用詞,目前的主流方法並不是模板匹配方法。對語音進行識別的主要思路是通過某種量化方法 將每個語音幀都轉換為高維空間中的乙個點,假設對應不同語音內容(比如不同聲韻母)的幀具有一定的空間結構分布,通過大量的已知資料來學得不同聲韻母對應的空間劃分,於是對未知的語音幀就可以根據它所在的位置來判斷它的內容,這樣的方法很難稱之為『匹配』。另外現在做自然語言理解,也很常用類似的方法。這樣的過程當然跟人的機制有很大差別,但我們也很難證明它就一定錯誤。如果證偽,我們需要證明能夠合理劃分語音內容的空間是不存在的,而我們目前的能力甚至是連在不那麼高維的空間中求得已知分布的最優解都做不到的。所以即使不遠的未來我們對人腦的機理有了更深入的認識,也不能就因此否定目前的研究思路,更何況認知科學的進展完全可以用語改進我們現在對語音識別器設計。模擬人的大腦需要提出不超出圖靈機能力的計算模型,而這種計算模型最後數學上也許完全等效於我們用現有方法可以得到的模型。

記得以前聽過一位院士的講座,其中提過這樣乙個故事:一位古波斯哲人晚上丟了鑰匙,他在路燈下尋找,路過的人也幫他一起找了很久也沒找到。路人問哲人是否確定鑰匙是掉在路燈下的,哲人回答說他很確定不是,鑰匙是掉在旁邊漆黑的 樹林 裡,他只是因為樹林裡太黑才在路燈下找找看的。這個故事與 你共勉。

當下流行的開源框架

程式設計師日常開發,很需要一塊適合自己適合專案的腳手架 快速開發平台 這也是我們團隊準備解決這一痛點,開發了xiaonuo系列框架,雖說是開源平台同系列產品較多,從 規範二次開發方面,我極力推薦使用小諾。vue前後分離登入介面 模組化架構設計,層次清晰,業務層推薦寫到單獨模組,方便公升級。前後端分離...

當下流行的響應式布局介紹

什麼叫做響應式布局?也即是響應式web設計。響應式布局是ethan marcotte在2010年5月份提出的乙個概念,簡而言之,就是乙個 能夠相容多個終端 而不是為每個終端做乙個特定的版本。這個概念是為解決移動網際網路瀏覽而誕生的。響應式布局可以為不同終端的使用者提供更加舒適的介面和更好的使用者體驗...

關於語音識別技術的初探

語音識別技術的應用可以分為兩個發展方向 乙個方向是大詞彙量連續語音識別系統,主要應用於計算機的聽寫機,以及與 網或者網際網路相結合的語音資訊查詢服務系統,這些系統都是在計算機平台上實現的 另外乙個重要的發展方向是小型化 可攜式語音產品的應用,如無線手機上的撥號 汽車裝置的語音控制 智慧型玩具 家電遙...