語音識別(SR)的秘密

2021-07-03 19:15:15 字數 671 閱讀 7160

語音識別(

sr)功能是當今國外作業系統的標準特徵,而國產作業系統根本不具備這種特質,而且國家隊沒有相關的主觀動力,去開發實際可用的語音識別系統。與國外相比,國產作業系統落後了一大節子,怪誰?

怎樣讓機器識別人的語音?其實大道理並不複雜,首先,讓機器裝置聽懂母音,然後聽懂子音,將兩者合成起來成為單詞,再做進一步的處理。但是,實際做起來就複雜了。怎麼做?

建立「語料庫」(

corpus

),就是建立語音的聲學模型庫。比如,」貓「這個單詞的發音,必須讓機器記住「貓」的發音,設法讓機器聽到「貓」所對應的「聲音」(所謂」生物訊號「)就知道主人對它說的是「貓」。語料庫就是建立單詞與語音的對應關係。這是基本建設,需要投入大量的人力、物力,別無他法。

任何語音都有個人特徵,雖然

100個人的發音基本相同,但是,存在一定的差異。所以機器的聽覺總是存在「錯誤率」,這是必然的。降低機器識別錯誤率是必要的,這是乙個基本認識,對機器不能要求過高。機器耳朵永遠比不過人耳。

linux

社群也沒有

gpl可用的語料庫(

voxforge

不帶我們玩)。怎麼辦?天上不會自動掉餡餅。要知道,私有公司建立自己的版權大型語料庫總是要付出巨大的投入成本。而我們有人喜歡天上掉餡餅,整天坐在院子裡面張著大嘴巴對著藍天等著天上掉下餡餅來。

袁萌 7月14

C 語音識別(文字to語音 語音to文字)

最近打算研究一下語音識別,但是發現網上很少有c 的完整 就把自己的學習心得放上來,和大家分享一下。1 speechsdk51.exe 67.0 mb 2 speechsdk51langpack.exe 81.0 mb 文字to語音 這個相當的簡單。1 在com選項卡裡面的microsoft spee...

C 語音識別(文字to語音 語音to文字)

最近打算研究一下語音識別,但是發現網上很少有c 的完整 就把自己的學習心得放上來,和大家分享一下。1 speechsdk51.exe 67.0 mb 2 speechsdk51langpack.exe 81.0 mb 文字to語音 這個相當的簡單。1 在com選項卡裡面的microsoft spee...

定製你的語音識別 並行語音識別解碼空間

圖1為通用的語音識別解碼器框架,聲學模型我們採取的是隱馬爾可夫模型模型,其發射概率為混合高斯矩陣。語言模型我們採用的是n gram的方式。這裡聲學模型和語言模型都為單一的乙個模型。圖1 通用的語音識別系統框架 圖2 並行解碼空間的系框框架 相對通用的解碼系統,並行解碼空間系統主要增加了三個模組 多路...