語音識別的個人小總結

2021-06-22 12:27:12 字數 1664 閱讀 8361

可供使用的語音識別有google, 

訊飛,openears

,微軟。

這些都是通過網路上了解到的,可能有所差異。簡單的聊一下各個的優缺點。

這是我個人總結各個大家的見解,有可能有所差異。會隨著了解的深入實時更新的 。

google:

介面,通過該

api可以進行中文、英文等語言的識別 優點

: 1,語音識別引擎龐大,識別精度很高,適用於文字語音識別。提供多國語言的語音識別。

2.,任何平台都可以進行訪問,容易使用。 缺點

1,api未開放,未能獲知具體開發細節。 2,

識別引擎位於伺服器端,識別的速度和網路質量有關,識別速度較慢。 3,

待識別音訊的格式、大小、時長的限制。

4,可能有時候政治問題影響 不能訪問

google

,則影響整體的效能。

microsoftspeech sdk

:微軟公司提供在windows

平台上開發語音識別和語音合成應用程式的開發包,簡稱為

sapi

,內含sr

(speech recognition

)和ss

(speechsynthesis

)引擎,因此可以很方便地在自己的應用程式中新增這些功能。 優點

1,基於com

元件,便於與

directshow

中的元件整合。 2,

語音識別引擎位於本地,便於訪問,識別速度較快。 3,

待識別音訊的大小、時長無限制。 缺點

1,缺少其他平台的支援,僅支援windows

平台。

2,語音識別引擎不夠龐大,識別精準度較低。 3,

僅提供中日英三種語言的語音識別功能。

科大訊飛:

實現基於http

協議的語音應用伺服器,支援語音合成、語音聽寫、語音識別、聲紋識別等服務

,提供基於移動平台和pc

上的語音客戶端子系統,內部整合音訊處理和音訊編譯碼模組,提供關於語音合成、語音聽寫、語音識別和聲紋識別完善的

api(

優點

1,支援平台豐富,各個平台上都有相應的詳細sdk文件

2,語音識別引擎較龐大,對中文的識別精度很高。 3,

具端點檢測功能,便於劃分識別文字的句子。 缺點

1,識別引擎位於伺服器端,須遠端訪問,識別速度較慢。

但是現在部分平台(比如安卓可以實現離線的語音識別了。其他的平台也正在嘗試。) 2,

對語言支援不如google

,目前僅支援中文聽寫。 3,

需要使用1028

埠,在某些地方會有使用限制。 4,

當軟體使用者達到百萬次後,需要開始收費

(這是比較不好的,尤其是比較大的公司使用一定要注意,萬一中間人家不給你返回了,到時候協商就是錢的問題了)。

openears, 

試了一下他的demo

,發現只能識別限定的詞,如

up, left, right, turn, go.(

感覺比較適用於遊戲,就是那種控制方向的遊戲,但又不能是那種反應很快的遊戲,因為識別的速度跟不上)

優點: 1,

免費 2,

不依賴網路執行。

缺點: 1

,只能識別限定的詞

對於一些比較根據實時語音的就不方便了。

語音識別的難點

儘管語音識別的研究已有半個世紀了,但現有的語音識別系統仍存在許多困難,還遠遠達不到實用化的要求,主要表現在 1 魯棒性 目前的語音識別系統對環境條件的依賴性強,要求保持測試條件和訓練條件一致,否則系統效能會嚴重下降。2 雜訊問題 現有的語音識別系統大多只能工作在安靜的環境下,一旦在雜訊環境下工作,講...

語音識別的基本方法

一般來說 語音識別的方法有三種 基於聲道模型和語音知識的方法 模板匹配的方法以及利用人工神經網路的方法 1 1 基於語音學和聲學的方法 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元,而...

基於語音識別的提醒鬧鐘專案總結

周老師叫我做乙個語音識別的提醒小鬧鐘,功能很簡單 要有qq登入,說出幾點提醒我幹什麼這句話,分離出時間和事件,設定鬧鐘提醒。同時 qq號,提醒時間,提醒事件 要上傳到伺服器的資料庫裡。功能不難,但是學了不少東西,也做了3週多。有幾點需要記錄 1 新增.so檔案時候,必須在build.gradle裡的...