你怎麼看當前中文語音識別技術在國內的應用?

2021-10-25 07:26:51 字數 1399 閱讀 8944

實際情況如何?實際是有五大黑幕!

黑幕1:是否標明了測試資料集?

很多廠商在宣傳達到97%、98%時,都沒有提到資料集,最近依圖發布語音技術的新聞是明確提出用的是aishell-2資料集,值得讚許。

現在市面上有這麼幾種公開資料集:

thchs-30

thchs-30是在安靜的辦公室環境下,通過單個碳粒麥克風錄取的,總時長超過30個小時。大部分參與錄音的人員是會說流利普通話的大學生。內容以文章詩句為主,全部為女聲

st-cmds

st-cmds是由乙個ai資料公司發布的中文語音資料集,包含10萬餘條語音檔案,大約100餘小時的語音資料。資料內容以平時的網上語音聊天和智慧型語音控制語句為主,855個不同說話者,同時有男聲和女聲,適合多種場景下使用。

primewords chinese corpus set 1

primewords包含了大約178小時的中文語音資料,這個免費的中文普通話語料庫由上海普力資訊科技****發布。語料庫由296名母語為英語的智慧型手機錄製。轉錄準確度大於98%,置信水平為95%,學術用途免費。抄本和話語之間的對映以json格式給出

aishell-2:

aishell foundation和希爾貝殼宣布的開源資料庫,其資料規模達1000小時,是目前全球最大的中文開源資料庫。

可以說資料集代表著測試的難度,直接反映軟體的應用水平。如果某公司用訓練集做測試資料集那還不都是100%?

黑幕2:成績是否可以復現?

準確率水平大多自說自話,其他人根本無法對其驗證。準確率97%或98%可以把所有的錯誤讓2%或3%去背鍋,所以需要第三方根據提供的資料集進行成績復現才能證明準確率的有效性。不能夠復現的成績我還可以說我99%呢,反正你也不知道我怎麼測的。

黑幕3:是否會標明轉寫用時?

大多數不強調,但對體驗影響很重要。在實時轉寫的時候,我們會預設說完就會出文字。但是實際會有一定的反應時間,發音時間過長,可能下一段語音開始了這邊還在轉寫上一句的內容,基本上就會丟失很多資料資訊。畢竟在會議或者有些場合,你不能打斷領導們的講話,說我的轉寫還沒有完成。。。所以轉寫用時在實際應用中也是非常重要的。

黑幕4:不同場景下的效能普適性?

很多廠商宣傳達到97%、98%時,不會明確給出應用場景,誤以為所有使用情況都有97、98,產生誤導。很多測試集都是近場和靜場測試結果。很明顯,我們大多數時間不會在安靜的屋子對著手機或者麥克風自言自語。我們在街上,地鐵裡,不太安靜的工作環境甚至在大會堂的講話功放的準確率可能還不到80。所以,這種語音識別工具我們用個錘子啊!(忘了錘子也沒得用了。。。)

黑幕5:免費和收費版效能差距?

一些廠商開放平台上的演算法只是落後版本,比如你在某種場合用的不好,他會叮的一聲給你蹦個彈窗:「快速解鎖xx模式,識別效率提高99%喲」。然後換個場景又回再來一遍解鎖其他場景。先不說提高多少,效果能有多好,但是這種用個辦公軟體都要當個人民幣玩家讓人想想就會十分不爽!

梯形書櫃,你怎麼看?

2014 11 07 17 30 網頁設計 標籤 設計 1220 其實,書櫃好不好看,一在於是用的什麼顏色的板子,另外肯定是造型了。書櫃的造型千變萬化,功能方面,除了放書或許還會放置點陳列物,裝飾物等。我今天有位客戶,他就想讓他的書櫃做到眼前一亮的感覺。在設計方面上,我其實建議採用不浪費空間的設計方...

BAT電話面 你怎麼看?

bat 面會問你什麼問題呢?假設你突然接到了 面試官問你以下問題,你會說出怎樣的回答呢?可以根據時間複雜度來劃分 比較常用的有兩種方法 在陣列中,基於快速排序,當分界點 mid 索引為 k 1 從 0 開始 時,左邊的數都小於 mid,右邊數都大於 mid,此時分界點 mid 為第 k 大的數。注意...

微軟收購Xamarin,你怎麼看?

今天的最大新聞就是微軟收購熱門初創企業xamarin,從網上的反饋大部分都是積極的,也有擔心微軟在把xamarin移動開發技術整合進vs的同時,還很有可能廢掉mono的gui客戶端能力只保留.net core那樣的命令列應用和web服務部分。這也是有可能發生的事件,靜待時間的檢驗。知乎上也有乙個帖子...