人才為王,語音識別技術並非高不可攀

2021-09-23 09:14:46 字數 1976 閱讀 9892

nuance的語音技術是以統計推斷方法為基礎,著眼於音素(音節的聲音)和語境來識別話語。在識別的方面,在引擎和演算法技術方面nuance領先乙個層次。畢竟有著多年的積累。

但是,在具體應用上,差距就沒有那麼大了——語音識別技術並非高不可攀,好的語音識別系統,很大程度上依靠經驗,專利和演算法什麼的並沒有多重要。所以只要google們挖到牛人,自主研發出不遜於nuance的語音識別技術並非難事——因為大家的純識別率都在乙個水平線上,差不多都達到了當前技術(主要是nuance採用的技術)的極限,差距不再可感,但再往上走,如果基於當前的技術,路會越走越窄。如果考慮到周圍環境的噪音、使用者發音不准、方言等等因素,這種技術的前景並不樂觀。這個時候就要從另外乙個角度考慮問題了——語義理解。

舉乙個例子,張飛張翼德在長阪坡嚎了一嗓子,我想,五湖四海出身的曹軍們沒有多少人能辨清楚張三爺的每乙個字(就不信漢朝沒有方言,就不信張飛說話不方言,就不信有多少人能聽得懂張飛的方言),他們沒有100%聽清楚,但是,他們聽懂了,然後害怕了,於是,撤退了。為張飛的名聲添磚加瓦。

在日常生活當中,如果只從語音出發,我們根本沒有可能聽懂xx牌普通話,但是我們還是聽懂了,更能用另一種牌子的普通話和他交流。這就涉及到語義理解。

關於語義理解,目前一門技術正火,神經網路。這是一種十分炫酷的技術,將機器學習的方式模仿人類大腦的神經元,當處理的語言越來越多時,這種網路就可以逐漸理解語言。實驗結果發現,這種技術可使得精確度提公升25%以上,這是乙個巨大的飛躍,因為這個行業只需要提公升5%就具備革命意義。目前,谷歌的google now、微軟的cortana都採用了這種技術。人工智慧大師傑弗里·希爾頓(geoffrey hinton)在2023年初加盟谷歌。此外,谷歌還挖走了nuance的一些職員,其中包括在2023年挖走nuance聯合創始人邁克·科恩(mike cohen),讓他出任谷歌的語音技術總監。至於微軟,我只有一句話,微軟研究院裡的大牛們真的是大牛啊。感興趣的可以查一查微軟在這方面的技術。

google和微軟都參合了,蘋果當然不會落後。來自wired 的訊息,蘋果正在著手更換掉 nuance,打算用自己研發的語音識別技術,最快可能在ios 9中亮相。在過去幾年,蘋果不僅吸納了siri的語音技術人才,更是將nuance公司的多名高階語音研究人員挖角過來,包括了前研發副總裁larry gillick,以及來自微軟語音識別專案高管alex acero,後者在微軟工作達 20 年之久。蘋果打算利用神經網路來提公升語音識別率,微軟研究部門主管 peter lee 認為,蘋果大約需要花6個月才能趕上google 和微軟。2023年,蘋果悄悄收購了一家語音識別技術公司novauris technologies,**未知。novauris公司以語音識別著稱,由其推出的產品和語音識別系統並非簡單的識別單個的詞句,而是理解上下文。novauris 也成推出乙個名為 novasystem 的分布式伺服器語音識別系統,可同時處理多個併發語音請求,識別完整的句子,並分析音節結構。

說完國外,再說說國內。

看過國外百舸爭流,再對比國內的欣欣向榮,在不入流的算命先生都能得出結論,語音是個大熱門,是未來的趨勢。

這個趨勢是實實在在的,不是吹起來的泡沫。

人類打成為人類以來就使用聲音,聲音已經融入我們的身體,成為一種本能,它是最優的表達方式,這也就是為什麼iphone4s能夠在普遍看衰的情況下大賣的關鍵,所有人都低估了siri,低估了人們對人機互動模式從鍵盤公升級到聲音的渴望。

在未來,也許就是不久的未來,智慧型家居(通過微軟的cortana,已經可以實現語音開燈關燈拉窗簾。這不是google now和siri無能,完全是因為微軟開放了api,google now和siri沒有開放)、駕駛等等領域。人機互動的領域越來越廣,語音的前景必將大到不敢想象。想象一下,當網際網路發展到無處不在時,人們隨時隨地都在網際網路之中,人機互動甚至可能會是時時刻刻,語音會是乙個多麼大的市場。

什麼?你說腦波?

我覺得腦波這玩意和幸福、上帝一樣,你相信它存在,它就存在。

語音識別技術

中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...

語音識別技術

雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google 微軟。在我們的前面幾篇 blog 中已...

語音識別技術概覽

語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn 深度卷積網路cnn。在端到端方面也是從隱馬爾科夫hmm到ctc lfmmi,再到attention方面 下面是一些模型列表 1.混合高斯 隱馬爾科夫模型 gmm hmm 2.深度神經網路 隱馬爾科夫模型 dnn hmm 3.深...