語音識別結合應用場景各位大咖也有一些精彩論點

近二十年來，語音識別技術取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內，語音識別技術走進了工業、家電、通訊、汽車電子、消費電子產品等各個領域。語音識別作為人工智慧發展最早、且率先商業化的技術，近幾年來隨著深度學習技術的突破，識別準確率大幅提公升，帶動了一波產業熱潮。對語音識別未來發展，各位大咖也有一些精彩論點。

科大訊飛研究院副院長——王士進

王士進表示，語音識別是人機互動裡很重要的模組，從pc時代到現在的移動互聯時代，人機互動由滑鼠鍵盤走向智慧型手機、pad等的多點觸控。到了智慧型硬體時代，互動則更加多元，不僅有觸控，還有基於語音、視覺的互動。原本是以機器為中心的人機互動，逐漸走向以人為中心的自然互動。

他認為，在將來萬物互聯的浪潮下，以語音為主，鍵盤、觸控、視覺、手勢為輔的互動時代很快會到來。

提到傳統的語音互動，王士進列舉了幾個缺點：第一，互動距離要近;第二，發音必須標準;第三，環境必須安靜;第四，人機不能持續對話。

科大訊飛在2023年提出aiui，旨在解決上述問題同時期望在人工智慧時代提供一種智慧型的人機互動介面。aiui提供遠場喚醒和識別降噪方案，相容全國近17種方言，可以進行全雙工互動和基於業務場景的多輪對話，同時結合訊飛超腦的認知智慧型使得機器進行更智慧型的互動。

aiui實現了軟硬一體化、雲端一體化、技術服務一體化，通過三個一體化提供人機智能互動整體解決方案，使得使用者可以快速切換到新的業務場景。

在提到基於aiui互動技術的一些商業化嘗試時，王士進列舉了幾種：

在交流方面，科大訊飛在05年推出了聽見智慧型會議這款產品。一般來說，會議場景的同傳準確率為80%左右，而智慧型會議轉寫準確率則能達到90%以上，之後，其在醫療和司法系統進行了應用。另外，科大訊飛還推出了便攜翻譯機，易於隨身攜帶，方便遠端實時交流。

在電視方面，最早的電視是用數字加上下左右按鍵控制僅有的十幾個臺，而現在的智慧型電視後台對接海量資源，通過訊飛智慧型電視助手可以進行方便的語音互動，節省時間。

在汽車方面，由於人在駕駛時候手不能離開方向盤，故把語音引入代替手進行互動會方便許多。實際上相比其他應用場景，語音識別由於汽車場景的噪音更強，面臨更大挑戰，而科大訊飛也在基於車載的語音識別做了許多優化，更在寶馬、賓士、通用舉行的全球車載語音識別比賽取得第一名，有效的支撐了車載場景的互動。

在機械人方面，機械人與人的語音互動滿足自然互動、個性化服務以及基於業務場景的整合服務，可以方便的任意打斷，在理解使用者的需求下進行精準的內容推薦和服務。

語音識別和自然語言理解都是基於統計和概率體系，所以商業化過程建議選擇人受到一定限制（如車載）或者很難做百分之百正確（如會議同傳）的場景，然後隨著技術的進一步成熟，可以進入到更多的場景。

最後，王士進總結道，「語音識別和人機互動技術在進行技術優化的同時更要結合應用場景，最終可使得技術完善，產業更好的發展。」

他把輸入法在語音識別中的作用表述為：輸入法這一場景對語音識別效能提公升有非常大的幫助。

主流的說話人識別技術使用經典的dnn-ivector技術，其框架基於統計模型，並將dnn引入此框架去學習。

從商業化的角度分析語音識別，可將其應用分為兩個維度，第乙個是近場和遠場，第二個是人配合機器說話和人對人說話的不同說話風格。經過這樣劃分會發現很多語音場景其實是處在不同的語音象限裡面，目前業界所做的近場人對機器說話的識別準確率可達90%以上，但另外幾個場景所做不盡人意。

在李先剛看來，隨著語音技術的推進，輔之商業化情景必將推動產品和技術的發展。

搜狗語音互動技術中心研發總監——陳偉

從2023年到現在，隨著資料和演算法的提公升，搜狗的語音識別的識別錯誤率是逐年下降的。陳偉分享了一組資料：到目前為止，搜狗輸入法每天的語音識別請求量高達2億次，每天產生語料達到18萬小時。

陳偉表示，搜狗在2023年發布知音引擎，對外輸出完整的語音互動解決方案，也一直在探索語音識別和互動的不同場景和經驗。語音識別可以更好提公升輸入、記錄、交流的效率，其可分為聽寫和轉寫，聽寫更多要求實時性，轉寫則面向客服資料，不要求實時。另外，語音識別技術面向不同客戶，除了直接提供給消費者，還有一些公司、企業如法院、醫院等，語音識別的應用場合則更多是在演講、直播、語音分析中。

語音識別不是乙個單獨的技術，其需要同其他技術進行融合，比如機器同傳、語音互動，未來的產品將會是技術與技術的組合，產品與產品的組合。

對如何做出一款好的語音互動產品，陳偉認為首先是要重視場景和知識。只有技術（asr、nlu等）與具體應用場景比如車載、智慧型家具、可穿裝置結合在一起，才能得到穩定的產品。另外，僅僅有技術是不夠的，還需要技術創新。在得到良好的使用體驗之後使用者基數會擴大，帶來更多資料，這些累積的資料也是推動技術提公升的關鍵。只有有了產品的迭代、有了真實的資料才能更好的分析出使用者需求，更好的推動產品發展。

他表示，技術與產品缺一不可。

「語音互動以技術為驅動，加之好的運算力帶來大量資料，以此進行迭代，不斷通過技術和產品的耦合得到更好的產品。」

思必馳cmo——龍夢竹

「目前的語音產品識別率再高，也只是作為乙個參考。」

龍夢竹提到，在識別率的數字背後，諸如降噪、遠場、回聲消除及聲源定位等也需要關注。

那這幾個詞在整個語音技術裡面有什麼作用呢？

其可以影響識別率和準確性以及是判斷語音互動產品是否實用的重要方向。

目前，各個公司做的都是端到端的，非配合的私人互動系統，在這整個系統裡基本分為三個層面：從感知、到認知、到抽象思維的智慧型。

首先從感知的方向，要保障機器能夠聽得清，在克服環境、降噪的方面有很大挑戰的。以思必馳為例，其依靠強大的資料庫，已經把錯詞率降低到了7.19%，比業界普遍的10%有了非常大的效率提公升。

另外，聽清以後需要讓機器快速反應。常常會有客戶好奇「你們的產品是本地還是雲端？」實際上，現在業界包括思必馳所做的都是本地+雲端，一些簡單的喚醒詞、指令可能會放在本地。思必馳目前的本地識別指令最高支援三千條，當然，最高支援數目和產品的硬體配置、系統是相關的。而更多的需要交流的，需要機器思考的部分放到雲端。

最後，機器能夠聽清並且能夠快速反應了，反應出來的效果如何？這個效果用專業術語可以稱為tts，tts的優劣很大程度會決定產品體驗的優劣。許多人理解的tts可能是明星的合成音，而這些合成音不能適用於所有場景。

目前業界提出的97%、98%、99%的識別率這只是單獨針對語音識別而言，在不同的領域、場景下，針對不同業務方向的語音識別和語意理解其實是有層次不齊的，這個圖顯示了在家庭和車載環境下不同的準確率。

龍夢竹談到，無論在哪個領域做語音互動技術，都必須要滿足幾個要求：

第一要滿足使用者剛需;

第二不一定是高頻使用，但在某一場景能讓使用者形成依賴性;

第三，語音技術背後一定要有第三方的內容和服務作支援，因為它只是一種互動手段;

「我們一再強調的是，語音只是乙個互動的手段，而不是一種功能。」現在的語音還沒有達到全國人民普及的程度，但未來一定會實現。而這一手段，其背後第三方的內容和服務是比語音本身更重要的東西。

最後，互動體驗一定要好。

語音識別結合應用場景各位大咖也有一些精彩論點

人臉識別應用場景

車牌識別技術應用場景

功能設計與應用場景結合

語音識別結合應用場景 各位大咖也有一些精彩論點

人臉識別應用場景

車牌識別技術應用場景

功能設計與應用場景結合

相關推薦

語音識別結合應用場景各位大咖也有一些精彩論點