與機械人對話的語音識別解決方案

2021-10-25 07:33:04 字數 1660 閱讀 7960

語音觸發器架構的選擇

一次語音觸發是乙個簡短的關鍵字或者詞(例如「你好!手機」),它能夠使裝置被喚醒並且響應後面輸入的語音。圖1所示即為這種半自主的低功耗的「永遠工作」的處理域,它為這種語音觸發提供了乙個平台。

圖1:使用了乙個音訊中樞的永遠工作的語音觸發。

音訊中樞為語音觸發功能提供了乙個自然的中心,它帶有通往所有內部功能和耳機麥克風埠的介面,並且在待機模式下通常也在執行,這是因為需要處理像附件介面監控其它原因。這個降低了系統中諸如時鐘發生器和電壓參考等常用基礎功能的重複率,降低了靜態功耗。音訊中樞裡針對語音喚醒的硬體優化使訊號處理週期針對不同環境的雜訊情況將被保持在絕對的最低值,將平均電池電流最小化。

可相互替代的架構分成兩類:分離式解決方案和基於系統級晶元(soc)語音的觸發。其功率消耗情況和使用者互動方式在很大程度上依賴於對這些架構的選擇。軟體架構,尤其是管理應用場景轉換和串列埠配置的軟體,也在確定交流方式中扮演著乙個重要的角色。

基於系統級晶元(soc)的語音觸發器(如圖2)往往因為主要的**處理單元持續活躍而引起的非常高的靜態功耗開銷。這些解決方案的電池電流消耗通常比那些基於音訊中樞的解決方案高出乙個數量級。

圖2:基於soc的語音觸發模式。

分離式解決方案(如圖3)通常使用來自主音訊通道的不同的硬體介面。這有時可以導致音訊不持續,原因在於應用場景轉換管理和噪音抑制的啟用/禁用等在不同的積體電路間,因為延遲和訊號格式不同等因素而變得複雜。這些不連續有時會引起通話被中斷,尤其是在轉換到工作模式執行發生時,從而導致了對可聽見提示的需要並限制了交流方式。在一些情況,因為連線到有限數量的麥克風也能限制其使用性(例如耳機麥克風的操作)。

圖3:分離式語音觸發解決方案。

確保更好的使用者體驗

由於所有技術創新都是從根本上改變使用者與消費電子裝置互動的方式,衡量成功的真正標準是使用者對他們所期望的改變的回應。參考觸控螢幕案例,新的語音控制技術的最終目標是它們應該成為下一代移動硬體可接受的和所預期的一項功能。我們將可能非常快就學會如何與新一代能夠響應語音的機器進行互動,其方式與我們在觸控螢幕中開發出來的直觀熟悉性大致相同,直到像觸控功能已經成為進入市場的新裝置的乙個標準功能這樣的程度。

儘管如此,不同於較早的在遠端也是人類的語音通訊技術,仍然不確定的是使用者在熟悉技術的行為特性後,是否將受益於與其裝置進行了有用的或有趣的溝通。這在很大程度上取決於該技術的效能,但是今天用來衡量語音識別效能的標準仍然很粗放,並且不足以用來描述未來代系語音識別系統的有效性。考慮到更高階別的機器智慧型化、與系統其餘部分的互動,以及與雲計算的互動,還需要一種更廣泛的方式。一種不會限制或者延遲下一代改善的音訊架構,能夠使這些效能跨越更加迅速地發生,很大程度上將不受硬體和低級別韌體的限制。現在已經可以使用這種技術去構建移動裝置。

低功耗音訊中樞待機模式音訊處理能力已經突破了語音識別可用性中一些最關鍵的瓶頸。雖然去除按鍵是乙個重要的里程碑,但這只是可用於今天移動平台設計的許多語音識別提公升中的一項。但在整合階段選擇了合適的架構,就可以支援一種完全自然的溝通風格,它極大地改變我們在未來幾年使用移動裝置的方式。

遙操作機械人解決方案

遠端機械人技術可用於遠端醫療 遠端超聲診斷 5g遠端機械人 機械人遙操作 遠端救災等領域 遙操作機械人技術可應用於遠端醫療 遠端診斷 遠端抓取 空間探測 危險環境 核放射 有毒化工 易燃易爆 病毒傳染 作業等領域。相對於 機器換人 遙操作機械人體現的是 機器幫人 它能夠讓操作者以自然可控的方式實時操...

(推薦)叮噹 中文語音對話機械人

叮噹是一款可以工作在 raspberry pi 上的開源中文語音對話機械人 智慧型音箱專案,目的是讓中國的hacker們也能快速打造個性化的智慧型音箱。叮噹包括以下諸多特性 推薦使用映象安裝的方式,像安裝 raspbian 系統一樣,安裝完後,只需要少量的配置即可立即使用叮噹機械人。映象安裝方法詳見...

LTE語音解決方案與優化

現在國際主流的lte語音解決方案包括雙待機 csfb volte三種,而volte被公認為lte語音的最終形態。北美 南韓等已經建網的4g運營商都採用雙待機或csfb為過渡方案。volte為英文voice over lte的縮寫,直譯就是音訊通過lte網路傳送,由此可以看出這是一項語音技術。volt...