搜狗語音互動唇語識別

無聲的世界裡，你只要動動嘴唇，就可以被識別出說了什麼、甚至被轉化為語音，是不是很智慧型便利、同時又頗為驚悚？

今年 12 月，第四屆世界網際網路大會，搜狗發布唇語識別技術，也系業內首次公開演示。其背後的商業邏輯是什麼？這項技術發展到什麼地步了？

一、為什麼要做唇語識別

搜狗語音互動技術中心負責人陳偉首先回顧了搜狗在語音互動方面的發展歷史——早期搜狗於移動時代主要做兩件事——輸入法與搜尋。後來進入智慧型時代，裝置由手機變為 iot 裝置，人與智慧型硬體之間的連線也變為搜狗知音引擎這樣的自然互動引擎，而硬體、資訊，或更深度資訊之間的連線，則是利用深度引擎來連線。

於搜狗語音互動整體而言，語音、翻譯、識別合成技術，以及目前剛剛公開的唇語識別，均係搜狗語音識別大框架之下的內容，「這也體現了搜狗目前人工智慧戰略即是自然互動與知識測算。」

至於搜狗知音引擎自去年 8 月 3 日發布之後，到如今的一年多時間裡，已形成三個解決方案：

語音聽寫解決方案；

語音互動解決方案；

語音翻譯解決方案

陳偉表示，就本質而言，聽寫技術的作用就是將語音轉化成文字，而如今搜狗發布的搜狗聽寫，則是希望通過機器的方式，自動將人的語音轉化成文字。具體落地上，搜狗聽寫技術已經落地上百場會議，包括法院評審等工作。

而聽寫模組的語音互動，則結合了語音識別、語音合成與語音理解的能力，應用於不同剛需場景，包括手機、移動端穿戴裝置、車載後視鏡與車機等，也包括後續會應用的智慧型家居。

直到此次世界網際網路大會，搜狗 ceo 王小川演示了最新語音同傳案例與唇語識別技術，陳偉表示，除了同傳，現場最稱得上黑科技的，就是搜狗唇語識別技術了。

回顧唇語識別技術的研發起始，陳偉對雷鋒網稱，當初主要考慮著，圍繞搜狗主路線上的工作，將影象和語言進行打通，實現從影象中轉化出人講話中的資訊——「這也是對唇語識別的整體思考，以及對應整個知音引擎產品思考上的唇語識別的乙個位置。」

王小川則表示，「因為搜狗搜尋和輸入法其實都在跟語言打交道。一方面幫助人們用語音表達，另一方面通過語言獲取網際網路上的資訊，但在一些嘈雜、甚至無聲的環境裡，語音所能發揮的作用是有限的，於是在這種情況下，搜狗決定發展基於視覺的語言識別能力作為補充」。

具體應用上，就是將語音識別與唇語識別相結合，在噪音特別強的情況下，讓後者輔助前者，形成包括視覺、音訊、唇語在內的多模態輸入。

目前，陳偉對雷鋒網表示，在解決雜訊問題上，仍是麥克風陣列比唇語識別更靠譜。在落地速度上，麥克風陣列已然落地，而唇語識別剛剛啟動研發第一步，之後將要進入與音訊結合解決降噪問題的階段。

但唇語識別有其獨特的場景優勢，例如，當周圍過大噪音造成語音指令無法被準確捕獲、識別時，唇語識別可以幫助規避這一影響，確保輸入的準確率，保證互動的穩定性；在安防領域中，由於目前很多監控場景，如電梯、馬路中只有攝像頭沒有麥克風，通過唇語識別技術，則可以獲取重要的使用者講話資訊，為公共安全提供有效支援；此外，搜狗唇語識別還能服務於聽障、失語人士等。

綜合來講，陳偉表示，目前搜狗唇語識別主要應用於兩大場景：

其一，在多數語言場景下，攝像頭的覆蓋率遠遠高於麥克風，但通過攝像頭獲得的影象資料主要用於監控簡單的行為，很難在安防等場景中，精確了解圖中人物在說什麼，但使用唇語識別技術就可以通過嘴的動作獲取大量內容資訊；

其二，唇語識別可以作為輔助技術，提公升語音識別技術現階段的準確率。搜狗的唇語識別技術目前在開放的口語測試級上可以達到 50%-60% 的準確率，在限定場景中可以達到 90%。

二、發展狀況與難點

相較於採用傳統模型來研究唇語識別技術的英國東英吉利大學，搜狗選擇了採用深度學習的方式來做，主要圍繞著：

一，到底用了多少資料

二，演算法複雜度有多高，儲存能力有多強

三，應用場景到底是什麼

那麼唇語識別的難點在**呢？

第一，陳偉表示，語音互動準確率低的問題一直沒有解決，很大原因就是語音雜訊問題無法解決，加入安置到安靜場景中，就可將準確率提高到 97% 的高度。也就相當於近場語音聽寫的過程，但這種理想狀態是很難實現的。

為了解決這個問題，陳偉表示，搜狗提出兩種方式：

一是通過硬體的方式，比如團隊正在做的麥克風陣列，通過增強語音頻號的方式，將雜訊遮蔽掉，提公升語音識別準確率。

其次，繞開雜訊，能動性地新增多模態資訊，也就是所謂的在唇語識別外新增視覺資訊

第二，目前的人工智慧多是機器模仿人，但弱人工智慧很難實現對人類的超越。「也就是讀唇這件事光看唇動的話，並不是乙個非常明顯的特徵，往往依賴於上下文語言的資訊。」

此外，陳偉表示，普通話有 4 個調，而英文沒有調，因為英文基本的發音單元在 50 個左右，而中文如何聲韻母切開來看的話，如果詳細建模至少在 200 個左右，所以發音單元之間有很大的差別。

最大的難點則在於泛化能力的訓練。陳偉以 google 舉例稱，google 的泛化是基於 2010 年至 2016 年整個新聞訪談訓練集的資料，在閉集訓練內，準確率可以保證為較高水準。比如搜狗早期針對新聞聯播級主持人的泛化訓練，其準確率可達 70% 以上。

陳偉對雷鋒網表示，基於開放口語測試級時，基本可以保證 50%-60% 的準確率，而在垂直場景下，由於語音相對來說不會太發散，準確率可以相對提高，比如在車載與智慧型家居場景下。

至於唇語識別是否會涉及到使用者隱私安全這個問題，陳偉表示，目前技術發展狀態還未到該階段，搜狗正在探索唇語識別與哪些具體剛需場景結合。

搜狗語音互動唇語識別

唇語識別真會是語言互動的終極戰場？

唇語識別錯誤是什麼意思人臉識別支付是什麼意思？

語音識別哪家強訊飛搜狗百度阿里還是騰訊

搜狗語音互動唇語識別

唇語識別真會是語言互動的終極戰場？

唇語識別錯誤是什麼意思 人臉識別支付是什麼意思？

語音識別哪家強 訊飛 搜狗 百度 阿里還是騰訊

相關推薦

唇語識別錯誤是什麼意思人臉識別支付是什麼意思？

語音識別哪家強訊飛搜狗百度阿里還是騰訊