唇語識別真會是語言互動的終極戰場?

2021-08-13 19:52:30 字數 2798 閱讀 4373

文 | 夏汀

** | 智慧型相對論(aixdlun)

在今年的烏鎮世界網際網路大會上,搜狗展出了一項黑科技——唇語識別,12月14號搜狗在北京又公開演示了這項技術。作為行業領先的唇語識別系統,搜狗在非特定開放口語測試中,通用識別的準確率在60%以上,而在車載、智慧型家居等垂直場景下,已達到90%的準確率。

雖說搜狗是國內第一家公開演示這項技術的公司,但早在2023年3月,海雲資料創始人兼ceo馮一村在亞洲大資料可視分析峰會上,就發布了重慶市公安科研所與海雲資料共同研發的唇語識別技術,它的中文識別模型準確率已達到70%。

這並不是場獨角戲,那唇語識別到底是何物?未來又有著怎樣的想象空間?

雖說唇語識別近期才進入公眾視野,但唇語識別技術的發展可以追溯到上世紀80年代。

當時,語音識別技術迅速發展,出現了許多實用的語音識別系統,然而這些系統抗干擾能力不強,在有背景噪音與交叉談話的情況下,它們的效能會大幅降低。而在自然應用環境中,噪音現象十分常見,研究者們為了解決上述缺陷,一方面採用降噪技術降低干擾,另一方面開始尋求其它解決方法。

那唇語識別技術是怎麼發展來的呢?語音識別的研究者們突然發現,其實人類的語言識別系統是由兩個感知過程構成的,聲音雖然是人類語言認知過程中最重要的方式,但在日常交流中,我們還會用眼睛看著對方的口型、對方的表情等,來更加準確的理解對方所講的內容。受此啟發,研究者們開始研究唇語識別。因為唇語識別完全不會受到雜訊干擾,在多人對話中也能有效進行區分,這就有望解決語音識別的缺陷。事實上也是,將唇語識別與語音識別結合起來能夠大大提高系統的正確率和抗干擾能力,於是唇語識別便有了更多的發揮空間。

(圖為:唇語識別的步驟)

其中,視覺前段包括人臉檢測與唇的檢測和定位,早期檢測方法比較笨拙,不允許人臉自由移動,有些還會手動新增特定標誌來跟蹤唇動。目前的檢測方法主要是基於演算法,先用人臉檢測演算法得到人臉然後有針對性的定位唇動;或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇影象。

視覺特徵提取是對獲取的唇影象進行處理得到對應特徵,特徵提取方法主要分為兩大類:基於畫素的方法和基於模型的方法。所謂基於畫素的方法,就是利用包含嘴的灰度級影象或利用經過預處理後得到的特徵向量的一類方法。這種方法的缺陷在於對二維或三維的縮放、旋轉、平移、光照變化以及說話人的變化都很敏感,會造成提取過程中特徵丟失的情況,不能得到完整的特徵資訊。而搜狗所用的基於模型的方法就是,對唇的輪廓建立乙個模型,將特徵資訊包含在這個模型之中,並對模型中特徵資訊的變化用乙個小的引數來描述。這類方法的優點是重要特徵被表示成二維引數,不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維資訊,可能會對後面的識別過程造成影響。

目前唇動識別採用的技術大多是隱馬爾可夫模型,該技術基本思想是,認為唇動訊號在極短時間內是線性的,可以用線性引數模型來表示,然後將許多線性模型在時間上串接起來,組成一條馬爾可夫鏈。馬爾可夫鏈可以用來描述統計特徵資訊的變化,並且這種變化過程與人的唇動過程是相吻合的,所以隱馬爾可夫模型能夠識別唇動並與相應語句匹配轉化成文字。

唇語識別技術的應用方向有很多,比如手語和聽力障礙患者的輔助教育、國防反恐方面的情報獲取、個人的身份識別以及公共安全領域等都擁有巨大的應用潛力。但在目前來看最大的應用還是輔助語音識別,畢竟它自誕生之初就是為了解決語音識別的噪音問題而研發的,這也會使得語音互動更加完善。

那智慧型音響到底與唇語識別有啥關係?大廠們紛紛推出智慧型音響的原因是看到了新型互動方式的大趨勢,但是智慧型音響能夠滿足需求的場景較少,且智慧型音響還有兩大頑疾——抗噪音能力與遠場互動能力較低。

(圖為:5m 距離智慧型音響喚醒失敗次數統計)

而且,傳統語音互動對輸入音訊要求高,在背景噪音大時很容易失效,若人與機器再隔得遠一點,失效的情況就更加嚴重了。但唇語識別就可以解決這兩個問題。

一、攝像頭錄入存在很大的限制,不能完全滿足日常互動需求。在目前的唇語識別系統中,獲得的嘴唇視覺特徵資訊都是正向的,這就意味著你與它互動時,必須時刻正對著它,第一視角被其牢牢佔據,這在真實應用場景下難以達到。要能夠應用更多的場景,應該使人在側著身子說話時也能被檢測識別,這要求在人臉識別、唇的檢測與定位方面研究出更強的定位、跟蹤演算法,提高演算法的普適性,使之適用於非特定姿勢和位置的識別定位,並且唇動識別技術也要提高,使之能處理非正向的、較不完整的視覺特徵資訊。

二、識別的準確度也是乙個關鍵的問題,在有關安全的場景下,準確度是不容有差的。但我們知道其實口型與拼音串行是一對的多關係,如 zhi、chi、shi對應的口型序列是一樣的,單純利用視覺特徵難以區分,會造成資訊識別錯誤,處理這個問題,傳統的技術方法是文法型語言模型,它基於人工編制的語言學文法,這種語言模型一般用於分析特定領域內的語句,無法處理大規模的真實文字。目前很多識別系統是人工限定的框架,在某一場景中對可能會出現的語句進行了很多設定,這是搜狗唇語識別系統在垂直場景(如車載)中表現得很好的原因,這同樣也是它還不能大規模應用到其他場景的原因,因為要對所有場景進行設定,幾乎是不可能的。

不過,我們依然要滿懷信心,隨著人類社會的發展,真實資訊越來越多,處理資料的手段也越來越豐富,基於語料庫的統計語言模型發展迅速,借助於統計語言模型的概率引數,可以估算出自然語言中每個句子出現的可能性,並通過對語料庫進行深層加工、統計和學習,獲取自然語言中的語言知識,從而可以處理大規模真實文字,並能識別出語言中細微的差別。目前在通用識別場景的準確率只有60%到70%,雖然稍顯不足,但可以預見,隨著大資料與人工智慧的發展,未來的識別準確率會達到更高。

這看起來,乙個新的時代正向我們迎面走來。

搜狗語音互動唇語識別

無聲的世界裡,你只要動動嘴唇,就可以被識別出說了什麼 甚至被轉化為語音,是不是很智慧型便利 同時又頗為驚悚?今年 12 月,第四屆世界網際網路大會,搜狗發布唇語識別技術,也系業內首次公開演示。其背後的商業邏輯是什麼?這項技術發展到什麼地步了?一 為什麼要做唇語識別 搜狗語音互動技術中心負責人陳偉首先...

唇語識別錯誤是什麼意思 人臉識別支付是什麼意思?

人臉識別支付是什麼 人臉識別支付技術是利用受理終端的人臉採集共呢,通過人臉識別技術獲取持卡人支付賬戶資訊,結合token技術 pin加密技術 大資料分析等形成的新型支付技術。人臉識別支付技術通常或涉及兩個方面,一是人臉支付受理終端,二是人臉支付受理平台。從受理終端來看,涉及人臉影象採集及檢測技術 人...