聲紋技術 讓智慧型語音助手真正「認得」自己

2021-10-09 13:36:10 字數 2705 閱讀 5120

9年前,蘋果公司發布了當年最新的智慧型手機iphone 4s,其搭載的智慧型語音助手 siri一經發布,便立即吸引了全世界範圍的關注。siri 的背後,凝聚著音訊處理、語音識別和自然語言處理等多個領域數十年的研究成果。

它的出現,讓語音技術首次進入了普通大眾的視野。

緊接著,2023年亞馬遜echo橫空出世,開啟了家用插電式智慧型音箱的全新場景,讓語音技術走進了成千上萬的家庭。

儘管語音技術為人們提供了一種與智慧型裝置互動的全新方式,但在人們使用該技術的過程中也誕生了一些新的問題——無論是手機還是音箱,人們希望智慧型語音助手能夠真正「認得」自己,能根據說話人的身份,提供個性化的回答,並決定是否提供較為隱私的使用者資訊。

在這樣的背景下,聲紋技術受到了業界前所未有的重視。

說起「指紋」,大家都不會感到陌生。憑著每個人的指紋都不一樣的特性,指紋識別技術獲得了廣泛的利用。

而聲音,雖然不具備真正意義上的「紋理」。但每個人的發音器官,包括聲帶、聲管等,在大小和形狀上會有所差異。使得不同的人,也有著不一樣的聲音。

廣義上講,所有可以將乙個人的聲音,與其他人的聲音區分開來的特徵,都稱之為「聲紋」。而正是因為有著這樣一些特徵的存在,聲紋才得以像指紋一樣,衍生出各種實用的技術。

聲紋技術中最為核心的一項便是聲紋識別技術

和指紋識別、人臉識別一樣,聲紋識別也是生物特徵識別技術的一種,該技術利用演算法和神經網路模型,讓機器能夠從音訊訊號中識別出不同人說話的聲音

2023年,谷歌將聲紋識別技術部署到了智慧型音箱google home上,使其能夠根據不同使用者的身份,提供不同的響應方式。

除了聲紋識別之外,聲紋技術也被廣泛用於聲紋分割聚類, 以及構建更為強大的語音識別、語音合成以及人聲分離系統。

以語音合成為例,目前最先進的語音合成系統只需要來自特定說話人不到5秒的語音,便能轉殖出該說話人的聲音,並以其聲音合成任意語音內容。

谷歌公司於 2018 年發表的**中認為,聲紋轉殖本質上是一種從聲紋識別任務到多說話人語音合成任務的遷移學習(transfer learning)。

模型框架中的聲紋編碼器模組,將目標說話人音訊轉換為聲紋嵌入碼,而該聲紋嵌入碼與語音合成編碼器的輸出進行逐幀拼接,作為語音合成解碼器的新的輸入,從而使解碼器能夠利用到目標說話人的聲紋資訊。

聲紋技術:從核心演算法到工程實踐》一書是谷歌公司聲紋識別與語言識別團隊負責人王泉老師在聲紋領域深耕多年後,為國內讀者打造的一部技術寶典。

本書從20 世紀 60 年代的早期技術講起,回顧了聲紋技術數十年發展歷程中最具代表性的方法,並重點介紹了深度學習時代的聲紋技術及其廣泛應用,其中包含了大量發表於2019和2023年的前沿研究成果。

此外,作者根據其多年的工程經驗積累,開創性地在本書中加入了專門**聲紋技術工程部署的章節,詳細闡述了聲紋技術在工程部署中常會遇到的各種問題,以及各種解決方案的優劣。為進一步結合實踐,還配備了大量程式設計案例以及思考練習題。

▊ 本書特色

• 本書內容不僅涵蓋了 20 世紀 60 年代的最早期聲紋識別方法,還介紹了大量 2023年和 2020 年發表的**,緊隨業界最新發展。

• 本書除了介紹學術內容,還有專門的章節(第 4 章)介紹工程部署,覆蓋了聲紋技術部署的諸多實際課題(如版本控制、分布式計算等)。這也是業內獨一無二的。

• 本書配備了很多動手實踐,教讀者使用常用的 python 工具包構建例項,進行實驗,避免紙上談兵。

• 本書為每一章配備了思考和練習題,因此本書也十分適合作為大學教材。

▊ 專家推薦

位元組跳動應用機器學習研究組負責人王崇認為:

此外,鄧力、何曉冬、戴瓊海、梁家恩等多位領域專家、行業大咖同樣對本書極力推薦。

鄧力,加拿大工程院院士,citadel首席人工智慧官,ieee fellow

何曉冬,京東集團副總裁,京東人工智慧研究院常務副院長,ieee fellow

戴瓊海,中國工程院院士,清華大學資訊學院院長

梁家恩,雲知聲董事長

最後,引用科幻作家、雨果獎得主郝景芳對本書的評價:

「本書所介紹的聲紋技術前沿進展,包括聲紋轉殖和人聲分離等令人印象深刻的應用,讓我不禁對其未來展開無限的遐想。相信不久之後,能與人們自然地對話,並通過聲音來分辨我們每乙個人的人工智慧將成為現實。更令我期待的是,在人類步入宇宙時代並能夠與地外文明進行交流的未來,聲紋技術又會在其中發揮怎樣的作用。」

智慧型語音技術

智慧型語音技術是最早落地的人工智慧技術,也是市場上眾多人工智慧產品中應用最為廣泛的。機器互動的發展過程 命令列介面 cli 圖形使用者介面 gui 自然使用者介面 nui 語音互動介面 voice user inte ce,vui 就是nui最重要的一種。手機 pc的語音助手 siri google...

資料堂智慧型語音資料庫,讓客服更智慧型

在客服語音識別技術的支援下,智慧型客服為企業與海量使用者之間的溝通建立了一種基於自然語言的快捷有效的技術手段,能夠降低客服中心的人力成本 提公升客服中心的運營效率。不過,隨著智慧型客服在各個行業的普及,越來越多人反映智慧型客服有時並不 智慧型 造成智慧型客服 兜圈子 聽不懂人話 的乙個重要原因在於語...

智慧型語音技術助力,推進人機互動新時代

過去的70年,人機互動形式不斷進化,從計算機時代的鍵盤,到智慧型手機時代的觸控螢幕,如今語音互動正在引領人工智慧為主導的下乙個人機互動的新時代,它能夠在社交 導航 搜尋 機械人等領域大規模應用。起初智慧型語音備受公眾關注還是由於蘋果siri的出現。實際上,siri並按不是手機上出現的第乙個智慧型語音...