聲紋識別調研

2021-09-05 12:09:09 字數 2034 閱讀 1407

聲紋(voiceprint),是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。

現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。

聲紋識別的主要任務包括:語音頻號處理、聲紋特徵提取、聲紋建模、聲紋比對、判別決策等。

最關鍵的兩個問題,一是特徵提取,二是模式匹配(模式識別)。

特徵提取的任務是提取並選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特徵。與語音識別不同,聲紋識別的特徵必須是「個性化」特徵。

對於模式識別,有以下幾大類方法:

(2)最近鄰方法:訓練時保留所有特徵向量,識別時對每個向量都找到訓練向量中最近的k個,據此進行識別,通常模型儲存和相似計算的量都很大;

(3)神經網路方法:有很多種形式,如多層感知、徑向基函式(rbf)等,可以顯式訓練以區分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;

(4)隱式馬爾可夫模型(hmm)方法:通常使用單狀態的hmm,或高斯混合模型(gmm),是比較流行的方法,效果比較好;

(5)vq聚類方法(如lbg):效果比較好,演算法複雜度也不高,和hmm方法配合起來更可以收到更好的效果;

(6)多項式分類器方法:有較高的精度,但模型儲存和計算量都比較大

聲紋識別是生物識別的一種,相比虹魔識別、人臉識別在一些特殊場景下具有獲取成本低的優勢:

如黑夜中,如果需要進行生物識別,人臉識別會因光線過弱而無效,而虹膜裝置因為需要特殊補光而需要特殊裝置,指紋識別進行複製及偽造的門檻過低。但聲紋識別則沒有上述問題,無縫配合文字密碼的特性,讓聲紋識別在漆黑的場景中璀璨奪目!

能識別主人的語音助理

如果大家的終端裝置都用的是乙個語音助理,當大家在乙個屋子的時候,如果其中有乙個人喊了一句hi 助理,那是不是整個屋子的助理都會有所反應呢?

這個場景我們在開發過程經常會遇到,在辦公室會有多台ai路由器,當我想語音喚醒一台的時候,所有路由器都同時被喚醒了,非常影響開發除錯。

1.msr identity toolkit ,微軟開源的工具箱,matlab版本,提供的**包含gmm-ubm和i-vector

2.alize,主要包括gmm-ubm、i-vector and

jfa三種傳統的方法,c++版,簡單易用。

3.kaldi,當下十分流行的語音識別工具包,也包括聲紋識別:覆蓋了主流的聲紋識別演算法(i-vector 、x-vector等),指令碼語言,使用不易。

接入方式:

1.遠場身份識別開發套件 + 遠場身份識別開發模組

2.軟核授權

支援三種型別的聲紋密碼:

1.文字密碼(密碼為指定文字內容)

2.自由說(密碼內容不限)

3.數字密碼(密碼為隨機數字串)

可以將說話人聲紋資訊與庫中的已知使用者聲紋進行1:1比對驗證和1:n的檢索,並且還需要將說話人所讀出的數字聲音與雲端動態給定的數字內容進行驗證。最終,僅當聲紋+內容都匹配即驗證/檢索成功

語言支援:中文的數字

聲音要求:註冊和測試將採用不同的8位不重複隨機數,並且註冊需5遍動態數字;驗證需1遍動態數字。

響應時間:註冊—500ms,驗證—900ms

對外開放狀態:暫未開放

官方文件:

支援兩種型別的聲紋密碼:

1.隨機數字密碼:身份驗證時,使用者無需再牢記「數字密碼」,用聲音代替按鍵輸入,驗證時系統自動分配數字密碼,使用者根據分配讀出指定數字,完成身份驗證。該功能能夠解決客戶因遺忘或混淆密碼而帶來的困擾,實時識別,速度快安全性高。

2.指定文字密碼:身份註冊時,使用者需要按照系統要求讀出指定文字,並需要牢記文字密碼。身份認證時,系統會同時校驗指定文字內容及聲紋特性。文字密碼需要使用者妥善儲存,並保密。同時支援系統自動分配及使用者自定義文字密碼,靈活方便,您可以根據業務需求進行選擇。

產品案例

d vector聲紋識別基礎

dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...

聲紋識別概述(2)聲紋識別原理和過程

多看 聲紋識別技術簡介 化繁為簡的藝術,深入淺出了解聲紋識別。1 困難在哪?不同的人說話語音波形不同,但是相同的人用不同的語調或者在不同的身體狀態下說話其語音波形也不同,還有相同的人說不同的內容波形也不同 那要如何區分出是兩個不同人的語音?2 為什麼可識別?語音具備了乙個良好的性質,稱為短時平穩,在...

聲紋識別,聽聲辨人

近年來,在生物識別技術領域中,聲紋識別技術以其獨特的方便性 經濟性和準確性等優勢受到世人矚目,並日益成為人們日常生活和工作中重要且普及的安全驗證方式。聲紋識別屬於生物識別技術的一種,是一項根據語音波形中反映說話人生理和行為特徵的語音引數,自動識別說話人身份的技術。與語音識別不同的是,聲紋識別利用的是...