小公尺王育軍 小愛背後的小公尺語音技術

2021-10-25 07:33:04 字數 1473 閱讀 1721

不到現場,照樣看最乾貨的學術報告!

報告內容:語音技術,包括語音識別與合成等,經歷了幾十年的發展,隨著算力,資料,開源,人才的爆發,結合使用者場景的重新定義,而再次活躍於使用者的視野。小公尺的語音快速地借助「彎道」達到了80分的成績,但也無法避免進入到了語音鍋碗瓢盆的「平凡生活」,我們必須要面對失配和不當的模型假設。在這些方面我們和前輩的時間差距,就是2017減前輩團隊成立的時間。我們體會到「熱」啟動專案帶來的浮華,也被那些「冷」啟動專案深深的傷害著。但我們不能無腦地、不停地接著大大小小的專案,因為那樣連殭屍都不會喜歡。我們要創新,產品創新和技術創新是寒冬裡的強心劑。本次我們將分享小愛背後的語音技術之路,以及路上的風景和經驗。

小愛背後的小公尺語音技術

王育軍博士首先由文藝復興的標誌講到了人工智慧的復興,在他看來,語音技術行業是被人工智慧了,所以也被復興了。當提及語音技術為什麼能快速發展時,他提到了人工智慧的四個重要因素。一是算力,使用gpu的顯示卡加速了模型的訓練過程。二是大資料的支援,也就是多樣、豐富的使用者場景提供了模型訓練所需要的資料。三是開源的演算法,現有的人工智慧學習的框架和開源的演算法,為研究者們提供了很多有借鑑性的方法,促進了人工智慧領域的交流與合作,加速了演算法的研究程序。四是人才,大量的優秀人才加入到了人工智慧的領域中,為人工智慧的發展提供了有力的人才支撐。

然後講到了小公尺人工智慧語音實驗室所用到的方**,簡單概括就是「把握方向盤,當好老司機」。方向盤的核心是測試集,圍繞在周圍的是資料、訓練集群、模型迭代和演算法融合等因素。測試集作為方向盤的核心,一定要反應真實的語音應用的場景,反應真實使用者的資料分布。並圍繞方**的核心,收集和製造訓練資料,使用穩定的訓練集群進行模型迭代,並使用演算法融合的策略使效能達到預期的標準,然後就可以上線了,上線的週期通常需要6個月左右。關於資料重要還是模型重要這個問題,王育軍博士指出資料和模型同樣重要,資料中蘊含大量的資訊,模型中蘊含我們的優化目標,兩者缺一不可。

接著分享了小公尺語音識別發展的歷程。小公尺做語音的入口是電視,電視是語音識別的乙個鑰匙,把語音識別拆開兩部分,分別為聲學模型和語言模型,電視節目是乙個語言場景,在聲學上可以做語音遙控器。然後就開始做手機,結合小公尺ai的一些資訊,如小公尺搜尋框和小公尺瀏覽器中的使用者資料,可以在短期內得到乙個比較穩定的模型。接著又做小型手錶語音助手,在語音識別中兒童語音的識別是乙個難點,但小公尺認為要開啟語音識別的大門,兒童語音識別是不可缺少的,並加大了對兒童的語音的研究,並取得了相對較好的成果。

講完電視、手機和手錶等近場場景的應用之後,又分享了遠場場景的小公尺音箱,由於沒有足夠的訓練語料,所以使用資料**等手段做資料增廣,使用垂直策略反應產品的穩定性,並結合交叉驗證來改善模型的效能。並通過距離音箱遠近和加不加雜訊等四個應用場景對小公尺音箱進行了驗證。

另外與大家分享了如何獲得訓練語料的經驗,大量語料的人工標註是很貴的,使用已有的比較成熟的識別器,從不同的角度對語料資訊進行**,並把**資訊作為語料的標註資訊。這個由識別器獲得的訓練語料的標註準確度是比較好的,有時比人工標準的結果還要好。但對於兒童的語料最好還是進行人工的標註。

我們一起分享ai學習與發展的乾貨

歡迎關注全平台ai垂類自** 「讀芯術」

小公尺小愛滑鼠發布 內建小愛同學小愛滑鼠眾籌位址

6 月 22 日,小公尺發布了一款小愛滑鼠,內建小愛同學,支援語音輸入和智慧型家居控制。小公尺小愛滑鼠採用 usb type c 介面設計,充電時滑鼠也可正常使用。內建 750mah 可充電鋰離子電池,滿電後續航可達 30 天,待機時長達 180 天。據官方介紹,這是小愛同學首次登陸電腦端,使用者長...

關於小公尺和小愛同學

關於小公尺我有話說系列!其實對於小公尺這個產品的概念一直是處在一種感知的狀態,接觸過很多有關小公尺的理論,但就是沒有一件需要買回來的產品,當然不是不喜歡,而是有時候確實想不到或者選擇中已經有更好或者是生活水準沒達到。今天機緣巧合,其實內心深處希望這是一次深入接觸小公尺的機會。體味過我的愛恨情仇,那開...

小愛的愛情難題

description古希臘哲學大師蘇格拉底的三個 曾求教老師,怎樣才能找到理想的伴侶。蘇格拉底沒有正面回答,卻讓他們走田埂,只許前進,且只給乙個機會,要求是選摘乙個最好最大的穗。第乙個 沒走幾步,就看見乙個又大又漂亮的穗,高興地摘下來了。但他繼續前進時,發現前面有許多比他的那個大,但已經沒有機會,...