百度阿里騰訊殺入語音識別,這家公司靠什麼對抗巨頭

2021-10-25 07:33:04 字數 4688 閱讀 6732

雲知聲ceo黃偉

一家語音識別的人工智慧公司,想利用演算法+資料,將線上和線下服務打通,押寶物聯網。

撰稿|王宇寒

攝影|蒲東峰

2023年3月,圍棋人工智慧程式alphago擊敗李世石,再次引發人工智慧關注熱潮。「坐了十幾年冷板凳」的雲知聲ceo黃偉,順著物聯網興起的兆頭,也許迎來語音識別最好的發展時機。

2023年前後,這個行業曾經經歷過一次高潮,因為語音識別實驗室識別精確度達到90%以上水平,大小公司蜂擁而至。2023年全球領先的語音識別公司nuance上市,市值最高突破90億美元。2023年,科大訊飛上市,國內市場占有率一度佔到70%以上。

但是,只有極少數公司在這一波浪潮裡突出重圍。語音識別在實際使用場景精確度降到很低,短時間內技術解決基本無望。大公司紛紛關閉語音識別相關部門,熱潮不過曇花一現。

1平台化實現彎道超車

移動網際網路的興起、機器深度學習(alphago的主要工作原理)的發展,讓語音識別再次呈現上公升之勢。蘋果2億美元收購siri inc.公司,2023年發布siri語音助手。同年,谷歌連續收購語音通訊公司saynow和語音合成公司phonetic arts,亞馬遜收購語音識別公司yap。

2023年6月,梁家恩創立雲知聲。這個時候,科大訊飛已經在國內語音識別市場築起了深厚的壁壘。要想實現彎道超車,梁家恩想得很清楚:第一是演算法;第二是資料。如果演算法是引擎,那麼資料就是燃料。哪怕演算法得到極大提公升,如果沒有油的話,車還是跑不起來。

左起:雲知聲董事長兼cto梁家恩、雲知聲ceo黃偉

梁家恩決定做開發者平台。對於一家創業公司而言,平台包袱無疑很重,團隊也有過糾結。「我們必須把平台先做起來,讓市場看到雲知聲的能力。」語音識別技術最關鍵的是先要有充足的語料積累,不光是找人去錄語音,更需要使用者真實的資料。而做平台能夠在短時間內完成大量的語音資料積累,以實現彎道超車。

**上買機器、普通遊戲顯示卡,10個人不到的工程師團隊,自學深度學習演算法,3個月平台上線。

「沒有人想到這樣一家剛成立的小公司真的能做出來。」雲知聲董事長兼cto梁家恩現在說起來還頗為得意。2023年9月雲知聲發布的語音平台,當時精確度只能做到85%,如果真正應用到實際場景,甚至會降到60%。到2023年底,語音資料已從最開始的800小時積累到3000小時,精確度提高到95%,平台上的開發者大大小小已有8000多家。4年以來,雲知聲開發者平台每年保持400%的增長量,目前每天呼叫量在1.5億到2億次之間。

平台也打出了雲知聲的名氣,語音識別技術在人工智慧領域相對成熟,這家公司開始考慮商業化。一開始,他們就選擇了從b端切入。雲知聲ceo黃偉始終認為,在人工智慧領域,b2c在中國很難實現,這也是黃偉一直堅持不做單品的原因。

和搜狗合作,雲知聲一戰成名。

小i機械人也是雲知聲早期的客戶。對方給銀行提供服務,之前都是文字,後來逐漸拓展到語音領域。科大訊飛是它當時的服務提供商,收費很高,小i機械人便找到雲知聲。雲知聲以相對低的**拿下客戶。

黃偉說:「在市場、技術不成熟的前提下,過高的使用門檻無疑是殺雞取卵。」

和樂視的合作,除了技術上的相對優勢以外,樂視當時也處於起步階段,而科大訊飛更願意圍繞運營商來提供服務。當樂視自身尚沒有證明自己能力時,科大訊飛相對是保守的,這就給了雲知聲機會。

雲知聲早期合作公司多為網際網路公司,他們更敢於嘗試新的東西,快速迭代。傳統公司相對保守,除了產品本身好壞,出身等其他因素也會被納入考量。

「在雲知聲規模還很小的時候,對於客戶而言,如果選擇大廠商,出了問題是大廠商的責任。但如果選了雲知聲,出問題的話,決策者自己需負很大責任。」黃偉告訴「新經濟100人」。

2023年初,先後供職摩托羅拉中國研究中心、nuance,一手創立盛大語音創新院的黃偉加入雲知聲,擔任ceo。「從讀書的時候開始,之後10年工作,我終於等到乙個可以放手去做這件事情的機會。」黃偉穿著深綠色襯衣,牛仔褲,戴著無框眼鏡,頭髮抓得一絲不苟。談話之間偶爾取下手腕上的佛珠撥弄。

「商業上的技巧我們確實吃過很多虧,我們不是商務驅動型的公司,最開始就是拿產品過去,實打實地測試,比識別率、比響應速度等。」

2差異化贏得時間

雲知聲iot事業部副總裁康恆說:「平台給雲知聲帶來的另乙個收穫,我們得以發現市場所聚焦的需求。通過不同行業使用者在平台上的使用頻度,能夠精準捕獲市場需求。」車載、家居、醫療和教育,是雲知聲的四大重點領域。

2023年,市場上已有汽車廠商將安卓系統和車載裝置相結合,黃偉隱約看到車聯網的興起之勢。很快,雲知聲成立專門的車載語音技術團隊。

從整個車載語音裝置行業來看,前裝市場規模大,但產品周期長,且科大訊飛深耕已久。後裝市場滿足使用者購車後的個性化需求,市場規模小,但少有入局者。

當時的後裝市場魚龍混雜,大大小小的廠商遍地都是,質量良莠不齊。黃偉也是摸著石頭過河,只能一再謹慎,盡可能選擇優質廠商合作,採取統一授權以減小風險。

截至2023年上半年,雲知聲車載行業的產品啟用量近兩百萬臺,收入規模達千萬級別。

智慧型家居是雲知聲的又一重鎮。

隨著物聯網概念的興起,幾乎所有的家居廠商都在探索智慧型家居的未來。語音識別在智慧型手機上的應用並不是剛需,觸控已經能夠解決大部分的應用場景。對於鮮少擁有觸控螢幕的家居產品,語音互動很快成為廠商間的共識。

早在2023年,雲知聲和一些家電巨頭就有過接觸,但先期落地的產品主要集中在創業公司。這些創業公司希望生產一些智慧型化的產品,雖然量都不大,雲知聲技術團隊仍全力配合開發,不斷試錯,打磨技術。

「2023年,我們在家居行業的策略是和小公司玩;從2023年起,我們也要和巨頭共舞。」黃偉說。

美的一直看重智慧型家居,尤其空調這個單品,從2023年起便不斷尋找智慧型化解決方案,和科大訊飛、南韓powervoice都有過合作。

2023年底,雲知聲開始和美的接觸。對方要求明確:第

一、使用者直接通過語音方式控制空調,且不受雜訊影響;第

二、一定距離的遠場語音互動得以實現;第

三、方案成熟,成本控制。

遠場語音互動是關鍵中的關鍵。

當時市場上普遍解決方案都是八個麥克風收音,雖然語音識別準度得以提高;但能耗、安裝等問題卻接踵而來。

雲知聲團隊做了大量先期工作,發現像空調這類產品,它永遠都是貼牆放,八個麥克風在實際應用上是多餘的。雲知聲提出雙麥克技術,兩個麥克風間距不過三厘公尺,在任何產品上均可自然適配,即插即用。

一下少了六個麥克風,如何保證遠場語音互動能達到測試要求,雲知聲花了一年半來解決這個問題,2023年底投入生產。

2023年8月1日,美的智慧型語音空調正式發布。

從2023年開始,雲知聲涉足醫療領域。2023年前後,雲知聲就想往醫療方向發展,初步接觸下來,當時的時間點太早,需求尚沒有爆發。

雲知聲銷售楊拓剛開始做醫療客戶時,也很不適應:醫學裡有大量專業術語,在日常生活中是鮮少應用。如何保證系統知識庫既能準確識別日常對話交流,同時又能對這些專業術語進行分辨,平衡很重要。

當時客戶需求反應過來,團隊馬上根據不同科室,短時間內人力收集專業資訊,同時輔以機器學習,通過大量醫療資料積累推動演算法提公升。經過跟醫院場景和醫學術語的深度定製,語音識別的精確度提公升至95%,部分科室經過優化達到98%。

2023年底,雲知聲的語音識別服務在北京****四個科室上線使用,2023年起全院推廣。「最開始我們確實會選擇一些相對競爭不那麼充分的領域先行切入,但我們不會為了迴避競爭,而選擇一些根本不存在的市場。」黃偉說。

nuance在醫療市場,光美國乙個國家的年收入就接近20億美元。

3押寶晶元深耕物聯網

2023年,亞馬遜推出家用智慧型音響echo,被視為目前語音識別領域最出色的實體產品,依託亞馬遜平台,2023年上半年,出貨量300萬台。

這一波人工智慧熱潮裡,巨頭們紛紛入場。

黃偉相信語音互動一定是人機互動最自然的形態。前端語音互動提供入口,後端網際網路提供服務。只有二者充分的結合,才能為使用者帶來更多價值。

而「雲端芯」則是在這一輪語音互動競爭中黃偉的希望所在:雲是線上平台,沉澱大量基礎資料;端最開始是智慧型手機,現在已全面向物聯網遷移;晶元則是雲知聲所有技術和服務的載體。

早在2023年底,雲知聲完成來自高通的5000萬美元b輪融資後,便開始發力晶元領域。對於物聯網而言,終端對功耗非常敏感,市場上現有晶元往往搭載很多不必要的功能,標準程度、穩定性達不到要求。

晶元的設計、製作困難重重。雲知聲之前和一家公司合作,當時在產品部門測試全部通過,結果到了工廠,實際操作中不適配。工廠的生產是有排期的,如果一定時間內不能測試通過投入生產的話,整個產品線都要延期。對方給了兩天時間,雲知聲的工程師直接駐廠,一邊不斷除錯一邊和對方溝通。

現在,雲知聲與高通合作的特殊晶元,功能集中,能耗劇降,適配程度大幅提高。

2023年,第一代iphone推出,接下來近十年裡,移動網際網路風生水起。隨著智慧型手機普及率提公升,2023年智慧型手機全球出貨量增長幾乎停滯,根據市場研究公司strategy analytics資料,全球智慧型手機出貨量2023年二季度為3.404億部,相比於2023年同期的3.38億部,僅增加了1%。

那移動網際網路之後呢?

「物聯網將是乙個比移動網際網路更偉大的時代。」黃偉告訴「新經濟100人」。

目前雲知聲幾乎將全部資源押寶物聯網布局,智慧型家居、車聯網、智慧型醫療和教育四大領域,合作客戶近兩萬家。他認為雲知聲的未來將是物聯網領域內一家優秀的人工智慧服務公司,讓機器更好地理解使用者,互動變得自然而智慧型。

語音識別哪家強 訊飛 搜狗 百度 阿里還是騰訊

識別結果對比 rest api 格式 推薦pcm 推薦16k 編碼 16bit 位深的單聲道 最長支援60s的錄音檔案 轉碼 呼叫流程 有aipspeech.php的使用方法 概念 asr 語音識別 tts 語音合成 如果不使用raw方式,而是使用json方式 speech,len 及 url,ca...

百度語音識別學習(一)

不積跬步,無以至千里!報錯 speechrecognizer.error audio 音訊問題 和 speechrecognizer.error client 其它客戶端錯誤 導致不成功的原因是沒有是沒有給speechrecognizer傳遞引數,大概有下面這些引數要傳遞 string extra ...

百度語音識別技術突破 巨頭崛起

語音識別行業正面臨新一輪的洗牌。但隨之不久,蘋果 google和微軟都選擇了擺脫nuance的依賴,自建團隊開發語音業務。在那之後,nuance的市場份額節節 2014年還高達60 的市場份額,一年時間縮水一半只剩31.1 source research and markets 相比之下,googl...