建立百度Ai認識AI語音領域名詞 4 2

2021-10-19 12:50:40 字數 1964 閱讀 9743

tts/發音

asr/語義識別

wakeup/喚醒

目前只有中英文混合這一種語言,優先中文發音。

示例:如: 重(chong2)報集團, 「重」發音 chong第二聲

合成效果

通過對param_speaker(發音人)、param_pitch(音調)、param_volume(音量)和param_speed(語速)引數的調整,可以獲得不同的發聲效果,更好滿足您業務場景中的播報需求。 如音調越高,聲音聽起來會顯得越年輕。

在sdk內部中有佇列,可以不斷呼叫synthesize或者speak方法,將合成的文字新增到佇列中。

每次合成的文字不超過120 gbk位元組,即60個漢字或者字母數字。

合成的耗時同文字長度成正比。對合成速度敏感的話,請自行按照標點切分成短句。

多音字可以通過標註自行定義發音。格式如:重(chong2)報集團。

預定義喚醒詞預定義喚醒詞是指已經確認語音喚醒效果的詞彙,在喚醒詞評估工具中均可匯出,目前,已經支援的喚醒詞有:

相機類:拍照、茄子

電燈類:開啟電燈、關閉電燈、增大亮度、減小亮度

手電筒類:開啟手電筒、關閉手電筒

自定義喚醒詞在  頁面進行喚醒詞評估,自定義喚醒詞可支援匯出4星、5星的喚醒詞

喚醒使用步驟如下:

喚醒詞使用:替換demo中的同名檔案,詳見下方喚醒詞在sdk中的使用

將60秒以內的完整音訊檔案識別為文字,專有gpu服務集群,識別響應速度較標準版api提公升2倍及識別準確率提公升15%。適用於近場短語音互動,如手機語音搜尋、聊天輸入等場景。支援上傳完整的錄音檔案,錄音檔案時長不超過60秒。實時返回識別結果

短語音識別極速版支援按呼叫量後付費及次數包。按用量後付費按每月累計呼叫量階梯計價。次數包為預付費,一年內有效,**更優惠。詳情見產品定價文件

如果您在應用語音識別能力時,有行業專有名詞,如金融、醫療、餐飲、地產、製造等行業術語,無法準確識別。推薦使用語音自訓練平台,可以上傳詞彙和長文字進行模型訓練,以及根據業務發展迭代不斷訓練。

平台使用手冊

呼叫短語音識別極速版api,新增訓練模型id即可生效。

確認請求方式:選擇一種http post 請求格式,參見下一節 請求方式

填寫引數:詳細見 引數說明

示例demo**見: 

僅支援單聲道

取樣率僅支援16000

cbr bitrates 24000-96000,推薦48000

僅支援aac-lc, 不支援 例如he-aac ,ld,eld等

brand 僅支援 mp42:0, mini version 0 ,不支援 m4a

屬性型別

預設值必填

說明duration

number

60000

否samplerate

number

16000

是必須設為 16000

numberofchannels

number1是

比如設為1,單聲道

encodebitrate

number

48000

否預設值即可,建議48000,可設為24000-96000。該值越大的話,生成檔案越大

format

string

aac否

預設值即可,只支援aac,不支援***

百度AI 開放平台 語音合成

我選擇使用python sdk 進行開發 兩個方法都行 若安裝了pip pip install baidu aip若安裝了setuptools python setup.py install若在python 環境下import aip沒有報錯,即說明sdk 安裝成功。aipspeech是語音合成的p...

利用百度AI 合成語音2

文字合成語音 coding utf 8 from aip import aipspeech from playsound import playsound 20232679 api key bzcwdbzfnlynja63iuc6jdxk secret key w0dexqbht0e3ifvphhv...

百度AI開放平台,共建AI生態

以下為劉倩老師演講實錄 各地開發者將ai能力應用在各行各業 120多項場景化能力與解決方案,幫助各行業快速實現ai公升級 多項能力永久免費,全面普惠開發者 定製訓練平台,快速轉化企業定製化需求 ai開放平台最底層是paddlepaddle,既然有了定製化訓練平台,那為什麼還有paddlepaddle...