語音合成技術

**：

語音合成又稱文語轉換（text-to-speech），簡稱tts，指通過機械的、電子的方法生成語音的技術。

隨著科技的發展，合成語音的自然度和音質均得到了明顯的改善。目前，語音合成技術在我們生活中具有廣泛的應用，如電子閱讀、車載語音導航、銀行醫院排號系統、交通播報等等，這些應用場景都離不開語音合成。

簡單來說語音合成分為文字分析、韻律分析和聲學分析三個部分。通過文字分析提取出文字特徵，在此基礎上**基頻、時長、節奏等多種韻律特徵，然後通過聲學模型實現從前端引數到語音引數的對映，最後通過聲碼器合成語音。整個過程類似於「編碼、資訊匹配，解碼的過程」。

一種是引數語音合成，另一種則是拼接合成。波形拼接語音合成的過程更容易理解，即在語料庫中抽取合適的拼接單元，拼接成為句子。引數語音合成則需要對音庫進行引數化建模，根據訓練得到的模型**出韻律引數和聲學引數。

波形拼接語音合成需要對錄音人進行長達幾十個小時以上的錄音採集，而引數語音合成則只需要十個小時的錄音採集，即可完成一套定製化語音包的製作。在體驗效果上，拼接拼接合成的語音更加貼近真實發音，但是通過引數合成的語音更穩定。

下圖為基於波形拼接：

從合成的發展歷史來看，表現力、音質、複雜度和自然度一直是合成技術所追求的四點。但是目前水平下的合成語音很難體現出情感特徵，例如在韻律表現上不夠靈活，聲調製化上相對死板。

讓機器擁有自然、有情感、高表現力的聲音，依舊是語音合成技術的一大難點。

擺脫平鋪直敘，使合成語言更具有表現力高立足於以下條件：

1、情感豐富的大資料，如：更自然的發音、更豐富的情感、更高更強的表現力

2、新技術的應用

（1）深度神經網路技術已經成功應用到韻律模型、聲學模型**，並整合端到端的語音合成模型；

（2）彈性單元挑選技術，讓合成語音更逼近真人發音；

（3）立足於大量資料的文字分析技術讓合成系統更理解人類的語言；

3、強需求應用場景，如：語音導航、**播報、個性化需求等。