語音合成技術

2021-08-11 06:02:56 字數 1295 閱讀 7982

**:

語音合成又稱文語轉換(text-to-speech),簡稱tts,指通過機械的、電子的方法生成語音的技術。

隨著科技的發展,合成語音的自然度和音質均得到了明顯的改善。目前,語音合成技術在我們生活中具有廣泛的應用,如電子閱讀、車載語音導航、銀行醫院排號系統、交通播報等等,這些應用場景都離不開語音合成。

簡單來說語音合成分為文字分析、韻律分析和聲學分析三個部分。通過文字分析提取出文字特徵,在此基礎上**基頻、時長、節奏等多種韻律特徵,然後通過聲學模型實現從前端引數到語音引數的對映,最後通過聲碼器合成語音。整個過程類似於「編碼、資訊匹配,解碼的過程」。

一種是引數語音合成,另一種則是拼接合成。波形拼接語音合成的過程更容易理解,即在語料庫中抽取合適的拼接單元,拼接成為句子。引數語音合成則需要對音庫進行引數化建模,根據訓練得到的模型**出韻律引數和聲學引數。

波形拼接語音合成需要對錄音人進行長達幾十個小時以上的錄音採集,而引數語音合成則只需要十個小時的錄音採集,即可完成一套定製化語音包的製作 。在體驗效果上,拼接拼接合成的語音更加貼近真實發音,但是通過引數合成的語音更穩定。

下圖為基於波形拼接:

從合成的發展歷史來看,表現力、音質、複雜度和自然度一直是合成技術所追求的四點。但是目前水平下的合成語音很難體現出情感特徵,例如在韻律表現上不夠靈活,聲調製化上相對死板。

讓機器擁有自然、有情感、高表現力的聲音,依舊是語音合成技術的一大難點。

擺脫平鋪直敘,使合成語言更具有表現力高立足於以下條件:

1、情感豐富的大資料,如:更自然的發音、更豐富的情感、更高更強的表現力

2、新技術的應用

(1)深度神經網路技術已經成功應用到韻律模型、聲學模型**,並整合端到端的語音合成模型;

(2)彈性單元挑選技術,讓合成語音更逼近真人發音;

(3)立足於大量資料的文字分析技術讓合成系統更理解人類的語言;

3、強需求應用場景,如:語音導航、**播報、個性化需求等。

語音合成 什麼是語音合成?

1.什麼是語音合成?2.psola演算法 3.基於hmm的引數合成 4.未來有哪些趨勢?本系列時常補充和糾錯 1.1 什麼是語音合成?語音合成則是乙個相反的過程,語音合成要求使用者輸入一段文字,系統負責將文字轉換成一段流暢自然的語音。其實,語音合成在生活中的應用也是隨處可見,只是我們有時候會將其忽略...

語音網頁和語音合成API

幾周前,我簡要討論了nlp及其相關技術。在處理自然語言時,要考慮兩個不同但又互補的方面 自動語音識別 asr 和文字轉語音 tts 在介紹web語音api的文章中,我討論了web語音api,這是乙個在web瀏覽器中提供語音輸入和文字到語音輸出功能的api。您可能已經注意到,我只介紹了如何在 中實現語...

HTS 語音合成簡述

這裡,想要寫一些關於hts語音合成系統的東西。其實也就是想說說hts語音合成系統是個啥玩意,它的基本思想和基本流程是什麼?而不是用乙個什麼簡圖了事的那種。總的來說,hts語音合成系統,和htk語音識別系統思想和流程基本相同,為什麼這麼說?那麼我們就從流程上來說一條條分析。1.訓練模型。兩者都需要對語...