語音合成 什麼是語音合成?

2022-05-01 04:45:10 字數 1099 閱讀 1296

1. 什麼是語音合成?

2. psola演算法

3. 基於hmm的引數合成

4. 未來有哪些趨勢?

(本系列時常補充和糾錯) 

1.1 什麼是語音合成?

語音合成則是乙個相反的過程,語音合成要求使用者輸入一段文字,系統負責將文字轉換成一段流暢自然的語音。其實,語音合成在生活中的應用也是隨處可見,只是我們有時候會將其忽略。比如車輛的報站系統,手機語音助手的語音回答,電子書的自動朗讀等等。總之,生活中我們遇到的大多數讓機器發出聲音的場景,都使用的語音合成技術。 

1.2 語音合成是怎麼做到的?

這裡以其中一種典型的方法(拼接方法)做乙個介紹。

圖 1 : 拼接合成示意圖

在統計合成出現之前,語音合成技術大多是使用拼接合成。圖中上面三個框圖是拼接合成的三個步驟,下面三個框圖是三個步驟使用的技術。

文字分析的目的是找出文字中的停頓和重音等。語音合成的輸入是一段文字,人類可以很快速的判斷出一段文字**需要停頓,**需要重音,但是機器不知道。因此需要使用文字分析規則進行文字分析,讓機器知道文字中的重音和停頓,也讓機器知道文字中那些漢字組成乙個詞,那些漢字組成了一句話。下一步就需要依據文字從語音庫挑選出適合的語音波形。這裡需要介紹一下語音庫,語音庫中儲存的是乙個個音節的發音,而這些音節的發音全部來自對自然語音的切分,切分後對這些發音進行標註(包括發音記號、清濁音切分等等),有時候為了得到更加理想的合成效果,語音庫中會儲存同一發音記號對應的多個不同韻律的發音(比如不同音調、不同情感)。

韻律控制則是為了實現對合成語音中的韻律調整。理想中的合成語音,是有著豐富韻律的,比如有的要重音,有的要低沉,而不是像機械人一樣呆板而平穩的發音。這裡的韻律控制主要是修改單個語音波形的時長和音調,以達到韻律控制的目的。使用的主要演算法是基音同步疊加(psola)演算法。

韻律調整好之後,下一步就是要把這些波形拼接起來,使之成為連續語音。這裡需要注意的問題是,波形的拼接處,那面出現波形的突變:形成音量或者靜音段和有聲段的突然轉變,出現「咔噠咔噠」的雜訊,影響合成效果。因此這裡需要使用平滑演算法,減少這些現象的影響。

語音合成技術

語音合成又稱文語轉換 text to speech 簡稱tts,指通過機械的 電子的方法生成語音的技術。隨著科技的發展,合成語音的自然度和音質均得到了明顯的改善。目前,語音合成技術在我們生活中具有廣泛的應用,如電子閱讀 車載語音導航 銀行醫院排號系統 交通播報等等,這些應用場景都離不開語音合成。簡單...

語音網頁和語音合成API

幾周前,我簡要討論了nlp及其相關技術。在處理自然語言時,要考慮兩個不同但又互補的方面 自動語音識別 asr 和文字轉語音 tts 在介紹web語音api的文章中,我討論了web語音api,這是乙個在web瀏覽器中提供語音輸入和文字到語音輸出功能的api。您可能已經注意到,我只介紹了如何在 中實現語...

HTS 語音合成簡述

這裡,想要寫一些關於hts語音合成系統的東西。其實也就是想說說hts語音合成系統是個啥玩意,它的基本思想和基本流程是什麼?而不是用乙個什麼簡圖了事的那種。總的來說,hts語音合成系統,和htk語音識別系統思想和流程基本相同,為什麼這麼說?那麼我們就從流程上來說一條條分析。1.訓練模型。兩者都需要對語...