電腦生成siri語音語音識別和語音合成技術

語音識別是指將人的說話的聲音轉換成相應的文字，這需要計算機自動識別出語音頻號中的單詞和詞彙，甚至理解其中所包含的意思。語音識別的應用面特別的廣泛，包括語音撥號，語音導航，裝置操作控制，語音文件檢索，聽寫資料錄入等，如果語音識別和機器翻譯以及語音合成技術相結合，還可以提供從一種語音到另外一種語音的計算機同聲翻譯。

按照不同的應用要求，語音識別技術的複雜程度有很大的差別。

1、孤立語音/連續語音識別。前者要求使用者乙個字乙個字的說，後者允許使用者以自然的方式連續說話，顯然前者對於每個音節的識別會比較準，難度減輕不少，但是後者的會困難許多。

2、小詞彙量/大詞彙量語音識別。前者只允許使用者使用預先規定的有限詞彙，後者則不受限制。顯然，允許使用的詞彙量越大，則對語音識別技術的要求就越高。

3、特定人/非特定人語音識別。特定人語音識別是指系統在使用前必須由使用者輸入大量的發音資料、對識別軟體進行訓練，然後才可以正常進行使用。非特定人系統則沒有這個要求，顯然識別非特定人的語音困難會更大。

語音識別涉及多門學科，是人工智慧領域的乙個重要的課題，幾十年來人們進行了不懈的努力和探索，近幾年在gpu平台、大資料訓練和深度學習演算法的支援下，**語音資料switchboard基準測試的詞錯率已經降低到了6%以下，達到了人工語音識別差不多的水準。儘管還存在不少的問題，但是安靜背景、標準口音、常見詞彙上的語音識別已經達到了可用的狀態。

以ipad平板電腦和iphone手機中的siri為例，使用者可以和平板電腦和手機進行簡單的對話，完成搜尋資料、查詢天氣、設定手機日曆、設定鬧鐘等多種服務。siri軟體可以支援15個國家和地區的語言，包括英語、法語、德語、日語、漢語、韓語、義大利語、西班牙語等。

語音合成是計算機根據語言學和自然語言理解的知識，模仿人的發聲走動生成語音的過程。目前的水平是計算機能夠按照文字實時進行語音合成，這個過程稱之為文語轉換。

文語轉換過程原理分為3部，第一步，先對文字進行分析，判斷每乙個字的正確讀音，將文字序列轉換成一串的發音符號，第二部是韻律分析，他根據文句的結構、位置、使用的標點符號以及上下文等，確定發音的時候語氣的變換和讀音的輕重緩急。這些都有一組韻律控制引數來進行控制。第三步是語音合成，它的主要功能是，根據發音標誌，從語音庫取出相應的語音基元的波形，給合成的時候從庫中讀取相應語音基元的波形，將這些波形進行拼接和韻律修飾，然後輸入連續的語音流。

為了合成高質量的語言，除了依賴語義學、詞彙學、語音學規則之外，還必須對文字內容有一定的理解，這就涉及到了人工智慧中的自然語言理解的範疇。因為自然語言中的語音和孤立情況下的語音有很大的區別，如果只是簡單的把各個孤立的語音生硬的拼接在了一起，合成的語音將難以理解。

將語音合成和語音識別技術相結合，我們可以實現智慧型客服中心和語音互動機械人等新應用。現在已經出現了很多的類似應用，但是還有些不足，等待我們未來的完善。

電腦生成siri語音語音識別和語音合成技術

C 語音識別（文字to語音語音to文字）

C 語音識別（文字to語音語音to文字）

siri 蘋果語音控制功能

電腦生成siri語音 語音識別和語音合成技術

C 語音識別（文字to語音 語音to文字）

C 語音識別（文字to語音 語音to文字）

siri 蘋果語音控制功能

相關推薦

電腦生成siri語音語音識別和語音合成技術

C 語音識別（文字to語音語音to文字）

C 語音識別（文字to語音語音to文字）