音訊基礎知識

2021-07-24 08:34:24 字數 2184 閱讀 4894

1. 音效卡的工作原理

音效卡的工作原理其實很簡單 ,我們知道,麥克風和喇叭所用的都是模擬訊號,而電腦所能處理的都是數碼訊號,兩者不能混用,音效卡的作用就是實現兩者的轉換。從結構上分,音效卡可分為模數轉換電路和數模轉換電路兩部分,模數轉換電路負責將麥克風等聲音輸入裝置採到的模擬聲音頻號轉換為電腦能處理的數碼訊號,而數模轉換電路負責將電腦使用的數字聲音頻號轉換為喇叭等裝置能使用的模擬訊號,就這麼簡單 。

上圖就是一塊典型的音效卡 , mic 插口 用於連線麥克風 , 通過它可以錄製外界的聲音

2. 數字音訊基礎知識

麥克風錄音的過程其實就是將模擬訊號轉化成數碼訊號的過程 , 其中涉及的一些概念如下 :

1.取樣率

(sampling rate)

取樣率指音效卡在一秒之中對聲音 ( 波形 ) 作記錄的次數 , 根據研究聲音播出時的質量常常只能達到取樣率的一半 , 因此必須採取雙倍的取樣率才能將聲音標準重現 . 也就是只要取樣率大於原始訊號頻率的兩倍以上即可減低錯誤 , 達到和原始聲音差不多的質量 . 人的聽力大概是 20khz, 所以高品質的取樣率應為其兩倍以上 .

當聲音**為**時 , 因為它所橫跨的頻率變化極為寬廣 , 通常以 44.1khz 的頻率為 cd **取樣率的標準 . 但是若以語言為主由於人說話的語音大概是 10khz, 因此加倍取樣 , 只取 22khz 即可 , 取樣率越高所記錄下來的音質就越清晰 , 當然 , 越高的取樣所記錄下的檔案就越大 .

2.取樣位

解析度決定了取樣的音波是否能保持原來的形狀 , 越接近原型則需解析度越高 , 若以 8 位來取樣的話其能表達的組合種類是 2 的 8 次方 , 即 256, 表示用 8 位的取樣大小能分辨出 256 個層次的聲音 , 若用 16 位來取樣 , 則能分辨的差異將高達 2 的 16 次方 , 為 65536, 其精度自然大為提高 .16 位 ,8 位取樣的差別在於動態範圍的寬窄 , 動態範圍寬廣 , 音量起伏的大小變化就能夠更精細的被記錄下來 , 如此一來不論是細微的聲音或是強烈的動感震撼 , 都可以表現的淋漓盡致 , 而 cd 音質的取樣規格正式 16 位取樣的規格 .

3. 量化誤差

(quantization error)

在取樣的過程中 , 不斷連續變化的模擬訊號要用數位化的數值來表示 , 這樣的過程就會發生所謂的量化誤差 (quantization error). 所謂的量化誤差指的是實際的訊號的振幅 (smplitude) 和數位化之後所的數字之間的差異 . 如果用將數碼訊號還原成模擬訊號的角度看 , 量化誤差就是失真 (distortion). 我們可以用增加取樣大小的方式來降低量化誤差 , 也就是更多的位 (bits) 來表示乙個取樣訊號 , 這樣可以提高精度 .

4. 量化

(quantization), 

線性量化法

(linear quantization)

和非線性量化法

(nonlinear quantization)

所謂的量化 (quantization) 就是將模擬訊號所代表的連續範圍分成一段一段的區間 (interval), 每一段區間我們定義乙個數位化的值 . 區間的數目是跟取樣大小有關 , 舉例來說 , 有一種最簡單的量化法稱為 」 線性量化法 」(linear quantization), 這種量化法採用等距離的間隔空間 , 架設乙個訊號它的最大值是 5.0, 取樣大小為 3 位 , 則每個量化區間就時 5.0/2^3, 也就是 0.625 單位 . 另外一種相反的量化方法就是 」 非線性量化法 」(nonlinear quantization), 這種量化法採用不同的間隔空間 . 以 」 對數量化法 」(logarithm quantization) 為例 . 低振幅範圍的量化區間就比高振幅的範圍的區間較為接近 , 用這種量化的法產生的結果就是在低振幅時我們會得到佳好的效果 . 通常如果使用同樣的取樣大小 , 非線性量化法會比線性量化法得到更好的聲音品質 . 但是如果是要對聲音做濾波 (filtered) 或一些運算的時候 , 使用線性量化法會比較容易處理 .

5. 聲音強度

波形振幅的平方.兩個聲音強度上的差常以分貝 (db) 為單位來度量 ,計算公式如下:

20*log(a1/a2) 分貝 , a1,a2 為兩個聲音的振幅 .

a. 如果取樣大小為 8 位 ,則取樣的動態範圍為 20*log(256) 分貝 =48db;

b. 如果樣本大小為 16 位 ,則取樣動態範圍為 20*log(65536) 大約是 96 分貝 ,接近了人聽覺極限和痛苦極限,是再線**的理想範圍, windows 同時支援8 位和 16 位的取樣大小 .

音訊基礎知識

聲音的三要素 頻率,振幅,波形 頻率代表音階的高低 女生的音階高,男生偏低 頻率越高,波長就會越短.振幅代表響度 波形代表音色 音訊取樣 對模型訊號進行取樣,取樣可以理解為在時間軸上對訊號進行數位化 ad轉換 按比聲音最高頻率高2倍以上的頻率對聲音進行取樣.取樣率 聲音頻率為500次,取樣1000次...

視音訊基礎知識 I,P,B,PTS,DTS

在沒有b幀存在的情況下dts的順序和pts的順序應該是一樣的。兩個i frame之間形成乙個gop,在x264中同時可以通過引數來設定bf的大小,即 i 和p或者兩個p之間b的數量。不含b幀 對於不含b幀的影象序列,例如 影象序列 ippipp.顯示時候一般按正常順序顯示 ippipp.即 pts。...

音訊開發基礎知識簡介

下面簡單介紹音訊的基礎知識 取樣位數 數碼訊號是用0和1來表示的。取樣位數就是取樣值用多少位0和1來表示,也叫取樣精度,用的位數越多就越接近真實聲音。如用8位表示,取樣值取值範圍就是 128 127,如用16位表示,取樣值取值範圍就是 32768 32767。現在一般都用16位取樣位數。聲道 cha...