《語音頻號處理》學習筆記

2021-09-30 12:21:08 字數 1658 閱讀 1196

共振峰:母音激勵進入聲道引起的共振特性。

母音發音方式:

聲道受聲帶振動;

聲道不極端狹窄,形狀持續穩定;

與鼻腔不耦合;

濁音(聲帶振動):基音頻率→聲調軌跡→韻律

重音:時長、音高,音強不重要。

漢語聲韻結構:v,cv,vc1,cvc1

聲調:濁音基音週期的變化;

基音週期:聲帶振動週期;

語譜圖:橫軸-時間,縱軸-頻率,深淺-強弱。

幅度符合gamma分布: pg

(x)=

x−−√

2π−−

√e−k

|x|∣

x∣−−

√wherek=

3√2σ

x

量化:

預處理:

對於訊號x(

l),w(m

) 為窗函式,則第

n 幀為 xn

(m)=

w(m)

x(n+

m),m

∈[0,

n−1]

(1)短時能量與短時平均幅度en

=∑m=

0n−1

x2n(

m) e

n=∑m

=0n−

1|xn

(m)|

濁音en

比清音大,可以區分聲韻母,可以找連字分界。

(2)短時過零率(一幀語音過零次數)zn

=12∑

m=0n

−1|s

gn[x

n(m)

−xn(

m−1)

]|濁音的頻率高,清音的頻率低。

背景雜訊大時可以用於劃界。

判斷s(無聲)u(清音)v(濁音): m:

v>

u>sz

:u>

s>v

已知p(m

,z|s

),p(

m,z|

u),p

(m,z

|v)

,則根據貝葉斯公式, p(

m,z|

x)⋅p

(x)p

(m,z

)=p(

x|m,

z),x

=s或u

或v求出p(

x|m,

z)即可判斷s,u,v。

(3)短時相關分析

(4) 短時平均幅度差amdfd(

n)=x

(n)−

x(n+

k),k

=0,±

np,±

2np.

..fn

(k)=

∑n=0

n−1−

k|xn

(m)−

xn(m

+k)|

證書週期訊號上有谷值。

(1)短時傅利葉變換xn

(ejw

)=∑m

=0n−

1xn(

m)e−

jwmx

n(k)

=∑m=

0n−1

xn(m

)wmk

n 頻率對應:0−

2l−1

×δf,

δf=f

sn(2)短時譜臨界特徵向量

語音頻號處理

濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...

語音頻號的預處理

2014年09月05日 綜合 共 1116字 字型大小 小 中 大 回顧上兩次的內容 上次主要說了音訊檔案的讀取 主要是matlab和c語言 感覺有幾個概念有點混淆 語音 音訊 語音英文是speech,音訊是audio,是music。據我的理解是音訊包括語音和 不知道這麼理解對不?此外,讀取音訊其實...

語音頻號處理共振峰

首先,什麼是語譜圖。最通常的,就是語音短時傅利葉變換的幅度畫出的2d圖。之所以是通常的,是因為可以不是傅利葉變換。窄帶 顧名思義,頻寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。寬頻 正好相反。至於 橫豎條紋 窄帶語譜圖的帶寬窄,那麼在頻率上就 分得開 即能將語音各次諧波 看得很...