心理聲學基礎

2022-06-14 08:09:13 字數 3998 閱讀 1403

本文首發於:行者ai

聲音雖然客觀存在,但是人的主觀聽覺和客觀實際存在差異化。心理聲學研究的就是聲音的主觀感覺和物理量之間的關係,因為人耳聽覺對聲音的主觀響應是評價音質好壞的唯一標準。對於複雜的聲音,從主觀可以用響度、音高和音色來描述。客觀上,響度和音高與聲波的振幅(幅度)有關,音色和頻譜及包絡有關,而音高與頻譜的頻率有關。

聲波的幅度可以用聲壓或者聲強來表示,而實際中常常使用級來表示,分貝則是常用的級的單位。採用級的主要原因有:

a. 聲音震動的能量範圍比較大,最大與最小值可以相差10多個數量級,表示起來比較麻煩且易出錯。使用對數表示則要方便許多。

b. 人耳聽覺增長規律非線性,主觀上的響度感覺並不正比於強度而是接近於強度的對數成正比。

分貝(decibel)是量度兩個相同單位之數量比例的單位,主要用於度量聲音強度,常用db表示。「分」(deci-)指十分之一,個位是「貝」(bel),但一般只採用分貝。

聲功率級是聲功率與基準聲功率之比的以10為底的對數乘以10,以分貝計。基準聲功率必須指明。其數字表示式為swl=10lg(w/wo),常用基準聲功率wo為10-12w。

聲強級指某一處的聲強級,是指該處的聲強與參考聲強的比值常用對數的值再乘以10,度量它的單位為分貝,符號為db。數學表示式為sil=10log(i/i(ref)),參考聲強i(ref)是10-12瓦/公尺2。

聲壓級指在空氣中參考聲壓p(ref)一般取為2*10e-5帕,這個數值是正常人耳對1千赫聲音剛剛能覺察其存在的聲壓值,也就是1千赫聲音的可聽閾聲壓。數學表示式為:spl=20lg(p/p(ref))

生活中所到的正常交談約60db噪音在80db左右以上而安全極限為140db,這裡使用的就是聲壓級。

librosa中計算分貝,直接使用兩個相同的物理量(例如a1和a0)之比取以10為底的對數並乘以10(也可以是20)。

@cache(level=30)

def power_to_db(s, ref=1.0, amin=1e-10, top_db=80.0):

s = np.asarray(s)

if amin <= 0:

raise parametererror('amin must be strictly positive')

if np.issubdtype(s.dtype, np.complexfloating):

warnings.warn('power_to_db was called on complex input so phase '

'information will be discarded. to suppress this warning, '

'call power_to_db(magphase(d, power=2)[0]) instead.')

magnitude = np.abs(s)

else:

magnitude = s

if six.callable(ref):

# user supplied a function to calculate reference power

ref_value = ref(magnitude)

else:

ref_value = np.abs(ref)

log_spec = 10.0 * np.log10(np.maximum(amin, magnitude))

log_spec -= 10.0 * np.log10(np.maximum(amin, ref_value))

if top_db is not none:

if top_db < 0:

raise parametererror('top_db must be non-negative')

log_spec = np.maximum(log_spec, log_spec.max() - top_db)

return log_spec

級表明人耳對訊號的強度呈非線性增長的特點,然而2個相同聲級的聲音人耳聽起來也不一定相同,這是因為人耳的聽覺頻響是不平直的。

從等響曲線圖中我們發現,人耳對高頻的聲音更加敏感,同樣聲壓級下的高頻聲音響度級比低頻的高。一般女性發聲的高頻成分較多,而男性發聲的低頻成分相對較多,這就是在同樣力氣講話時(聲壓級相同),女性的聲音聽上去更加響的原因。

聲壓級越高,人的聽覺頻響越平直,隨著聲壓級降低人的聽覺頻響月不平直,尤其在中低頻**幅度越大。而無論聲壓級多大,低於20hz和高於20khz的聲音一般聽不到而對3-5khz頻率段最敏感。

響度級和等響曲線描述了人耳的聽覺頻響,但要描述人耳對聲音大小強弱的主觀判斷需要引入響度。響度是乙個無量綱單位。

人耳對聲音高低的感覺主要與頻率有關,人耳的音高感覺大致與聲音的基頻對數呈線性關係,12平均律音階就是在頻率的對數上取等分得到的。

倍頻程是頻程的單位,符號為oct,等於2個音的頻率比取2位底的對數,在**中稱之為八度。n=log2(f2/f1)

十二平均律,亦稱「十二等程律」,世界上通用的一組音(八度)分成十二個半音音程的律制,各相鄰兩律之間的振動數之比完全相等。十二平均律是指八度的音程(一倍頻程)按頻率比例地分成十二等份,每一等份稱為乙個半音小二度。

乙個大二度則是兩等份。 將乙個八度分成12等份有著驚人的一些湊巧。它的純五度音程的兩個音的頻率比(即2 的7/12 次方)與1.5 非常接近,人耳基 本上聽不出「五度相生律」和「十二平均律」的五度音程的差別。十二平均律在交響樂隊和鍵盤樂器中得到廣泛使用,現在的鋼琴即是根據十二平均律來定音的。

心理聲學中除了使用響度表達聲音的強度,使用音調來表達聽覺主觀感受,音調單位為mel。

音色(timbre)是指不同聲音表現在波形方面總是有與眾不同的特性,不同的物體振動都有不同的特點。音色是聲音的屬性(即響度、音調、音色)之一,主要由其泛音決定。每個人的聲音以及各種樂器所發出的聲音的區別,就是由音色不同造成的。

不同的發聲體由於其材料、結構不同,則發出聲音的音色也不同。例如鋼琴、小提琴和人發出的聲音不一樣,每乙個人發出的聲音也不一樣。音色是聲音的特點,和全世界人們的相貌一樣總是與眾不同。根據不同的音色,即使在同一音高和同一聲音強度的情況下,我們也能區分出是不同樂器或人發出的。如同千變萬化的調色盤是的顏色一樣,「音色」也會千變萬化而容易理解。

音色又稱為音品。為什麼音色不同?是由於不同的振動總是可組合成為不同的聲音。每一種樂器、不同的人的聲帶,以及其它所有的能振動的物體都能夠發出各有特色的不同的聲音,這些聲音的還可以有儀器顯示出波形波形。聲音除了有乙個『基音』外,還自然而然加上許多不同『頻率』(振動的物體1秒鐘振動的次數)與泛音『交織』,就決定了不同的音色,使人聽了以後能辨別出是不同的聲音。如同區分不同的『身份證』一樣。

一般來說,諧音越豐富音色越明亮也可能越尖銳,相反的,諧音貧乏的聽起來更具有暗淡或柔和的音色。除了頻譜,音色還與波的時間結構(包絡)有關,包含起始、穩定到衰減的特性。

聲源發出的聲波到雙耳的距離不同引起雙耳的強度差、時間差和相位差。一側耳朵出現的遮蔽效應也會引起強度差和音色差等。

哈斯效應又稱之為延時效應或優先效應,表徵人耳對延時聲的分辨能力,2個同樣的聲音先後到達,若其中乙個快5-35ms那麼人耳幾乎察覺不到延遲,後乙個起到豐滿補充的作用;如果相差30-50ms人耳會有一定察覺但仍然取決於先到的聲音方向;如果相差50ms以上,人耳就能分辨2個聲音各自的**方向。

作為立體聲系統定向的基礎之一,聲強級差與時間差所引起的效是是類似的,其間可以相互補償,並且聲強級差在15db以下、時間差在3ms以內時,它們之間呈線性關係,每5db的聲強級差引起的聲像偏移相當於兩聲音引起的時間差1ms的效果,這便是德波埃效應。

乙個較弱的聲音的聽覺感受被另乙個較強的聲音影響的現象,我們就稱之為人耳的「掩蔽效應」。「掩蔽效應」存在時域和頻域掩蔽,「掩蔽效應」在實際聲學應用中有很重要的作用,比如***壓縮技術就採用了掩蔽效應。

描述在嘈雜環境中,人耳可以在掩蔽聲中選擇有用的聲音並專注於想聽的內容,表徵了人在聽覺上的選擇關注能力。

心理聲學基礎

行者ai 聲音雖然客觀存在,但是人的主觀聽覺和客觀實際存在差異化。心理聲學研究的就是聲音的主觀感覺和物理量之間的關係,因為人耳聽覺對聲音的主觀響應是評價音質好壞的唯一標準。對於複雜的聲音,從主觀可以用響度 音高和音色來描述。客觀上,響度和音高與聲波的振幅 幅度 有關,音色和頻譜及包絡有關,而音高與頻...

聲學基礎01

傳播過程 聲音是空氣分子的振動。聲源 引起空氣分子相應的振動,傳入人耳導致鼓膜振動,通過中耳 內耳等一系列聽覺器官的共同作用使人聽到了聲音 聲波 是從聲源向四周立體擴散的一組疏密波,空氣分子並不是從聲源一直跑到您的耳朵,而是在它本來的位置振動,從而引起與它相鄰的空氣分子隨之振動,聲音就是這樣從聲源很...

聲學基礎 學習筆記

聲學是一門研究聲波的產生 傳播 接收以及與物質相互作用的科學。聲是一種機械擾動在氣態 液態 固態物質中傳播的現象。所謂擾動,是指在氣態 液態 固態物質中的乙個密度的 或者壓力的 或者是速度的某種微小變化,這個變化在彈性介質中就會傳播出去,這個傳遞的能量就是聲。聲音可以在一切彈性介質中傳播,當振動在氣...