有關Audio normalization兩三事 (上)

Keico Tu
BlendVision
Published in
5 min readFeb 17, 2018

--

- 音量測量

先前做Linear TV相關的工作時,遇到一個聲音上的問題,因為各個節目、廣告影片裡的音量大小不同,導致連續播放下來,有時會有切換節目/廣告時,使用者體驗不好的情況(聲音有大有小,如果突然播個大聲的廣告會嚇到人),因此研究了一下把音量做統一調整的方法,希望讓整體聲音聽起來都維持在一定範圍內。而這個調整,就叫做Audio normalization。在瞭解audio normalization前,先來研究了一下,音量是如何被定義、量化的。

聲音是一種波動,音波傳遞到耳朵中,振動耳膜、帶動聽小骨、傳至內耳、產生神經衝動,最後,沿著聽神經傳至大腦形成聽覺。

FIG. 1 (source: electrosome.com)

音波的頻率決定了聽起來的音高,波型決定了音質的特色,而音波的振幅則與聲音聽起來的大小有關:音波振幅越大,對耳膜產生的壓力越大,聽覺上感覺到的音量也就會越大。所以能用音壓測量來定義音量。

FIG. 2 (source: www.majorcom.fr)

然而,壓力的單位是Pascal (Pa, 標準大氣壓力等於101.325 KPa),音壓實測的結果往往數字變異過大,所以Pascal不太適合作為音量單位(可以看到FIG. 2音量表裡左側以Pa為單位時,數值可以從0.0002變化到20)。所測量到的音壓會再經過轉換公式,轉換為SPL (Sound Pressure Level),也就是FIG.2裡右側的表示,以dB為單位,也就是大家所熟知的分貝(經過公式裡取對數的運算後,數值的分布也較為方便使用)。

但是人腦所知覺的音量大小並不是單純只跟音壓/振幅有關,聲音的頻率其實也會影響,即便兩個相同振幅的聲音,若是音頻不同,聽起來的音量可能會是不一樣的。兩位貝爾實驗室的學者Fletcher與Munson在1933年的研究裡,提出”Equal-Loudness Contour”說明了SPL、音頻、音量的關係,從FIG.3我們可以看到:

  • 以音壓50SPL為例,4KHz音高的聲音聽起來就比1KHz音高的聲音要來得大聲。
  • 以音量40phon曲線來看,1KHz的聲音40SPL就有此音量,但8KHz的高音則要讓音壓近50SPL才能達到一樣的音量效果。
FIG. 3 (source: www.extron.com)

人耳雖然可以聽到的頻率範圍約在20~20K Hz,但在不同音頻區段裡,對音量感受的敏銳度是不同的,從這些曲線(FIG.3)的確能觀察到這樣的現象,像是對於1K~6KHz之間的音量變化,是比其他區段更為敏感,而對於低頻的聲音較為遲鈍(需有較大的音壓才能感受到音量)。因此,基於這樣的現象,出現了一些加權方式:

FIG. 4 Weighting filters (source: en.wikipedia.org)

一方面根據不同領域的音量測量需求,去選用適合的加權方式,強化或弱化特定音頻區段,另一方面讓加權調整後的數值,較接近聽覺主觀上的音量感受;其中的A-weighting filter常用於測量環境或是工業噪音的音量儀,而國際標準ITU-R BS.1770對於聲音響度定義LKFS則採用的是K-weighting filter(FIG. 5),把聲音大致分三個權重區間:

  • <100Hz:越低頻越感受不到音量,所以測量值需減去越多
  • 100~1K Hz:重要性持平,維持原測量的音量值
  • ≥1KHz:放大高頻音量值
FIG. 5 K-Weighting filter (source: www.mirkoperri.com)

所以音壓測量值經過SPL換算後,再經加權調整便是最後的音量值。理解了音量的定義後,接著在“有關Audio normalization兩三事 (下)”來探討如何做Audio normalization…

[附註]

  • Phon定義:1KHz的聲音,在各SPL下的音量(10SPL是10phon, 50SPL是 50phon以此類推)。
  • Equal-Loudness Contour是經由實驗,受測者們對於聲音的反應所收集得來的知覺數據整理,而非科學理論推導而來的。
  • 附上以前的投影片供參考,音量是前半部的內容:

--

--