有關Audio normalization兩三事 (下)

Keico Tu
BlendVision
Published in
6 min readApr 7, 2018

--

- 進入正題

有關Audio normalization兩三事 (上)裡,我們談到了有關音量如何定義與測量。然而,聲音訊號在數位系統的世界裡,採用的是dBFS (Decibels relative to full scale)為單位,以系統所能處理的最大量(Full scale)為基準,定為0 dBFS,並對其他值再做相對應的換算,所以數位音訊的db值均會是≤ 0。接下來在這篇裡,便會進入到正題 — Audio normalization。

Audio normalization可以分為兩種做法:Peak (level) normalization 與 Loudness normalization。

FIG. 1 Levels after audio normalizing (source: toneprints.com)

Peak normalization:將音訊最大(Peak)的地方,調整到特定音量,然後其他音訊做相對應的增/減調整。在FIG.1裡左側的範例裡,將各類型音訊的音量分布,隨著最大音量拉到0 db做相對調整。優點是方法簡單,只需要找出最大聲處與其音量,就能決定了整體的音量調整。缺點是Peak對於整體音訊不一定具有代表性:某個時間點出現大聲,並不代表整體都是大聲。所以normalization的結果好壞會因此受影響。FIG. 2 左側是一段調整前的電影對話,到後面時有出現一聲響亮槍聲,由於這突來的槍響,導致經過peak normalization後(FIG. 2右側),調整幅度不大,電影對話仍舊聽起來很小聲。(來去聽聽看:調整前, 調整後)

FIG. 2 (source: amvidia.com)

Loudness normalization:先計算出整體聲音的平均音量,再將根據平均音量到期望音量的差值,作為調整的依據。在FIG. 1裡右側的範例,將各類型音訊的音量分布,隨著平均音量(綠色區域上界)拉到-24db後,跟著做相對應的調整。好處是平均音量對於整體聲音比較具有代表性,缺點就是計算較於複雜,大音量的地方有可能在調整後,音量爆表而被裁切到或是各音量間的對比也會變得不一樣。我們拿同一個電影片段來做Loudness normalization後(FIG. 3),可以看/聽到前面的對話明顯變得大聲了,但是對話跟槍聲的大小對比也變得不同於原始聲音。

FIG. 3 Audio after loudness normalization
(內嵌音樂檔若不能讀取, 請至這裡聽聽)

由於Loudness normalization較能將整體音量調整出期望的結果,因此,在LinearTV/ Broadcast領域裡是最主要的選擇。目前在歐美所遵循的產業標準有:

電視台與廣告商所製作的節目、廣告必須遵循這些標準,以讓電視上放送內容時,不會出現音量落差的問題。而目前在網路服務裡,雖然未看到有明確地遵循產業標準,不過音量問題的處理已各自默默在進行中了:上傳至Youtube的音量都經處理過 (網路上分享實測表示約落在 -13 LUFS); DoubleClick Dynamic Ad Insertion說明裡提及,廣告影片上傳後,音量會遵循上述的歐美廣播標準進行處理;Audio Engineering Society針對串流服務所提出的 “Recommendation for Loudness of Audio Streaming and Network File Playback”,則是建議Target level設在-20~ -16 LUFS,這些都是可以作為參考。

此外,一致化影音內容的音量,除了可以解決先前提到,內容放送時音量落差的問題外,還能解決長久以來的音量競賽現象:為了吸引到注意,以求在茫茫音樂大海中脫穎而出,導致唱片裡音樂音量越調越大(大聲會讓聽眾有一種變好聽的錯覺),同時也壓縮到了音樂原有的動態範圍(Dynamic range,就好像後製照片將顏色調亮時,有時候調太多會讓偏亮處調完後變成曝光過度,都白白的,看不出細節層次了),從FIG. 4可以看到Michael Jackson的“Black or White”在不同年出版中,音量增長的情況。所以,當音量被規範後,多餘的音量提升就再也不必要,把聲音品質保留才是比較實際的了~

FIG. 4 (source: en.wikipedia.org)

[附註]

[同場加映]

--

--