有關Audio normalization兩三事 (下)

Published in

BlendVision

6 min readApr 7, 2018

- 進入正題

在”有關Audio normalization兩三事 (上)”裡，我們談到了有關音量如何定義與測量。然而，聲音訊號在數位系統的世界裡，採用的是dBFS (Decibels relative to full scale)為單位，以系統所能處理的最大量(Full scale)為基準，定為0 dBFS，並對其他值再做相對應的換算，所以數位音訊的db值均會是≤ 0。接下來在這篇裡，便會進入到正題 — Audio normalization。

Audio normalization可以分為兩種做法：Peak (level) normalization 與 Loudness normalization。

FIG. 1 Levels after audio normalizing (source: toneprints.com)

Peak normalization：將音訊最大(Peak)的地方，調整到特定音量，然後其他音訊做相對應的增/減調整。在FIG.1裡左側的範例裡，將各類型音訊的音量分布，隨著最大音量拉到0 db做相對調整。優點是方法簡單，只需要找出最大聲處與其音量，就能決定了整體的音量調整。缺點是Peak對於整體音訊不一定具有代表性：某個時間點出現大聲，並不代表整體都是大聲。所以normalization的結果好壞會因此受影響。FIG. 2 左側是一段調整前的電影對話，到後面時有出現一聲響亮槍聲，由於這突來的槍響，導致經過peak normalization後(FIG. 2右側)，調整幅度不大，電影對話仍舊聽起來很小聲。(來去聽聽看：調整前, 調整後)

Loudness normalization：先計算出整體聲音的平均音量，再將根據平均音量到期望音量的差值，作為調整的依據。在FIG. 1裡右側的範例，將各類型音訊的音量分布，隨著平均音量(綠色區域上界)拉到-24db後，跟著做相對應的調整。好處是平均音量對於整體聲音比較具有代表性，缺點就是計算較於複雜，大音量的地方有可能在調整後，音量爆表而被裁切到或是各音量間的對比也會變得不一樣。我們拿同一個電影片段來做Loudness normalization後(FIG. 3)，可以看/聽到前面的對話明顯變得大聲了，但是對話跟槍聲的大小對比也變得不同於原始聲音。

FIG. 3 Audio after loudness normalization

(內嵌音樂檔若不能讀取, 請至這裡聽聽)

由於Loudness normalization較能將整體音量調整出期望的結果，因此，在LinearTV/ Broadcast領域裡是最主要的選擇。目前在歐美所遵循的產業標準有：

(美) ATSC (A/85) “ATSC Recommended Practice: Techniques for Establishing and Maintaining Audio Loudness for Digital Television”：由Advanced Television Systems Committee所制定，其中提到“Target Loudness value should be –24 LKFS”。
(歐) EBU R128 “Loudness Normalization and Permitted Maximum Level of Audio Signals”：由European Broadcasting Union所制定，其中提到 “The Programme Loudness Level shall be normalised to a Target Level of -23.0 LUFS”。

電視台與廣告商所製作的節目、廣告必須遵循這些標準，以讓電視上放送內容時，不會出現音量落差的問題。而目前在網路服務裡，雖然未看到有明確地遵循產業標準，不過音量問題的處理已各自默默在進行中了：上傳至Youtube的音量都經處理過 (網路上分享實測表示約落在 -13 LUFS)； DoubleClick Dynamic Ad Insertion說明裡提及，廣告影片上傳後，音量會遵循上述的歐美廣播標準進行處理；Audio Engineering Society針對串流服務所提出的 “Recommendation for Loudness of Audio Streaming and Network File Playback”，則是建議Target level設在-20~ -16 LUFS，這些都是可以作為參考。

此外，一致化影音內容的音量，除了可以解決先前提到，內容放送時音量落差的問題外，還能解決長久以來的音量競賽現象：為了吸引到注意，以求在茫茫音樂大海中脫穎而出，導致唱片裡音樂音量越調越大(大聲會讓聽眾有一種變好聽的錯覺)，同時也壓縮到了音樂原有的動態範圍(Dynamic range，就好像後製照片將顏色調亮時，有時候調太多會讓偏亮處調完後變成曝光過度，都白白的，看不出細節層次了)，從FIG. 4可以看到Michael Jackson的“Black or White”在不同年出版中，音量增長的情況。所以，當音量被規範後，多餘的音量提升就再也不必要，把聲音品質保留才是比較實際的了~

[附註]

LKFS：Loudness, K-weighted, relative to full scale。定義於國際標準ITU-R BS.1770中。
LUFS：Loudness units relative to full scale。使用於EBU R128中，而定義等同於LKFS。

[同場加映]

使用ffmpeg做peak/loudness normalization，ffmpeg loudnorm filter
用matlab實作的Loudness normalization 範例(EBU R128 Standard)
更多peak, loudness normalization的比較
附上以前的投影片供參考：

有關Audio normalization兩三事 (下)

- 進入正題

Written by Keico Tu