XR콘텐츠를 위한 공간 음향

Spatial Audio for XR Contents

Hyunsik Yoo
ixi media
11 min readJul 19, 2021

--

최근 애플에서 공간 음향과 무손실 오디오를 지원한다고 발표 했다. 일부에서는 새로운 기술의 등장으로 환호 하기도 했지만 사실 공간 음향과 무손실 오디오는 오래 전부터 일반 대중들에게도 서비스 되고 있는 기술이다. 현재 시점에서는 음악 서비스에 국한되어 있지만 애플의 이같은 행보는 앞으로 발표할 XR기기와 콘텐츠에서 음향이 몰입감을 위한 중요한 요소 중 하나일 수 있다는 예견일 수도 있다.

[그림1] 스테레오 청취 환경 (에이엘그루프(주) 제공)

XR 이전의 공간음향기술

애플 이외에도 현재 글로벌 음악 시장에는 돌비 애트모스 공간음향 기술이
적용된 스트리밍 서비스가 한창이다. 타이달(Tidal)의 프리미엄 서비스와 아마존 뮤직 뿐 아니라 최근 국내 네이버 바이브(VIVE)에서도 돌비 애트모스 음악 서비스를 시작했다.

이러한 음악 서비스가 되기 이전에 공간음향 기술은 영화 산업과 함께 발전해 왔다. 초기 오디오 기술은 하나의 채널을 갖는 모노(Mono)를 시작으로 두 개의 스피커에서 서로 다른 소리를 출력하는 스테레오(Stereo)가 보편적이었다.

[그림2] 5.1채널 서라운드 스피커 레이아웃 (에이엘그루프(주) 제공)

오디오 기술이 발달 하면서 효과적인 공간음향 표현을 위해 다채널 서라운드 스피커가 활용되어 구현이 가능해 졌고 현재는 대부분의 극장에서 서라운드 음향을 활용하고 있다. 특정 공간에 고정된 위치의 스피커를 활용한 채널기반의 오디오 기술은 극장이나 공연처럼 다인이 동시에 같은 사운드 경험은 하는 환경에서는 효과적이다.

그러나 이러한 오디오 기술은 실재감(Presence), 상호작용(Interaction)
그리고 몰입감(Immersion)이 더욱 중요해진 XR 콘텐츠에서 효과적으로
표현하기에는 제한적이다.

XR 콘텐츠에서의 공간음향기술

XR 콘텐츠의 효과적인 음향 제작을 위해서는 다음과 같은 사항들이 고려되어야 한다.

  1. 어떤 요소가 실재적 청취환경을 만들어 주는가?
  2. 이 요소들을 어떻게 녹음 또는 캡쳐 하고 표현할 수 있는가?
  3. XR환경에서 어떻게 소리 객체를 적용할 수 있는가?
  4. 직관적인 상호 작용성은 어떻게 만들 것인가?

또한 청음 환경은 다채널 스피커를 활용한 서라운드 환경 구축도 가능하겠지만 가상현실 콘텐츠를 체험하기 위한 대표적인 기기인 HMD의 활용을 고려 한다면 이어폰 또는 헤드폰 기반으로 제작되어야 한다.

1) 바이노럴 오디오 기술

헤드폰을 활용하여 공간음향을 구현하는 대표적인 방법은 바이노럴(Binaural) 오디오 기술이 있다. 인간은 두 귀에 도달하는 소리의 시간차, 레벨차 그리고 주파수의 변형을 감지하여 3차원의 소리를 인지한다. 즉, 어떤 소리가 어느 방향에서 그리고 어느 정도 거리에 떨어져서 나는지 알 수 있다.

바이노럴 오디오는 이러한 인간의 청각과 동일한 환경을 시뮬레이션 하여 좌, 우 2채널을 활용한 헤드폰만으로 공간음향을 재생 할 수 있다. 그러나 바이노럴 오디오 기술은 청취자가 움직이지 않은 상태에서 소리객체가 이동하는 표현은 가능하지만 청취자가 고개를 돌리거나 움직일때의 상호 작용이 불가능하다.

즉, 360영상이나 VR콘텐츠의 경우 체험자들이 공간을 이동하거나 고개를 돌려 원하는 방향을 볼 수가 있는데 이때 바이노럴 오디오는 이러상 상황을 대응 하지 못하는 것이다.

2) 앰비소닉스 오디오 기술

3축 자유도(3DoF)를 갖는 콘텐츠의 경우는 앰비소닉스(Ambisonics) 오디오 기술을 활용하면 비교적 쉽게 제작할 수 있다. 앰비소닉스는 360도 카메라와 마찬가지로 고정된 축에서 전방위의 소리정보를 담는 방식이다.

앰비소닉스 오디오를 활용하면 [그림3]에서 처럼 청취자를 둘러싼 몰입형 오디오를 경험할 수 있는데 이는 기존의 채널기반 오디오(예: 모노, 스테레오, 5.1, 7.1 등)와 다르게 위치와 거리 정보를 메타 데이터로 취득하여 소리위치의 3축 회전이 자유롭다. 즉, 360 영상 또는 VR 콘텐츠에서 영상정보와 일치된 소리 정보를 경험 할 수 있는 것이다.

[그림3] 이머시브 스피커 레이아웃 예시 (에이엘그루프(주) 제공)

국내에는 아직까진 이러한 기술을 활용한 XR콘텐츠가 많진 않으나 점차 늘어나는 추세이고 해외 콘텐츠의 경우 앰비소닉스 오디오 기술을 활용한 콘텐츠를 쉽게 찾아 볼 수 있다.

이러한 콘텐츠들은 HMD를 착용했을 경우 고개를 3축으로 돌려보거나 2D 환경에서도 헤드폰을 착용하고 화면을 마우스로 이동하면 소리가 영상과 함께 회전 하는 것을 느낄 수 있을 것이다.

현재 유투브는 1차 앰비소닉스(FOA: First Order Ambisonics, 4채널)를, 페이 스북은 2차 앰비소닉스(2OA: 2nd Order Ambisonics, 9채널)를 360영상과 함께 오디오를 지원하고 있다. 앰비소닉스는 차수(Order)가 높아질 수록 소리 객체의 방향성과 거리감이 분명해지는 높은 공간 해상도를 가지는 장점이 있으나 고차로 갈수록 많은 채널을 사용하기 때문에 데이처 처리 측면에서는
최적화된 방법은 아니다. 그러나 앰비소닉스는 비교적 적은 채널인 4채널 만으로도 효과적인 공간음향을 구현할 수 있다는 사실에는 변함이 없다.

현재 상용화된 1차 앰비소닉스 마이크로폰은 4개의 캡슐을 통해 A-포맷이라는 형태로 녹음이 된다. 이는 플러그인을 활용해 반드시 B-포맷으로 변환을 거쳐야 비로소 적용할 수 있는 앰비소닉스가 된다.

앰비소닉스 마이크를 활용하는 것 만으로도 한 개의 모노 마이크로 녹음하는것과 비교해서 훨씬 더 많은 공간 정보를 획득 할 수 있기때문에 오디오 엔지니어들도 이에 대한 많은 관심을 갖고 있다. 그러나 이 만능일것 같은 앰비소닉스 마이크로 녹음을 해보면 생각보다 좋은 소리를 얻지 못하거나 객체의 방향감 또는 거리감에 대한 해상도가 생각보다 못한 경우도 있다. 이는 녹음하는 공간의 기본적인 잔향에 따라 해상도 떨어질 수도 있고 어쩌면 1차 앰비소닉스의 한계일 수도 있다.

좋은 음원 녹음을 위해서는 마이크의 적절한 위치 선정과 방향이 중요 하다.앰비소닉스 녹음 방식은 360도 공간 전체를 수음 하는 것이기 때문에 전통적인 녹음 방식과는 조금 다른 접근의 방법이 필요할 것이다. 그러나 기억해야 할 것은 전통적인 녹음 방식에서도 하나의 마이크만을 사용하지 않는다는 것이다. 근접 마이킹, 스테레오 마이킹, 잔향을 얻기 위한 마이킹 등 다양한 마이킹을 활용한다. 앰비소닉스 녹음에서도 좋은 소리를 얻기 위해서는 다양한 마이킹을 통해 녹음된 음원을 적절히 믹싱 하는것이 필요하다.

[그림5] 4채널 1차 앰비소닉스 마이크로폰, Sennheiser Ambeo

3) 객체 기반 오디오

한편, 6DoF XR 환경에서 유효한 소리경험을 위해서는 앰비소닉 마이크를
사용하여 음원 녹음과 재생을 하는 방식만으로는 제한적이다. 각각의 객체소리를 사전에 녹음하고 3D 리얼타임 엔진을 활용하여 가상 공간에 배치하여 실시간 렌더링을 통해 구현한다. 이러한 방식을 객체 기반 오디오(Object-based Audio)라고 한다.

객체 기반 오디오는 각 음원을 독립적으로 가상 공간에 배치 하거나 소리를 이동시킬수 있다. 따라서 사용자들이 움직이는 방향과 바라보는 시선에 따라 적극적인 상호작용성으로 소리의 변화를 느낄 수 있다. 그러나 객체 기반 오디오 만으로는 공간음향을 완벽하게 표현하기 어렵기 때문에 앞써 언급한 세 가지 기술의 장점을 적절하게 활용하여 XR콘텐츠를 위한 공간음향을 기획하고 설계 해야 한다.

오디오(Audio)의 기술적인 부분을 고려한다면 채널기반, 객체기반, 바이노럴 및 앰비소닉스 등 다양한 기술을 활용할 수 있지만 청취자 입장에서 생각해 보면 결국 어떤 소리(Sound)를 어떻게 어디에서 들려주려는 것인지가 중요하다. 그렇다면 사운드 디자인 관점에서는 어떤 요소들을 고려하며 제작을 해야 할 지 생각해보자

사운드 디자인의 관점

우리가 살고 있는 실재 공간에서는 늘 그 공간 특성의 잔향이 있고 무의식적으로 들리는 주변의 잔잔하고 다양한 소음이 존재한다. 이러한 소리의 특성이 실재감과 자연스러움을 느끼게 하는 요소이다. 인위적으로 제작되는 XR 환경에서의 사운드 디자인 관점에서 보면 주변음(Ambience)을 가장 먼저 가상 공간에 배치시키는 것이 필요하다.

두번째로 객체(Object)의 소리일 것이다. 가상공간의 주변음 위에 생명체일 수도 있고 물체일수도 있는, 시각적으로 보이는 혹은 보이진 않지만 인지 가능한 소리를 배치 할 수 있다. 앞써 언급 했던 근접 마이킹 기법으로 녹음된 소리들을 주로 사용하게 되며 그 소리들은 먼저 설정된 가상 잔향 알고리즘이 적용되어 청취자에게는 특정한 공간에서 들리는 것 같은 효과를 준다.

이러한 가상 객체의 소리들은 거리, 높이, 방향 등에 따른 상호작용을 통해 소리의 특성이 변하면서 콘텐츠의 실재감과 몰입감을 더 해 준다. 그럼에도 불구하고 사운드는 그냥 들리기만 하면 된다는 인식이 있어 좋은 사운드 디자인의 필요가 간과 되는 경우가 종종 있다.

상대적으로 그래픽은 직관적으로 콘텐츠의 퀄리티를 나타낼 수 중요한 요소이기 때문에 대부분의 일반 대중들은 동시에 비교하지 않고서도 고사양의 그래픽과 저사양의 그래픽을 구분할 수 있지만 소리를 그렇게 구분할 수 있는 사람은 많지 않다.

XR콘텐츠의 실재감과 몰입감을 더욱 극대화 하기 위한 양질의 사운드가 많이 제작되어 일반 대중들이 이를 경험하고 필요하다는 인식재고도 이루어져야 할 것이다.

[그림8] Oculus First Step

페이스북 오큘러스는 자사가 출시한 VR 헤드셋 오큘러스의 기본 기능과 사용법을 익일 수 있는 ‘Oculus First Step’ 앱을 무료로 공개 하였다. 이 앱은 특히, XR콘텐츠를 위한 좋은 사운드 제작 사례로 꼽아도 손색 없을 정도로 사운드 디자인 또한 잘 되어 있기때문에 이미 이 앱을 경험 했던 분들도 사운드 경험을 위해 다시 시도해 보는것을 추천한다.

영화에서 TV를 넘어 모바일 그리고 이제 XR에 이르는 급성장 하는 콘텐츠 시장에서 효과적인 제작을 위해서는 공간음향의 세계를 더 정확하게 이해 할 필요가 있다. 시각적 요소인 그래픽 뿐 아니라 사운드까지 현장감 있게 완벽히 구현된 공간음향 기반 XR콘텐츠는 관련 시장의 확대를 촉진 시킬 수 있다. 또한 실재감, 상호작용성, 몰입감이 더해진 다양한 시각적 콘텐츠에 공간음향 사운드 기술이 더해짐으로서 방향, 거리, 공간감의 시청각 불일치 문제 해결이 가능하다.

이처럼 공간음향은 XR콘텐츠를 완성시키는 중요한 요소이지만 국내 관련 콘텐츠 제작 업체의 경우 공간음향에 대한 이해와 사운드 담당 전문 인력이 부족한 현실이다. 국외 시장에서는 시청각적으로 완성도 높은 XR 콘텐츠가 많이 제작되고 있는 반면 국내 시장은 관련 교육 및 장비 보급의 부족으로 제작에서의 한계가 발생하고 있다. 교육기관에서도 이러한 현실을 반영하여 실무 경험을 겸비한 산업계 맞춤 전문 인재 교육으로 공간음향 제작에 특화된 인재 양성을 추진해야 할 것이다.

XR콘텐츠 사운드 구현을 위한 교육 또는 제작이 미흡한 이유로는 제작 분야간의 워크플로우가 정립이 안 되어 있기 때문이다. 바이노럴 오디오나 앰비소닉스 포맷은 사실 최근의 기술은 아니다 50~60년대 부터 정립되고 연구 되어오는 오래된 기술이다. 다만 이러한 기술들이 여전히 표준화 되지 않은 단계에서 제작되고 있는 것이 현실이다.

영화 산업에서 사운드 프로덕션은 표준화된 워크플로우에 기반 하여 제작되어 왔다. 녹음, 편집, 믹싱, 마스터링 등 산업의 표준에 맞춰 작업하고 교육도 이루어진다. VR콘텐츠의 경우 구글이나 페이스북, 유투브 등 글로벌 기업에서는 자체 표준이나 사운드 제작 워크플로우를 가지고 있으나 이들이 아직 까지는 통일 되고 있진 않다.

공간음향을 표현하기 위해서는 구현을 위한 XR 기기, 플랫폼 등 다양한 제작 알고리즘에 대한 이해가 필수적이며, 이들의 원리를 이해 해야 콘텐츠 제작에 적절한 방법을 선택할 수 있을 것이다.

다양한 분야에서 새로운 형태의 오디오 수요가 늘어나고 있는 시점에 타 산업의 정확한 제작 표준을 인지 하는 것은 매우 중요하다. 기존에는 콘텐츠를 제작하는 것에 초점을 두었다면 더 나아가 다양한 기술적인 표준을 이해하고 그 표준의 가이드라인을 따르는 제작 방식을 익히는 것도 필요하다. 급변하는 산업 환경에 발 빠르게 대처하고 콘텐츠 제작에 뛰어들기 위해서는 이론적 접근 뿐 아니라 다양한 산업 표준에 대한 이해와 함께 제작 경험이 필수적이다.

XR콘텐츠를 위한 사운드, 사람의 심리음향에 대해 고민하고, 사용자 관점에서 공간음향을 적용된 양질의 XR콘텐츠가 많이 제작 되길 기대한다.

키워드: 공간음향, 가상현실오디오, 메타버스, Spatial Audio, VR Audio, XR Sound

--

--