[Master 기술 공유] 서버리스 클라우드 재해 복구 (DR) 이야기

NAVER Cloud
NAVER Cloud
Published in
8 min readJan 16, 2023

안녕하세요, 네이버 클라우드 플랫폼 테크 앰버서더 마스터 (MASTER) 최승림입니다. Migration & DR 분야 전문가로 활동하고 있습니다.

Ncloud 마스터 최승림 — 프로필 바로가기

재해 복구 (Disaster Recovery)를 의미하는 ‘DR’. 작년 메신저 먹통 사고를 비롯한 다수의 서비스 중단 사례를 경험하며 이젠 많이 익숙해지셨으리라 생각합니다.

웹이나 모바일에서 동작하는 서비스가 없으면 정상적인 생활이 어려워진 요즘. 그만큼 IT 재해 복구 (DR)의 중요성 또한 강조되고 있습니다. 모든 기술이 그러하듯 재해 복구 (DR) 기술 또한 꾸준히 발전해 왔는데요. 과거부터 현재까지 DR 기술의 발전상을 시작으로 서비스 연속성을 확보하는 방법을 알아보겠습니다.

서버 이중화 (HA)와 재해 복구 (DR)

재해복구 (DR) 이전에 ‘서버 이중화 (High Availability)​’를 먼저 알아야 합니다. IT 서비스 안정성 유지를 위해 리소스를 이중 또는 그 이상으로 구성하는 개념으로, 하나보단 두 개 이상의 수도꼭지를 틀어두면 더 안정적으로 물을 받을 수 있는 것과 같은 이치입니다.

물을 공급해 주는 상수도에 문제가 생기면 무슨 일이 생길까요? 여러 개의 수도꼭지가 있다고 하더라도 물을 받을 수 없는 문제가 생기게 됩니다. 그렇기 때문에 서버 이중화 (HA)만으로는 각종 재해 및 위험 요소로부터 안전할 수는 없습니다.

재해 복구 (DR)는 상수도가 문제가 생기더라도 물을 공급해 줄 수 있게 해주는 것에 비유할 수 있습니다. 서버가 있는 지역이나 데이터센터의 재해 등 위험 요소에 의해 서비스가 중단됐을 때 시스템을 포함한 서비스를 복구하는 것을 의미하죠.

서버 이중화 (HA)를 잘 구축했더라도 해당 리소스가 위치한 데이터센터에 문제가 생긴다면 서비스는 지속될 수 없습니다. 따라서 지리적으로 떨어져 있는 위치에 서비스를 재개할 수 있도록 데이터 및 시스템 이중화를 하게 되며, 이를 ‘재해 복구(DR)’라고 합니다.

쉽지만은 않은 재해 복구 (DR)

재해 복구 (DR)의 가장 큰 허들은 비용입니다. 대부분의 DR 서비스는 많은 비용이 들 뿐 아니라, 매우 전문화된 서비스이기에 전문 운영 인력이 필요합니다. 따라서 일정 수준 이상의 규모와 전문 IT 인력을 갖춘 대기업 위주로 사용하는 서비스라는 인식이 일반적입니다.

DR 히스토리

2010년 이전의 재해 복구 (DR) 서비스의 모습은 아래와 같았습니다. ‘1세대 재해복구 환경’은 보호 대상 서버가 100대이면 실제로 데이터센터에 동일한 머신을 100대를 구매하여 두고 One to One (1:1)으로 두는 구성이었습니다.

2010년 이후 VMware의 등장과 함께 서버 가상화 시대가 열렸습니다. 보호할 대상 물리 서버가 100대임에도 불구하고, 실제 물리 서버는 5대나 10대를 준비하고 가상 머신을 100개를 만들어 Many-to-One 구성을 하기 시작한 것이죠. 앞서 소개한 ‘1세대 재해복구 환경’ 대비 최대 80%까지 비용 절감을 할 수 있게 되었습니다.

대세가 된 클라우드

이후 급부상한 클라우드 기술. 특히 팬데믹 이후 클라우드의 효용성은 더욱 빛을 발했습니다. 생성 후 계속 유지해야 했던 기존 VM과 달리, 클라우드 VM은 필요할 때만 만들어서 복구하면 되기 때문이지요. 이 개념이 바로 ‘서버리스 클라우드 DR’ 기술입니다. 해당 기술을 이용하면 2세대 재해복구 환경 대비 최대 80%까지 비용을 절감할 수 있습니다.

이처럼 클라우드 시대의 도래에 따라 DR 서비스에 필요한 인프라에 대한 모든 부분을 클라우드에서 쉽게 해결이 가능해졌습니다. 클라우드 인프라를 활용하면 기존 On-prem 환경에서 DR 서비스 구축이 어렵던 중소·중견 기업도 합리적인 가격으로 DR 서비스를 구성할 수 있게 된 것이죠.

클라우드 DR은 쉬울까?

하지만 이러한 이점에도 클라우드 재난복구 서비스 역시 잘 활용되지 못하는 경우가 많습니다. 크게 두 가지 이유가 있습니다.

첫째, 소스 머신이 멀티 클라우드 환경으로 바뀌면서 복구해야 할 전환 케이스가 너무나 복잡해졌기 때문입니다. 천 가지가 넘는 경우가 다반사죠. 아래와 같이 복잡한 인프라 특성으로 인해 데이터 복구가 안 되는 경우가 발생합니다. 복구율이 떨어진다면 DR 서비스의 필요성이 줄어드는 것은 당연한 이치겠지요.

출처 : NAVER Cloud SUMMIT 2022 발표 화면 중

둘째, DR 서비스 특성상 서비스에 필요한 모든 자원이 클라우드에서 동작해야 하는데, 보통 Database와 File 등 데이터만 클라우드 스토리지 등으로 소산 용도로 대응하고 있다는 문제입니다.

작년 디지털 정전 사태에서도 고객 데이터 (사진, 메시지 등)는 이중화 및 소산이 잘되어 있지만, 서비스 운영에 필요한 App 서버 가동이 운영도구 이슈로 늦어지며 큰 피해가 발생한 것입니다.

서버 (App 엔진)는 몇만 대씩 병렬로 운영하기 때문에 일반 장애 (Disk, Hardware 등)에 대해서는 대응이 가능했지만, 데이터센터에 문제가 생긴 경우 (DR 상황)에는 서버가 몇만 대가 있어도 대응이 불가했던 것입니다.

재난상황 발생 시에는 결국 데이터뿐만 아니라 모든 App 서버가 제대로 동작해야 서비스가 정상적으로 동작할 수 있음을 보여준 사례라고 할 수 있습니다.

클라우드 DR 제대로 활용하기

‘서버리스 클라우드 DR’의 장점을 제대로 누리며 잘 활용하기 위해서는 앞서 언급한 어려움을 극복할 수 있어야 합니다. 여기에 도움을 주는 기술이 ‘클라우드 애그노스틱 (Cloud Agnostic)’ 기술입니다.

‘애그노스틱 (Agnostic)’ ‘구애받지 않는’이라는 사전적 의미를 가지고 있는데요. 천 가지가 넘는 변수에 구애받지 않으며 클라우드의 복잡한 인프라 특성을 해결할 수 있는 기술입니다.

소스 애그노스틱 이미징 기술

‘소스 애그노스틱 이미징 기술’은 복잡한 소스 환경을 하나로 만들어주는 클라우드 애그노스틱 플랫폼 기술 중 하나입니다. OS, Application, Data를 ‘.ZIA’ 형태의 이미지 파일로 생성함으로써, 천 가지가 넘는 복잡한 디지털 전환 환경을 하나의 포맷으로 만드는 기술입니다.

클라우드 애그노스틱 복구 기술

소스 애그노스틱 이미징 파일을 단순히 클라우드에 옮기면, 일반적으로 클라우드 환경이 다르기 때문에 VM이 정상적으로 동작하지 않을 수 있습니다. 그래서 꼭 함께 써야 하는 기술이 ‘클라우드 애그노스틱 복구’ 기술입니다. 다양한 클라우드 환경에 맞도록 드라이버 등 시스템 환경을 자동으로 업데이트해주는 기술이라 할 수 있습니다.

이 ‘소스 애그노스틱 이미징 기술’과 ‘클라우드 애그노스틱 복구 기술’을 결합하면 복잡한 인프라 특성으로 인해 복구율 떨어지는 문제를 해결할 수 있습니다. 위 두 이미지를 결합한 형태라고 생각하면 됩니다.

네이버 클라우드 플랫폼 (Ncloud) 환경을 예로 들면, 다른 기종의 가상 머신, 디스크 포맷, 클라우드 플랫폼으로 인한 복잡한 전환 대상 운영 환경이 .ZIA 이미지 포맷으로 단일화되는 효과가 있습니다.

이 두 가지 ‘애그노스틱’ 기술을 제공하는 대표 DR 서비스로는 네이버 클라우드 플랫폼 (Ncloud) 마켓 플레이스에서 제공되는 제트컨버터 (ZConverter)가 있습니다.

출처 : NAVER Cloud SUMMIT 2022 발표 화면 중

서버리스 클라우드 DR

마지막으로 초반부에 소개한 개념을 리마인드 하며 글을 마무리하려 합니다. 지금까지 소개한 모든 개념의 기본이 되는 클라우드의 본질. 바로 ‘서버리스’인데요. 평소 모든 App 서버를 DR 센터 등으로 소산 및 운영하기엔 비용과 운영 부담이 큰 조직에도 클라우드는 해결책이 될 수 있습니다.

평상시엔 ZIA 이미지만 스토리지에 저장해 두고, 모의훈련이나 재해 상황 발생 시에만 VM을 만들어서 복구를 하는 방식입니다. 서비스 안정성 만큼이나 cash flow를 비롯한 기업 운영 상의 안정성 확보도 중요한 시기이기에 ‘서버리스 클라우드 재난복구 (DR)’ 방식은 앞으로도 계속해서 주목받을 것으로 전망합니다.

* 본 글은 네이버 클라우드 플랫폼 테크 앰버서더 MASTER 최승림 님의 기여로 작성되었습니다.

​네이버 클라우드 플랫폼 Master는 클라우드 기술 전문가로 구성된 커뮤니티 그룹입니다.

  • 클라우드 기술을 알기 쉬운 말과 글로 풀며 누구나 쉽게 클라우드를 이해하도록 돕습니다.
  • 현업에서 경험한 클라우드 이야기를 커뮤니티와 나누며 집단지성을 확장합니다.
  • 네이버 클라우드 플랫폼을 깊게 들여다보고 사용자 경험 향상을 위한 인사이트를 공유합니다.

--

--

NAVER Cloud
NAVER Cloud

We provide cloud-based information technology services for industry leaders from startups to enterprises.