[에지 컴퓨팅 시리즈#3] 마이크로 데이터레이크의 아키텍처

고빈도 데이터가 가장 많이 발생하는 산업계의 제조/생산 공정이나, 초고도 선진 기술이 적용된 분야의 장애 판단, 장애 예측 측면에서 꼭 등장하는 초고빈도 데이터 분석 영역에서는 매우 반길 기술이라고 할 만 하다.

Machbase

Published in

machbase

10 min readMay 24, 2024

마크베이스 CEO 김성진(andrew.kim@machbase.com)

혹시 이 글이 첫번째인 구독자라면 앞서 기술했던 시리즈 1과 2를 미리 읽고 오기를 다시 한번 권고 드린다.

[에지 컴퓨팅 시리즈#1 마이크로 데이터레이크의 출현]

[에지 컴퓨팅 시리즈#2 마이크로 데이터레이크의 특성]

결론 먼저!

아래 그림이 마크베이스가 지향하는 궁극적인 그림이며, 각 그림의 구성에서 사용된 용어와 문장을 가져와 각각에 대해 세부적으로 살 펴보도록 하자.

운영자의 투명한 데이터 접근!!

시리즈 전체를 통틀어 가장 중요한 단 한 문장을 지정하라고 한다면, 이 센션의 제목인 “투명한 데이터 접근”일 것이다. 바로 이 한 문장을 위해 구구절절한 이야기를 한 것이라고 할 수 있다.

그렇다면, 에지 컴퓨팅에서 이 문장이 가진 진정한 함의는 무엇일까?

가. 물리적 데이터 위치에 대한 추상화

첫번째로 가장 중요하다고 판단하는 데이터의 물리적 위치에 대한 추상화이다. 어려운 말 같지만, 좀 더 쉽게 표현하면, “사용자가 접근하는 데이터가 클라우드에 존재하는지 에지에 존재하는지에 대해 구별할 수 없도록 하는 것”이다. (물론 관리자는 당연히 알 수 있다)

앞에서 마이크로 데이터레이크를 이야기하면서, 기존 클라우드 사업자의 최종 목적에 대해 이야기한 바 있다. 그것은 바로 에지에서 발생하는 모든 데이터를 클라우드 공간 혹은 서버 데이터레이크로 전송하는 것이었고, 여기에서 모든 비지니스가 시작하는 것이라고 했었다.

이러한 데이터가 클라우드 한 곳에 집중된 구조를 사용자 관점에서 본다면, “아..모든 데이터가 클라우드에 있으니 내가 분석을 하건 활용을 하건 데이터 접근에 대한 제약 사항이 없겠네?”라는 편안함을 주는 것이다. (물론 여기에는 사용자가 매월 지불해야 하는 비용은 잊게 되겠지만..)

이와 유사하게 진정한 마이크로 데이터레이크의 개념이 실현된다고 하다면, 사용자는 접근하는 데이터의 위치 정보는 인터페이스 레벨에서는 알 수 없도록 제공되어야 한다는 뜻이다. 이것이 가능한 상황에서는 클라우드(혹은 서버)측에서는 접근하는 대상 데이터는 특정 규칙으로 지정된 이름, 예를 들면, “알람 데이터”, “장비 A의 원시 데이터”, “지난 1년간의 트렌드 데이터” 등으로 완전히 추상화되어 접근한다는 의미이다.

위의 내용에 이 데이터가 어디에 있는 지에 대한 정보는 전혀 없다는 것이 키 포인트인데, 만일 대부분의 데이터가 마이크로 데이터레이크에 존재한다면, 그 사용자가 매월 지불하는 데이터 저장소 및 관리 비용(접근 API 비용)은 0에 수렴한다는 놀라운 사실을 추론할 수 있을 것이다. 이 내용은 다음 절에서 자세히 기술하겠다.

나. 데이터 통합/관리 비용의 절감

당연한 이야기지만, 대부분의 데이터가 마이크로 데이터레이크에 있다면, 클라우드의 저장소 비용은 그만큼 절감되는 것이 사실이다.

또 하나 재미있는 사실은 사무실에서 접근하는 PC에서 클라우드를 통해 마이크로 데이터레이크에 대한 데이터 접근, 예를 들어 차트를 그리거나, 데이터 분석을 수행하는 경우에도 대부분의 데이터 처리는 에지 장비에서 발생하고, 심지어 에지에서 일시적으로 클라우드로 전송되는 트래픽에 대해서도 전송 비용이 발생하지 않는다는 것이다. (클라우드에서 내 PC에 도달하는 데이터는 과금이 되지만, 데이터 처리를 위한 막대한 데이터 전송과 프로세싱은 대부분 에지와 클라우드 중심에서 공짜로 발생한다!)

비용을 절약하는 대신 성능 관점에서는 약간의 trade-off가 발생하는데, 이는 데이터의 추출이 에지 장비라고 하는 물리적으로 떨어진 대상으로부터 클라우드를 거쳐 나의 장비로 결과가 도달하는 다단계라는 아키텍처에 기인한다. 그러나, 실제로 실험을 해 보면, 대규모의 원시 데이터를 클라우드를 거쳐, 내 PC로 다운로드 받는 경우를 제외하고는 데이터의 위치에 따른 성능 저하를 거의 느끼지 못하는 것으로 나타났다. 이는 현대 컴퓨팅 기술이 제공하는 최신의 에지 및 클라우드 하드웨어 인프라 도움이 아닌가 생각해 본다.

마지막으로 상용으로 제공하는 클라우드 공간의 데이터레이크 혹은 DBaaS(DataBase as a Service) 서비스의 경우 데이터의 저장 뿐만 아니라, 데이터의 접근 혹은 질의를 수행하는 연산도 과금이 되는 것이 일반적이기 때문에 대량의 데이터가 클라우드에 존재하고, 분석해야 한다는 사실 만으로도 응용 프로그램의 작성과 활용에 있어서 많은 제약을 가져오는 경우를 봐 왔다. 간혹 가다가 “요금 폭탄”을 맞았다는 뉴스가 나오기도 하는데, 이러한 클라우드 리소스를 세심하게 활용하지 못하는 케이스일 것이다. (AWS의 TimeStream 과금체계를 보면, 무서워서 사용하기 겁난다)

다. 데이터 관리의 유연성과 자유

앞의 두번째 시리즈에서 한 회사의 데이터 처리에 대한 어려움을 기술한 바 있다. 이러한 케이스와 같이 때때로 무한한 돈과 시간이 있다고 하더라도, 에지에서 발생하는 데이터를 클라우드 혹은 서버에 중앙집중식으로 저장하는 것이 불가능하거나, 전송하게 되면 효용이 0로 수렴하는 비즈니스 케이스가 존재한다. 마이크로 데이터레이크라는 개념이 없었던 지금까지는 대량의 에지 데이터는 일시적으로 처리되고 삭제되거나, 분석할 수 없는 형태의 텍스트 데이터 포맷으로 저장소에 무한정 두는 경우가 유일하다고 할 수 있다.

그렇지만, 사용자가 마이크로 데이터레이크라는 새로운 무기를 가지고 있다고 가정한다면 데이터를 바라보는 관점과 행동이 어떻게 변할까?

만일, 에지에서 발생하는 데이터량이 소규모일 경우에는 기존과 큰 차이가 없을 것이다. 그렇지만, 일정 규모 이상이 발생한다면, 비용 대비 효율을 따져 에지에 저장할 것인지, 클라우드로 모두 전송할 것인지 선택지가 생기게 되며, 이는 데이터 처리에 있어서 엄청난 자유를 부여하는 것이다.

마지막으로, 도저히 어디로 전송할 수 없는 수준의 대규모 데이터가 에지에서 발생하고, 이 데이터를 버릴 수도 없고, 신속하게 분석도 해야 하는 외통수라면? 이 경우 마이크로 데이터레이크가 선택할 수 있는 유일한 옵션으로 존재하는 것이다.

클라우드 데이터 특성

그렇다면, 클라우드(혹은 중앙 집중식 데이터 저장 공간 인프라)에는 어떠한 데이터가 저장되면 가장 효율적일까? 이 부분은 마이크로 데이터레이크가 현재 여전히 개념적으로 혹은 실제로 제안 되고, 개선되는 과정이므로 확정적으로 말하기 힘들지만, “전체적인 서비스 및 데이터 상황을 이해할 수 있는 주요 데이터”라고 말하는 것이 적절하다.

즉, 에지 개별적인 하나하나의 데이터가 아니라, 전체적인 서비스 운용, 특징적인 데이터 분석에 주요한 데이터의 경우 한 곳에 모아 통합적으로 관리/분석하는 것이 적절할 것이다. 예를 들면,

알람 및 이벤트 데이터
특정 통계 데이터
주요 트렌드 및 통합 분석 결과 데이터
핵심 보관용 데이터

이러한 것들이다.

사용자는 이러한 데이터를 클라우드 중심으로 모니터링 하고, 분석을 진행하고, 만일 특정한 이슈가 발생할 경우 즉시, 에지에 보관된 데이터에 대해 접근하여, 문제를 해결하는 자연스러운 방식을 떠올릴 수 있을 것이다.

이 클라우드에서는 20:80 룰을 적용해 상상해본다면, 업무에 필요한 전체 데이터의 약 20% 정도를 실제로 저장할 것으로 예측되나, 데이터의 접근 빈도는 전체의 80%를 차지할 것으로 가정해 본다.

에지 데이터 특성

에지의 마이크로 데이터레이크는 아래와 같은 특징의 데이터가 적절할 것이다.

원시/이력/상세 데이터
기타 일정 기간 보관하는 관련 메타 데이터

특히, 원시/이력/상세 데이터의 경우 에지 영역에서 발생하는 거의 모든 종류의 데이터를 무차별적으로 저장하는 것을 가정한다. 이는 과거 특정 시점에 발생한 알람 혹은 이벤트에 대한 원인을 파악하는데 매우 중요한 증거를 제공하는 데이터 원천으로 삼기 때문이다.

이 에지에서 20:80 룰을 적용해 본다면, 업무에 필요한 전체 데이터의 80% 이상을 마이크로 데이터레이크에 저장될 것으로 예상되지만, 실제 이 데이터에 접근하는 빈도는 전체 업무의 20% 정도를 차지하지 않을까 예상해 본다.

장단점 분석

장점

마이크로 데이터레이크가 가진 장점은 아래와 같이 정리될 수 있겠다.

데이터 저장 비용의 절감

→ 저장소의 분산 배치 및 동일 비용 대비 더 넓은 저장소 제공

데이터 접근/관리 비용의 절감

→ 마이크로 데이터레이크 내부 데이터 접근에 대한 무과금

데이터 관리의 유연성 극대화

→ 아키텍처 설계에 따라 데이터의 위치와 형태를 자유롭게 배치 활용 가능

고빈도 데이터 관리 가능

→ 기존에 불가능했던 진동, 전류, 압력 등의 고빈도(초당 수천~수만건) 데이터에 대한 저장 및 분석, 처리 가능

데이터 보안성 극대화

→ 클라우드 등 사외로의 실제 원시 데이터 유출 방지 가능 (에지 서버는 사내/생산처에 존재)

서비스 실시간성 고도화

→ 원시 데이터가 모두 에지에 있음으로 인해 데이터 분석과 대응이 매우 신속하게 이루어짐

네트워크 장애시 데이터 유실 방지

→ 에지에서 클라우드로 이어진 네트워크 미디어의 장애시에도 데이터 유실 없이 마이크로 데이터레이크에 저장가능

단점

이 세상에 장점만 있는 기술은 없거니와 마이크로 데이터레이크도 예외는 아닐 것이다.

원시 데이터 접근 성능 저하 우려

→ 클라우드의 데이터 접근은 개념적으로 2 Tier인 반면, 마이크로 데이터레이크는 3 Tier인 사실에 근거하면, 실제 원시 데이터 접근시 여러가지 환경으로 인해 성능 저하가 발생할 수 있음

에지 장비(데이터 저장소) 관리 부담 증가

→ 데이터가 다수의 에지 장비에 퍼져있기에 관리자 측면에서는 가용성을 높이기 위한 에지 장비 및 관련 SW 관리 부담 필연적으로 증가

초창기 기술에 대한 안정성 우려

→ 아직 세계적으로 이러한 “마이크로 데이터레이크”에 대한 실용 사례가 적음으로 인한 기술적 한계 및 실용 케이스에 대해 많은 고려 필요

활용처

아래는 마이크로 데이터레이크를 도입하여, 데이터의 분리를 통해 더 높은 가치와 활용이 가능하다고 판단되는 관련 비지니스 영역에 대해 언급해 본다.

공작 기계 분야
제철/압연 공정 분야
자율 주행 등 Mobility 영역의 데이터 처리 분야
이차전지 등의 연속 공정 분야
전기 충전기 및 관련 장치 분야
스마트 빌딩/건물/발전/시티/그리드 등의 분야
배전/전송/전력 등 에너지 분야
기타 분야

결론적으로 대량의 데이터가 발생하고, 이를 수집하는 에지와 통합적 데이터 관리 및 이벤트 처리가 필요한 서버로 이루어진 유사한 비즈니스 영역에서는 이러한 아키텍처가 매우 유용하게 적용될 수 있을 것이다. 가만히 생각해 보면, 대량의 데이터가 발생하고, 그 데이터를 한 곳에 모두 모아 처리하던 비효율이 만연하는 대부분의 영역에서 이 기술이 적용될 수 있을 것이라는 사실도 금방 눈치챌 수 있을 것이다.

마이크로 데이터레이크의 미래

전체적으로 몇 가지 기술적인 난제만 해결된다면, 이 모습은 필연적으로 우리에게 올 데이터 처리의 혁신적인 차세대 모양이라고 할 수 있다. 그 이유는 “마이크로 데이터레이크”가 가지고 있는 단점을 고려해도, 실제 고객이 얻는 장점이 너무나 크기 때문이다. 또한, 대량의 데이터가 에지단에서 발생하는 곳에서는 이 아키텍처 말고는 대안이 없는 유일한 방식이기도 하다. 특히, 고빈도 데이터가 가장 많이 발생하는 산업계의 제조/생산 공정이나, 초고도 선진 기술이 적용된 분야의 장애 판단, 장애 예측 측면에서 꼭 등장하는 초고빈도 데이터 분석 영역에서는 매우 반길 기술이라고 할 만 하다.