원티드랩에서 데이터의 가치를 높이는 법, 데이터 거버넌스

Jayeon Choi
원티드랩 기술 블로그
7 min readSep 18, 2023

데이터 거버넌스는 데이터의 정확성, 가용성, 보안을 보장하기 위해 수행하는 모든 작업을 의미하며, 원티드는 데이터 전사 구성원들의 데이터 기반 의사결정을 할 수 있도록 거버넌스 관리에 힘을 쏟고있습니다.

데이터 거버넌스는 왜 필요한가?

저비용 고효율 의사결정을 하기위해서는 “정량적인 데이터로 수치화”하는 단계가 필수적입니다.

데이터 기반 의사결정을 위해서는 먼저 “데이터”가 필요합니다. 그럼 “데이터”는 그냥 만들어지는 걸까요? 아닙니다. 우리가 믿고 쓸만한 데이터는 서비스를 만드는 단계에서부터 기획해야 하고, 그 의도대로 개발되어야 합니다. 이 전반적인 과정 중에 데이터 거버넌스는 효용성, 효율성, 규범성, 확장성을 고려하는 기준이 됩니다.

데이터 거버넌스 매니저가 하는 일

데이터 거버넌스를 관리하는 영역은 아래와 같이 나열해 볼 수 있는데요.

  • 데이터 기준/가이드 관리
  • 데이터 정책
  • 조직/역할 관리
  • 작업 프로세스 관리
  • 툴 별 데이터 관리
  • 데이터 시각화(모니터링)

여기에서 데이터 거버넌스는 데이터 매니지먼트로 다뤄야 할 항목 중 하나로 설명할 수 있습니다(데이터 거버넌스 데이터 매니지먼트). 데이터 매니지먼트는 데이터의 전반적인 생명주기를 관리하며, 데이터 거버넌스와 데이터 품질, 데이터 보안, 메타데이터, DB운영 관리를 아우르는 개념이죠. 즉 거버넌스 관리는 데이터 매니지먼트를 올바르게 수행하는 기준을 정해주는 영역으로 이해할 수 있습니다.

그러므로 먼저 현재 내가 속한 데이터 인프라에서 필요한 관리 항목들을 리스트업해야 합니다. 모든 서비스와 회사마다 우선순위를 둬야 할 포인트들이 상이하고, 현실적으로 모든 부분들을 한번에 관리하기 어렵기 때문입니다.

원티드랩에서는 어떤 부분에 우선순위를 두고 거버넌스 관리를 해 나가고 있는지 설명드려보겠습니다.

원티드랩에서 거버넌스 관리하기

원티드랩에는 채용 서비스 뿐만 아니라 원티드긱스, 원티드스페이스, 원티드인사이트(구 크레딧잡)까지 여러 서비스가 있습니다. 이러한 서비스들은 각각 다른 개발환경에서 만들어졌는데요. 설계단계에서부터 데이터 인프라를 관리하지 않았다면 데이터를 사용하려고 열어봤을 때, 데이터를 정제하는 시간이 상당히 오래 걸릴만큼 기준이 통일되지 않은 상황일 가능성이 높습니다. 유의미한 인사이트를 내기도 전에 이러한 상황을 맞닥뜨리면 굉장한 업무 비효율을 가져오게 되죠.

Impossible is nothing

위의 3차원 그래프는 원티드랩 거버넌스의 미션을 좌표로 나타낸 것입니다.

다양한 원티드랩 서비스(x축)와 다양한 툴(3rd-party)의 데이터를 한 군데에서 관리/통제하고(y축) 모두가 신뢰하고 쓸만한 환경(z축)을 제공하는 것이죠. 그 외에 비용 효율성을 따지는 것은 3축의 미션들을 수행할 때 고려하는 부분입니다. 이 개념은 유지보수와 자동화 작업으로 생산성을 향상시키기위해 꼭 필요한 개념 중 하나입니다.

원티드 서비스(x축)

먼저 거버넌스의 “범위”를 커버하는 원티드 서비스에 대해 설명해보겠습니다. 서비스가 확장되고 신규 기업을 인수함에 따라 원티드랩에서 다뤄야 할 서비스는 종적으로 확장되었습니다. 데이터 팀 입장에서는 서비스가 확장될 때 하나의 환경에서 통일된 환경으로 작업되면 가장 이상적이겠지만 빠른 출시와 경영 전략을 위해선 처음부터 인프라 관점에서 장기적인 설계를 하기 힘듭니다.

그래서 데이터팀에서 DB데이터는 Google Bigquery(Data Warehouse)를 도입하여, 데이터를 한 군데에서 볼 수 있는 환경을 만들었습니다. 이렇게 한 곳에 데이터를 몰아넣으면 분석용으로 서비스 간 환경에 구애받지 않고 분석이 가능합니다. 또한 전사 구성원이 자유롭게 접근하여 데이터 분석을 할 수 있게되었지요.

그리고 (웹 한정)유저행동로그(=이벤트) 데이터의 경우에는 GTM을 이용해 이벤트를 컨트롤 하고있습니다. 그 이유는 이벤트 발생 시점을 중앙관리하기 위함인데요. 이벤트 데이터는 저희가 사용하는 Amplitude 외에도 마케팅팀에서는 광고 성과 측정에 데이터를 사용하고있습니다. 유저가 한 번 액션 할 때 다른 시점의 데이터가 추적된다면 신뢰할만한 목표설정을 할 수 없겠죠? 그리하여 GTM에서 Amplitude와 Facebook Ads, Google Ads 등의 SDK를 init하는 코드와 함께 이벤트 트리거 관리를 하게되었습니다.

다양한 툴(y축)

분석하고자 하는 방법과 매체가 다양해짐에 따라 내부에서 사용하는 툴 또한 그 종류가 다양해졌습니다. 대표적으로 Amplitude, Braze, Appsflyer가 있는데요. 세 툴에서 사용하는 데이터는 모두 이벤트 기준이기 때문에 이벤트를 관리해야하는 것이 가장 주요 작업입니다. 이벤트 관리에는 크게 세가지로 나눠볼 수 있습니다.

  • 플랫폼 별 SDK 관리
  • 신규 이벤트 추가
  • 이벤트 데이터 퀄리티 모니터링

우선 세 개의 툴 중 Appsflyer는 앱 전용 툴이기 때문에 웹은 고려할 필요가 없지만, 각 플랫폼별로 해당 툴의 SDK를 어떻게 심을지 논의되어야 하고 그 시점은 언제로 할 지를 정해야 합니다. UserId 셋팅과 이벤트 트래킹에 초기화 기준이 될 수 있기 때문이죠.

그리고 신규 이벤트의 경우에는 충분한 기획(최대한 목표 추적에만 필요한 이벤트 다이어트) 후에 담당 개발자와 논의하여 진행되어야 합니다. 이 작업에서 데이터 거버넌스 관리는 커뮤니케이션 프로세스를 만들고 기획시 필요한 템플릿을 만들어두게 됩니다.

마지막으로 이벤트 데이터의 퀄리티를 유지보수하기 위한 모니터링을 지속하는 것인데요. 이부분은 지금 저희도 데이터 모니터링의 범위를 정해나가고 있는 과정 중에 있습니다. Amplitude의 경우에는 각각 이벤트의 챠트로 그 볼륨을 확인할 수 있고, 태블로 대시보드를 구현하여 전체적인 데이터와 이벤트의 볼륨은 구성원들이 얼마나 쿼리하고있고, 자주 확인중인 이벤트는 어떤 것인지 체크하고있죠.

데이터 퀄리티(z축)

개인적으로 데이터 퀄리티 관리야 말로 기업이 얼마나 데이터를 의사결정에 중요하게 사용하고 있는지를 보여주는 영역이 아닐까싶습니다. 데이터는 계속해서 변화하고 선형적으로 쌓여가기 때문에, 항상 일관되기가 힘든 부분이기 때문입니다. 우선 퀄리티 유지보수의 목표는 “모두가 믿고 쓸 만한 데이터 환경”을 만드는 것입니다. 각 영역에서의 데이터를 한 군데에 모으게되면 처음부터 그 기준이 맞지 않는 것이 당연하기 때문에 담당자가 유지보수를 해 나가야 하는 것이죠.

원티드랩 구성원들은 미리 분석기준에 맞게 만들어 둔 mart 테이블을 사용하고있습니다. 그리고 mart 테이블에 추가로 필요한 컬럼들은 뷰테이블을 만들어 join하여 사용하다가 제가 주요 테이블로 추가하는 절차를 거치며 유지보수하고있어요. 물론 raw data을 사용하면 빠르고 원하는 정보를 더 많이 얻을 수 있겠지만, 구성원들이 많아지고 규모가 커질수록 A구성원이 분석한 결과와 B구성원이 분석한 결과의 기준이 달라서 다른 결론을 낼 확률이 높아집니다.

비용 효율성

마지막으로 다룰 부분은 비용 효율성을 따져가며 작업하는 것입니다. 2주에 한 번 씩, 한 프로젝트가 끝나면 또 다른 프로젝트들이 진행되어야 하는 빠른 호흡을 가진 제가 속한 환경에서는 무엇보다 효율을 생각하여 작업을 진행해야합니다. 당연히 모든 데이터들이 중요하게 관리되어야 하지만, 공수 대비 낮은 임팩트를 가져올만한 작업이라면 우선순위를 낮추고 기한을 여유롭게 잡아 착수하는 것이 좋습니다. 대신 꼭 필요한 작업이지만 시간이 많이 드는 QA와 같은 업무는 최대한 자동화를 통해 효율을 높이는 프로젝트도 진행되어야 하죠(관련 프로젝트 회고 링크: 이벤트 QA 자동화 회고 — Governance Managing 편). 그래서 원티드랩 데이터팀은 반복되고 공수대비 임팩트가 낮은 작업에 대해서는 우선순위를 고려해 자동화 개발을 진행하고있습니다.

마치며..

데이터팀 내에서 전반적인 영역에 대한 관리를 도맡는 거버넌스 관리는 전체적인 관리 범위 뿐만 아니라 품질에 대한 깊이를 고려해야 합니다. 당연히 혼자서는 해결할 수 없는 일들이 다수이기 때문에 팀 내외 구성원들과 많은 커뮤니케이션이 필요하고, 도움을 주고받으며 디벨롭 해 나가야 하는 부분이죠. 데이터 관리는 모든 구성원들과 연관되어있으며 기업에서 필수적이기 때문입니다.

지금까지 데이터 기반 의사결정이 핵심인 원티드랩에서 데이터 거버넌스 관리는 어떻게 하는지 소개해드렸는데요. 저는 지금 운이 좋게도 이러한 철학을 가진 분들과 함께 협업하고있고, 앞으로도 위의 이념을 바탕으로 좋은 구성원들과 함께 문제를 해결해 나가는 것이 제가 일하는 원동력입니다.

--

--