Transition of Data Analytics Pipeline, MUSINSA : (Recap AWS Startup Week 2023 Korea)

SAINTPARK
8 min readMar 31, 2023

--

무신사 데이터 분석 파이프라인 변천사

AWS startup programs

2020년 AWS Startups 프로그램이 시작된 이래 국내외 많은 스타트업들이 AWS 크레딧을 지원받아 보다 부담없이 AWS 상에서 비지니스 워크로드를 실행하고 서비스를 추가, 확장할 수 있게 되었다. 한편 AWS Korea는 이러한 기본 프로그램외에도 2020년부터 중소벤처기업부, 창업진흥원과 함께 정말 글로벌한 세계로 도약, 정글 프로그램을 운영하고 있다.

정말 글로벌한 세계로 도약, 정글

정글 프로그램은 업력 7년 이내의 국내 헬스케어, 생명과학, ESG 스타트업들의 유니콘 성장을 위해, 기술 특화 및 심화 교육은 AWS 클라우드 온보드부터 스타트업들의 국내외 진출을 지원하는 사업이다.

AWS Startups는 이러한 각 국가의 부처, 기관 협력 외에도 스타트업에 필요한 채용 및 자금 조달 (VC), 기업 문화 컨설팅 등 스타트업 설립부터 IPO까지 전 과정을 지원하는 글로벌 프로젝트이다. AWS Startups는 이러한 각 국가의 부처, 기관 협력 외에도 스타트업에 필요한 채용 및 자금 조달 (VC), 기업 문화 컨설팅 등 스타트업 설립부터 IPO까지 전 과정을 지원하고 있다.

이 번 글에서는 이러한 AWS Startups korea의 첫 오프라인 프로젝트 AWS Startups Week 2023에서 소개된 유니콘 (기업가치 10억 달러 이상 비상장 스타트업) 무신사의 AWS를 통한 데이터 분석 파이프라인 구축 및 변천사에 대해 리뷰한다.

AWS Startup Week 2023 | 1
AWS Startup Week 2023 | 2

About MUSINSA

MUSINSA (Korea)

무신사는 대한민국 최대 규모의 온라인 편집 쇼핑몰이다. 2003년 인터넷 패션 커뮤니티로 시작하여 웹 매거진, 이커머스 부문으로 사업을 확대해왔다. 2009년 이커머스 사업 시작 이래 무신사는 급격한 성장을 이륙했다. 2009년 온라인 스토어 오픈 이후 5년 뒤 2013년에는 최초로 연간 매출 100억 원을 돌파하고, 그로부터 10년 뒤인 2019년에는 연간 거래액 4500억 원을 달성했다. 늘어나는 매출만큼이나 사용자, 트래픽도 급증한 무신사는 기존 온프레미스 환경을 통해 자사의 쇼핑몰 서비스를 제공하는 것에 한계를 느꼈다. 이러한 문제의 해결책으로 무신사는 2019년 자사의 모든 IT 인프라를 AWS로 이전했다. 이는 프로덕션 등 일부 환경 이전이 아닌 개발, 검증, 데이터 분석 등 모든 환경의 클라우드 이전이었다.

대량의 인프라가 한 번에 급격히 이전되었기에 클라우드 네이티브 인프라 구성이 아닌 기존 온프레미스 환경을 그대로 이전하는 Lift and Shift 전략을 사용했으며 이를 통해 무신사는 2019년 초에 시작한 자사의 클라우드 마이그레이션 프로젝트를 11월 블랙 프라이데이 전에 마칠 수 있었다.

2019년 9천 억원 (약 1조 원)의 매출을 달성한 무신사는 당시만 하더라도 데이터 기반의 의사 결정 체계가 따로 갖춰지지 않았다. 2019년 AWS로 IT 인프라 이전을 진행했지만 인프라 구성 자체는 Lift and Shift 전략을 활용한 탓에 2009년 쇼핑몰 오픈 당시의 레거시한 구조가 남아 있었으며 데이터 분석을 위한 별도의 데이터 웨어하우스는 물론 데이터 분석 환경조차 갖춰지지 않았다.

당시 무신사의 데이터 운영 환경은 데이터 분석 환경 수립에 있어 많이 난감한 상황이었다. DB 테이블이 통합되어 있지 않아 카테고리 별 매출 통계 또는 사용자 그룹 별 매출 통계 도출을 위해서 6~7 테이블의 JOIN 작업이 필요한데다, 중간에 인덱싱이 걸려있지 않은 데이터가 존재하여 DB Full Scan 작업 등이 요구되었다. 제일 큰 난관은 이 모든 작업들이 운영 환경에서 이루어져야 한다는 점이었다.

문제의 해결책으로 데이터 웨어 하우스 도입이 제시되었으나 사용자 대비 많은 비용이 발생한다는 단점이 있었다. 당시 무신사는 데이터 웨어 하우스 도입보다 비용 효율적인 해결 방안이 필요했다.

Phase 1

Phase 1. Building data pipeline (MUSINSA)

무신사는 S3를 통해 이러한 문제를 해결했다. S3는 저비용으로 대량의 데이터를 저장할 수 있다는 장점이 있었다. 기존 온프레미스 환경 대신 사용하던 Aurora의 데이터를 EMR을 통해 S3에 저장하고, S3에 저장한 데이터를 EMR을 통해 다시한 번 변환하는 방식으로 ETL 파이프라인을 구축한 것이다. 이후 변환된 데이터를 OpenSearch를 통해 대시보드 형태로 표출했다. Amazon Opensearch를 사용하면 Kibana를 통해 드릴다운 (가장 요약된 계층으로부터 가장 상세한 계층까지, 계층 차원에 따라 데이터 분석에 필요한 요약 수준을 바꿀 수 있는 기능) 및 업서트 (중복 데이터 존재 시 데이터 값 업데이트, 신규 데이터의 경우 인서트) 작업이 가능하다.

Phase 2

기본적인 데이터 분석 파이프라인 구축 후 무신사 데이터팀에는 코호트 데이터 및 첫 구매 유저 잔존율 분석 등 다양한 요구사항이 발생하기 시작했다. 한편 무신사 데이터팀은 전체 인력에 비해 그 규모가 작아 모든 요청 사항을 직접 처리하기 어려운 상황이었다. 이에 무신사 데이터 분석팀은 Athena 및 Redash를 도입하기로 결정한다.

Phase 2. Offer self-service data analysis environment (MUSINSA)

Athena 및 Redash 도입을 통해 무신사는 SQL 사용이 익숙한 개발자 및 기타 분석팀이 직접 Self service로 필요한 데이터를 분석하고 활용할 수 있게 되었다. Athena 및 Redash는 모두 SQL 기반의 데이터 분석 툴이다. 두 서비스의 기능이 같음에도 무신사가 이를 병행 사용한 이유는 한 가지 제약 사항 때문이었다. 당시 무신사는 개발 팀을 제외한 다른 직군에게 AWS 계정에 대한 IAM 계정 발급을 제한하는 정책이 존재했다. Athena는 IAM 계정이 없는 경우 사용이 불가하다. 따라서 IAM 계정이 없는 비개발 직군을 위한 데이터 접근 방안이 필요했으며 이를 위해 AWS Marketplace에서 제공되는 서드파티 서비스 Redash를 통해 비개발 직군이 직접 S3 데이터에 접근할 수 있는 솔루션을 제공했다. Phase 2 이후 무신사는 데이터 분석 파이프라인 고도화를 진행하게 된다.

Phase 3 (2023 Now)

현재 무신사는 서비스 운영 계정과 데이터 분석 계정을 별도로 관리하고 있다. 계정 분리, DMS, MSK 및 MWAA 도입을 통해 기존 데이터 분석 파이프라인을 고도화하고 운영 워크로드의 부담을 줄이면서 동시에 데이터 분석 작업이 서비스 운영에 영향이 가지 않도록 안정성 안정성을 확보하는 것이다. 이 과정에서 databricks를 도입하여 데이터 과학 및 데이터 엔지니어링에 최적화된 환경을 구성하고 있다.

Phase 3. Dividing data analytics environment (MUSINSA)

Phase 4

Amazon QuickSight

다음 단계로 무신사는 Amazon QuickSight를 통한 대시보드 통합 작업을 진행할 예정이다. 대시보드 툴 파편화로 한 눈에 보기 힘든 기존 데이터들을. QuickSight에서 통합하여 한 곳에서 관리하고자 하는 것이다. QuickSight는 SPICE (Super-Fast, Parallel, In-Memory Calculation Engine)를 통해 보다 강력한 데이터 처리가 가능하다.

지금까지 AWS Startup Week 2023 Korea에서 소개된 무신사의 데이터 분석 파이프라인 변천사에 대해 살펴보았다. 무신사와 같은 유니콘 스타트업 사례를 통해 보다 AWS 환경에 최적화된 솔루션을 접하고 이를 자사 환경에서도 잘 활용하는 스타트업이 많이 생겨나길 바라며 글을 마친다.

SAINTPARK

Next Article

--

--