Hybrid Storage & Data Processing Strategy on AWS

SAINTPARK
6 min readMar 28, 2023

--

AWS를 통한 하이브리드 저장소 구축 및 데이터 처리 전략 수립

경영 전략 수립에 있어 BI (Business Intelligence) 도입이 필수인 현재, 많은 기업들이 AWS 환경에서 BI 솔루션 환경을 구축하기 위해 많은 관심을 가지고 있다.

허나 기존 데이터 센터의 내구 연한이 남아 지금 당장 클라우드 네이티브 전환이 어렵거나 법률 규제 문제로 자체 데이터 센터에 사용자 정보 저장이 필요한 경우 클라우드 네이티브 데이터 웨어하우스 구축 및 데이터 분석, 시각화 인프라를 갖추는 것은 기업 입장에서 충분히 부담이 될 수 있다.

이번 글에서는 기존 온프레미스 환경에 저장된 사용자 데이터를 AWS 상에서 분석하기 위한 방안을 소개한다. 관련된 AWS 서비스로는 Storage Gateway, Redshift, Athena, Glue, OpenSearch가 있다. 이 외에도 온프레미스 환경에서 사용하는 NFS, SMB, HDFS를 AWS와 연계하여 사용할 수 있는 AWS DataSync와 AWS 상의 S3, EFS, FSx 데이터를 캐싱할 수 있는 Amazon File Cache에 대해서도 소개한다.

AWS Storage Gateway

AWS Storage Gateway

AWS Storage Gateway는 온프레미스 데이터 센터의 스토리지 환경과 AWS 저장소를 연결하여 사용할 수 있도록 도와주는 하이브리드 클라우드 스토리지 서비스이다. Storage Gateway를 통해 기존 온프레미스 환경에 적재된 데이터를 AWS로 가져오거나 AWS에 저장된 데이터를 온프레미스 환경으로 보낼 수 있다.

Storage Gateway 서비스는 해당 국가의 법률 규제 등을 이유로 자사 데이터 센터에 고객 정보를 필히 저장해야 하는 경우 유용하게 활용될 수 있다. 자사 데이터 센터 내에 고객 데이터 원본을 저장하고 장애 대비를 위한 백업본을 AWS 상에 보관하거나 고객 정보는 자사 데이터 센터에 저장하고 이를 분석하는 워크로드를 AWS 상에 구성하는 방법 등 Storage Gateway는 온프레미스 데이터 센터 내 스토리지 환경과 AWS 스토리지 서비스를 연동 활용하는데 있어 필수 선택지이다.

Amazon Redshift / AWS Glue / Amazon Athena

Amazon Redshift / AWS Glue / Amazon Athena

Amazon Redshift는 AWS의 데이터 웨어하우징 서비스이다. 오브젝트형 스토리지인 S3와는 다르게 Redshift는 정형 및 반정형 데이터를 저장하는데 최적화되어있다.

AWS Glue는 AWS의 완전 관리형 ETL 서비스이다. 서버리스 서비스로 따로 인프라 관리가 필요하지 않으며 원본 데이터의 변경 및 저장을 위한 별도 저장소가 필요하지 않다. 즉 메타데이터만으로 ETL 작업 수행이 가능하다. 정형, 반정형 데이터 분석에도 사용 가능하며 Apache Spark의 데이터 프레임과 완벽 호환된다.

Amazon Athena는 AWS의 SQL 서비스이다. Athena는 온프레미스, S3, Redshift 등의 데이터 웨어하우스 내에 위치한 소스로부터 데이터를 분석할 수 있다.

Amazon QuickSight

Amazon QuickSight

Amazon QuickSight는 AWS 상에서 제공되는 OpenSearch 서비스이다. OpenSearch 서비스를 활용하면 로그 분석, 실시간 애플리케이션 모니터링 외에도 대시보드 형태로 Redshift 데이터를 시각화 할 수 있다. 인사이트를 위한 ML 통합 활용도 가능하며, 완전 관리형 서비스로 별도의 인프라 및 라이선스 관리가 필요하지 않다.

아래 구성도는 온프레미스 데이터 스토리지 및 AWS 스토리지를 통한 데이터 분석 및 시각화 기반 환경과 데이터 프로세스 파이프라인을 보여준다.

Hybrid storage architecture on AWS
Data process pipeline on AWS

Amazon DataSync / Amazon File Cache

Amazon DataSync / Amazon File Cache

AWS DataSync / Amazon File Cache

Amazon DataSync는 온프레미스와 AWS 스토리지 간 데이터 전송을 자동화 및 가속화하는 서비스다. 전송 가능한 대상으로는 온프레미스 상의 NFS, SMB, HDFS 및 Amazon S3 on Outposts, AWS Snowcone이 있다. S3 on Outposts, Snowcone을 제외한 나머지 온프레미스 파일 시스템의 경우, DataSync 에이전트가 설치된 별도의 서버를 통해 데이터를 전송할 수 있다.

Amazon File Cache는 완전 관리형 고속 캐시다. File Cache를 사용하면 AWS 상의 EFS, FSx (SMB), S3 데이터뿐만아니라 온프레미스 환경에서의 NFS 데이터 또한 캐싱 가능하다.

아래 구성도는 온프레미스 환경의 NFS, SMB, HDFS 등의 환경과 AWS 환경의 EFS, FSx를 DataSync로 연동하고, File Cache를 통해 S3, EFS, FSx 데이터를 캐싱하여 EC2 워커 노드에 활용하는 케이스를 보여준다.

Amazon DataSync / Amazon File Cache Use-case

지금까지 AWS 데이터 분석 및 저장 관련 서비스 Storage Gateway / Redshift / Glue / Athena / QuickSight / DataSync / File Cache에 대해 살펴보았다. AWS의 다양한 서비스를 활용하면 기존 온프레미스 데이터에 대한 전송 및 보관뿐만아니라 데이터 분석 및 시각화 또한 한 번에 해결할 수 있다.

이 글이 독자의 데이터 활용에 도움이 되길 바라며 글을 마친다.

SAINTPARK

Next Article

--

--