[상품소개] Management 상품 사용법 #1 Metric Data편 (feat. 성능 지표 등 인프라 상태 한눈에 보려면)

NAVER Cloud
NAVER Cloud
Published in
7 min readSep 20, 2020

안녕하세요, 네이버 클라우드 플랫폼입니다.

만약 운영 중인 서비스에서 장애가 발생하면 어떤 일이 일어날까요? 심각한 금전적 손해가 발생할 뿐만 아니라, 고객과의 신뢰관계가 파괴될 수도 있습니다.

서비스 장애를 예방하기 위해서는 운영 중인 서비스의 상태, 가용성, 속도 등을 지속적으로 모니터링할 필요가 있습니다.

그렇다면 효과적인 모니터링 환경은 어떻게 구성할 수 있을까요? 가장 쉬운 방법은 아마도 Monitoring / Management 서비스를 도입하는 것 일 텐데요!

네이버 클라우드 플랫폼은 서비스를 효과적으로 모니터링하고 관리하기 위한 다양한 Management 서비스를 제공하고 있습니다.

짜잔! 이렇게 9가지의 상품이 있답니다.

오늘은 이 중에서도 Metric Data를 모니터링할 수 있는 “Cloud Insight”서비스를 소개해드리겠습니다.

인프라의 상태를 알려주는 Metric Data

Metric Data는 서비스를 구성하는 인프라, 즉 Server / DB / Storage 등의 상태와 안정성, 가용성을 나타내는 값입니다. 일반적으로 시계열 데이터로 제공되는 이 값을 모니터링하면 Server의 CPU / Memory / Disk 사용률과 같은 인프라의 상태를 확인할 수 있습니다. 이를 통해 인프라 증설 여부 등의 의사결정을 하게 됩니다.

이때, 네이버 클라우드 플랫폼이 제공하는 IaaS, PaaS 상품에서 발생하는 Metric Data들은Cloud Insight를 통해 통합 관리가 가능합니다.

Cloud Insight의 특징

Cloud Insight는 네이버 클라우드 플랫폼 환경의 성능/운영 지표를 통합 관리하고, 장애 발생 시 담당자에게 신속히 전달할 수 있는 모니터링 체계를 구축할 수 있는 서비스입니다.

Cloud Insight를 이용하면 아래의 이점을 누릴 수 있습니다.

  1. 클라우드 환경의 가시성 확보

네이버 클라우드 플랫폼이 제공하는 상품들의 성능 지표뿐만 아니라 사용자 애플리케이션에 대한 성능 지표도 Cloud Insight로 통합할 수 있습니다. 수집된 지표를 다양한 표현 방식으로 시각화하여 하나의 Dashboard로 구성해 클라우드 환경의 운영 현황을 한눈에 확인할 수 있습니다.

2. 운영에 필요한 통찰력 확보

Cloud Insight를 통해 성능/운영 지표 간의 상관관계를 시각적으로 확인할 수 있습니다. 이를 통해 운영 관리자는 해결해야 하는 문제와 원인, 그리고 이 문제가 미친 영향을 쉽고 빠르게 파악할 수 있습니다.

3. 신속한 장애 대응

직관적인 UI의 이벤트 설정을 통해 장애 상황을 정의하고, 긴급도 및 담당자를 손쉽게 지정할 수 있습니다. 장애가 의심되는 상황이나 실제 장애가 발생하면 사전에 지정한 담당자에게 SMS 및 Email을 통해 알람이 전달됩니다. 담당자는 이를 통해 발생한 장애의 요약 정보를 확인하고 장애에 빠르게 대응할 수 있습니다.

Cloud Insight의 기능

Cloud Insight가 제공하는 주요 기능은 다음과 같습니다.

▶ Dashboard

▶ Event Rule

▶ Custom Metric 수집

  1. Dashboard

Cloud Insight는 상품별 Service Dashboard를 기본으로 제공합니다. Dashboard는 주요 인프라들의 상태를 한곳에서 요약해서 볼 수 있는 기능입니다. 이를 통해 별도의 설정 없이도 상품별 주요 Metric들을 한눈에 확인할 수 있습니다.

기본 제공되는 Service Dahsboard 외에 별도의 Dashboard가 필요한 경우, 언제든지 새로운 Dashboard를 생성할 수 있습니다. 또한 생성한 Dashboard에 Widget을 추가할 수 있습니다. 이를 통해 데이터를 Line Chart, Area Chart 등 다양한 방식으로 시각화할 수 있습니다. 위젯 내 복수의 Metric Data를 추가하여 연관이 있는 정보들을 묶어서 확인할 수도 있습니다.

구성한 Dashboard는 자동으로 새로 고침되고, 서비스를 구성하는 인프라의 Metric Data 현재 값과 변동 추이를 실시간으로 확인할 수 있습니다. 또한 추가 분석이 필요한 경우에는 Dashboard에 표시되고 있는 Data를 JSON, CSV 형태로 바로 출력하여 손쉽게 확인할 수 있습니다. Widget 내 Chart는 이미지로 다운로드해 보고서 작성에 활용할 수도 있습니다.

2. Event Rule

장애가 발생할 조짐이 보이거나, 장애가 발생하면 이를 빠르게 감지하고 담당자에게 알려 조치를 취해야 합니다. Cloud Insight는 Event Rule 기능을 통해 장애 상황을 정의하고, 문제가 발생했을 때 알람을 받을 담당자를 지정할 수 있습니다.

모니터링 대상과 임계치를 설정하고, Event 발생 시 알람을 받을 담당자를 선택합니다. Cloud Insight는 SMS와 Email을 통해 담당자에게 Event 정보를 즉시 전달합니다. Webhook을 통해 Slack 등 메신저를 통해서도 Event 정보를 전달할 수 있습니다. 또한 Event 발생 시, 필요한 작업을 자동으로 수행할 수 있도록 네이버 클라우드 플랫폼의 Cloud Functions과의 연동도 지원합니다.

장애를 해결하기 위한 다양한 작업들을 Cloud Function을 통해 미리 구성해 놓았다면, Event 발생 시 해당 Cloud Functions을 실행하여 자동으로 복구 작업을 수행하도록 할 수 있습니다.

3. Custom Metric 수집

Cloud Insight는 네이버 클라우드 플랫폼 상품들의 Metric Data뿐만 아니라 사용자 서비스, 애플리케이션의 Metric Data도 수집할 수 있는 Custom Metric 기능을 제공합니다.

Cloud Insight의 API를 통해 Data를 전달하면 Cloud Insight의 콘솔 화면을 통해 수집된 Data를 시각화할 수 있습니다. Event Rule을 설정하여 장애 발생 시 알람을 받는 것도 가능합니다. Custom Metric 수집 기능을 통해 인프라 / 서비스 / 애플리케이션을 통합하는 대시보드 및 모니터링 체계를 손쉽게 구성할 수 있습니다.

지금까지 Metric Data를 모니터링할 수 있는 Cloud Insight 서비스에 대해 소개해드렸습니다. 서비스 이용에 관심이 있으시다면, 마침 (….!!) 네이버 클라우드 플랫폼의 Monitoring/Management 상품을 마음껏 사용하실 수 있는 프로모션을 진행하고 있으니 아래 블로그 링크를 통해 상세 내용을 확인해 주세요 !

혹은, 아래 버튼을 눌러 바로 신청하실 수도 있습니다 ❤️

다음 포스팅에서는 Log Data를 수집하고 분석할 수 있는 “Cloud Log Analytics”와 “Effective Log Search & Analytics” 서비스를 소개해드리겠습니다.

--

--

NAVER Cloud
NAVER Cloud

We provide cloud-based information technology services for industry leaders from startups to enterprises.