Node.js 모니터링 시스템 구축과 트러블 슈팅 사례(Part 1 — 모니터링 환경구축)

YulHeon Kim

Published in

네이버 비지니스 플랫폼 개발 블로그

9 min readNov 3, 2021

안녕하세요 NAVER BIZ CIC의 Ad Service Dev2 입니다.
저희는 네이버/라인 보장형 광고 DSP와 LINE Flyer 서비스를 담당하고 있는 조직입니다.

저희 팀에서는 여러 서비스를 운영하고 있는데요. 그중에서 오늘 다룰 내용은 Node.js 서버의 모니터링에 대해서 소개하고자 합니다.

모니터링 관련된 포스트는 총 3편에 걸쳐 다룰 예정입니다.

1. Node.js 모니터링 환경구축(VM 환경)
2. Node.js 모니터링 시스템을 활용한 트러블 슈팅
3. K8S 환경을 위한 추가 가이드

이 글은 첫 번째 글로, 저희가 운영 중인 LINE Flyer 서비스에서 사용했었던 VM 환경 기반의 Node.js 모니터링 환경 구축에 대해서 다룰 예정입니다.
(현재는 K8S로 전환 중이라 세 번째 글에서 K8S 환경에 대한 내용을 다룰 예정입니다.)

모니터링 시스템 필요성

모니터링(Monitoring)이란 어떤 대상을 감시, 관찰한다는 뜻으로써 IT 서비스에서의 모니터링 시스템이란 운영 중인 서비스를 지속적으로 감시, 관찰하여 예기치 못한 상황과 오류를 대비하고 극복을 하기 위해서 사용합니다.

모니터링에 대한 종류는 다음과 같이 4가지로 정의 할 수 있습니다.

알림(Alerting) : 비정상 수치가 측정 될 시 즉시 파악
디버깅(Debugging) : 비정상 수치 분석을 통한 근본 원인 규명
추세 파악(Trending) : 시스템이 어떻게 사용되며 시간에 따라 변화가 되는지 확인
플러밍(Plumbing) : 측정되고 있는 수치를 활용해 다른 플랫폼에서 활용(ex: K8S HPA 기준 수치에 사용)

이러한 모니터링 종류를 통하여 운영자가 얻을 수 있는 이점은 아래와 같습니다

사전 분석을 통한 장애 방지
장애 발생 감지를 통한 다운 타임 감소
성능 문제 파악을 통한 서비스 최적화
데이터 기반 분석을 통한 체계적인 관리

이와 같은 이유로 인해 모니터링 시스템은 꼭 필요하기 때문에 저희가 운영 중인 서비스에도 모니터링 시스템을 적용하게 되었으며, 상단에 설명한 대부분의 기능이 있는 프로메테우스(Prometheus)를 선택하게 되었습니다.

프로메테우스(Prometheus)?

프로메테우스(Prometheus)는 SoundCloud사에서 만든 매트릭 기반의 오픈소스 모니터링 및 알림 시스템입니다.

프로메테우스가 유일한 모니터링 도구는 아니지만, 프로메테우스는 매트릭 기반 모니터링 기능에 집중되어 있으며, 단순하지만 강력한 데이터 모델과 쿼리 언어(PromQL)가 있어 이를 활용하여 애플리케이션과 인프라 성능을 분석할 수 있습니다.

프로메테우스는 매트릭을 측정하는 것에 집중하고, 매트릭 이외에 다른 기능(ex: 시각화)은 다른 더 적절한 도구가 처리하도록 남겨 줍니다.

프로메테우스가 Target System에서 메트릭을 수집하는 방식은 풀링(Pulling) 방식을 사용합니다. 프로메테우스가 주기적으로 Exporter로부터 메트릭 읽어와서 수집하는 방식입니다.

이글에서는 프로메테우스 설치에 대한 방법을 설명하지 않으며, 프로메테우스가 설치되어있다는 가정하에 Node.js 서버와 연동하는 방법에 대해서 설명하겠습니다.

프로메테우스 Architecture

프로메테우스 Exporter란?

프로메테우스는 풀링(Pulling) 방식을 이용해서 타겟 서버의 메트릭을 수집하기 때문에, 타겟 서버에서는 프로메테우스가 인식할 수 있는 데이터 구조로 변경한 매트릭 수치들을 볼 수 있는 기능을 제공해줘야 합니다.

Exporter는 이러한 기능을 수행하며, 사용자가 직접 만들 수도 있지만, 대부분은 Third-party Exporter를 사용하며 이글에서는 Node.js와 호환되는 Exporter를 사용할 예정입니다.

프로메테우스 x Node.js

Node.js exporter 소개

prom-client (https://github.com/siimon/prom-client)

Node.js에서 Prometheus metric을 생성 및 집계 할 수 있도록 도와주는 라이브러리
대부분의 Node.js exporter 라이브러리는 해당 라이브러리 기반으로 만들어져있습니다.

express-prom-bundle (https://github.com/jochen-schweizer/express-prom-bundle)

Express/koaJS 에서 exporter 관련 기능을 쉽게 커스텀 할 수 있도록 기본 Metrics 및 routing 설정이 포함된 라이브러리
prom-client를 기반을 통해서 만들어져 있습니다.

이글에서는 상단의 2개의 exporter 중에 express-prom-bundle 라이브러리 기반으로 샘플 코드를 작성할 예정입니다.

PM2 환경에서 Node.js에 exporter 적용시 문제점

Node.js은 Main theread는 싱글 스레드 기반이다 보니 서버에서 Node.js 인스턴스를 띄울 때는 보통 PM2(https://pm2.keymetrics.io/)라는 Node.js 프로세스 관리툴을 이용해서 cluster mode로 CPU 개수에 맞게끔 Node.js 인스턴스를 띄우는 경우가 많습니다.

그런데 PM2로 cluster mode 사용 시 Node.js exporter를 사용하게 되면 실제 수치보다 적게 측정이 되는 현상 발생합니다.