#24. AIOps(Artificial Intelligence for IT Operation)

Twolinecode
twolinecode
Published in
6 min readFeb 5, 2023

마이크로서비스, 클라우드와 컨테이너, 그리고 분산 아키텍처의 부상으로 더 이상 사람의 눈과 두뇌로만 데이터를 분석하는 것이 한계에 다다르면서 최근 AIOps에 주목하고 있습니다.

AIOps(Artificial Intelligence for IT Operation)는 2017년 Gartner가 제작한 것으로, 애플리케이션 환경에서 데이터와 정보를 관리하는 방법을 나타내는 것이며 관리 태스크 자동화와 네트워크 전문가 모니터링을 숙련된 IT 전문기술과 결합하여 효율성을 향상 시킵니다. 즉, AIOps는 IT운영의 AI를 의미하며 IT 팀이 네트워크 장애를 예측, 신속하게 대응 및 방지 하는데 사용할 수 있는 빅데이터, 분석 및 머신러닝 사용을 나타냅니다.

AIOps를 설명하는 그림(출처:가트너 공식 블로그)

AIOps는 인공지능(AI)를 활용한 운영방식의 변화를 의미하며, 특히 방대한 양의 데이터와 리소스가 오고 가는 IT 운영환경에 적용되는 개념입니다. 인공지능을 사용하여 IT운영관리를 단순화하고, 복잡한 최신 IT환경에서 문제 해결을 가속화, 자동화하여 IT운영을 향상시키기 위한 인공지능 애플리케이션입니다.

AIOps는 MLOps와 유사 개념인 것으로 오해가 많지만, MLOps가 데브옵스의 개념을 머신러닝 파이프라인에 적용하고 확장하는 것이라면, AIOps는 데브옵스를 포함한 기존의 IT 운영방법론에 인공지능을 적용해 한단계 성숙하게 만들고자 하는 노력이라고 이해할 수 있겠습니다.

2022년 4월 더인사이트 파트너스가 발행한 <AIOps 플랫폼 마켓>에 따르면 전세계 AIOps 플랫폼 시장규모는 2028년까지 199.3억달러로 성장할 것으로 내다보고 있으며, 이는 2021년 28억 3천만 달러에서 평균 32.2% 성장률을 보일 것이라고 전망하고 있습니다.

AIOps를 구현하는 두가지 큰 요소는 빅데이터(Big Data)와 머신러닝(Machine Learning)으로, AIOps의 목표는 “IT운영을 위해 AI를 활용한다”라는 ‘운영’에 집중하고 있습니다. 따라서 AIOps의 효과로 (1)장애 발생대응 (2)평균해결시간(MTTR)감소 (3) 운영비용감소 (4)업무효율증가 등이 있고, 이를 통해 AIOPs는 최적의 운영 환경 구축을 목적으로 한다는 것을 알 수 있습니다.

IT 운영관리 전체를 통해 지속적인 통찰이 가능하게 하는 AIOps(AIOps platforms enabling IT operations management (ITOM) /출처 : 가트너)

AIOps의 기능

• 빅데이터 : 대규모로 수집되는 구조화 및 비구조화 데이터

• 기계학습 : 환경변화를 학습하고 이에 적응 할 수 있는 알고리즘. 문제를 파악하고 효과적인 솔루션을 권장하는 요소를 변경하거나 새로 만들 수 있습니다.

AIOps의 장점

• 문제가 발생 하기 전에 장애에 대응하여 방지 가능

• 평균복구 시간(MTTR)을 단축하여 IT 효율성 향상

• 불필요한 요소를 식별하고 제거함으로써 우선순위가 낮은 문제에 걸리는 IT운영시간 단축 가능

• 최적화 팁을 제공하여 네트워크, 보안 및 애플리케이션 잠재력 향상

AIOps의 특징

• 여러 데이터 소스에서 데이터 캡쳐

AIOps는 시스템, 네트워크, 클라우드 등 여러 데이터 소스에서 데이터를 캡처하는 것이 특징. 또한 과거의 히스토리 데이터와 실시간 스트리밍 데이터를 사용 할 수 있어 과거 데이터를 예측 할 수 있습니다. 가져온 과거 데이터, 스트리밍 데이터는 유용한 형태로 저장되며 액세스가 가능합니다.

• 기계학습을 이용한 분석 및 제안

데이터 수집과 동시에 기계학습을 이용하여 실시간으로 분석하는 것도 AIOps요구 사항 중에 하나. 데이터 분석은 자동으로 이루어져 정보 시스템이 가지는 근본적인 문제가 되는 “패턴”을 발견해, 향후 발생할 수 있는 인시던트 및 시스템의 새로운 동작을 예측하는데 사용됩니다.

AIOps의 용도

• 성능 분석 및 모니터링

정보시스템에서 발생하는 빅데이터를 AI가 분석하여 문제 발생 여부 감시

• 이상감지

과거의 데이터와 비교, 돌출하여 다른 값(이상치)을 특정하는 것. 정보 시스템에서 발생 할 수 있는 이벤트에서 예측 값과 실제 데이터의 차이를 자동 및 신속하게 비교하여 운영관리자에게 이상 경고 알림

• 근본 원인 분석 및 대처 방법 검색

정보시스템에서 발생한 이벤트를 자동으로 분류하여 트러블 등 대처가 필요하다고 판단되는 경우에는 과거 데이터에서 대처 방법 검색

• IT서비스 관리(ITSM)

기업 내 정보 시스템 설계, 구축, 운영 등에 이르기까지 전체 프로세스

--

--

Twolinecode
twolinecode

We have the best solutions and experts for our customer’s digital business needs-everything from Cloud Infrastructure to Cloud Native Application.