Несколько решений AIOps по рекомендациям Gartner

Anton I. Kasimov
4 min readSep 5, 2019

--

Специально для телеграм-канала @monitorim_it.

AIOps (Artificial Intelligence for IT Operations) — это надстройка, которая как сметана расползается на уже существующие типы решений в области мониторинга, ITSM, информационной безопасности и других. Дальше в статье о том, что это такое, предпосылках к развитию подхода и инструментах, которые развиваются в этом направлении.

Как работает AIOps

AIOps — это смесь технологий больших данных (bigdata), машинного обучения (machine learning) и визуализации (visualization) двух перечисленных выше вещей. Платформа AIOps принимает на вход как исторические данные так и данные в режиме реального времени, складывает их в хранилище и выполняет таинства искусственного интеллекта. На выходе пользователь таких систем получает (ну или должен получать) понимание взаимосвязи между событиями (ещё можно назвать корреляцией и контекстуализацией) и выявляет аномальное поведение объектов анализа. На картинке ниже показано как это работает.

Алгоритм работы AIOps системы

Причины, почему известные (и не очень) вендоры начали добавлять в свои продукты механизмы AIOps, наверное, понятны. Это ответ на непрерывно растущий объём от систем сбора первичных данных, увеличение количества источников и увеличение количества изменений в контролируемых системах. Людям сложнее и сложнее уследить за всем этим хозяйством, а тем более реагировать на алерты.

AIOps снижает количество шумовых событий и лечит событийную усталость, показывает причинно-следственные связи событий, выявляет аномалии, экстраполирует будущие события и вдобавок может автоматически фиксить проблемы. Каждой из перечисленных фичей по-отдельности трудно удивить в 2к19. Многие из систем мониторинга делали это раньше и будут делать это в будущем. Но, если взять все подходы в комплексе, получится нечто новое.

Как выбрать AIOps

AIOps должен объединять различные источники данных в едином хранилище. В случае с мониторингом, идеальная картинка ниже.

Налёт AIOps на традиционные системы мониторинга

Если говорить про общий случай, то вот так.

Logs — логи, Text— текстовые данные, Wire — прослушанный трафик, Metrics — метрики из систем мониторинга, API — данные из любых внешних систем, Social-media-derived user sentiment — отзывы пользователей из социальных сетей.

Какие вендоры делают AIOps

В своём отчёте Gartner определил некоторых вендоров, решения которых могут считаться за AIOps. Я их тут приведу с небольшими комментариями.

Anodot. Это решение для аналитики. Перечень стандартных интеграций куцый, скорее нишевое решение для сбора данных из конкретных продуктов.

BigPanda. Известный продукт на рынке event-сonsolidation. Работает из облака и имеет большой коробочный набор интеграций с системами мониторинга и CMDB.

BMC. Легендарный вендор. Прокачал свои решения TrueSight (бывший ProactiveNet) и Helix (бывший Remedy) дополнительным функционалом AIOps.

Brains Technology. Японский вендор. Если понимаете по-японски, можно зайти на сайт и осмотреться. Я не смог найти переключение на английский, поэтому ничего тут сказать не могу.

CA Technologies. Недавно их купила компания Broadcom и вроде как развивает. Вендор с солидной историей и таким же набором инструментов для мониторинга, которые они прокачали функционалом AIOps.

Devo (Logtrust). Это платформа с аналитикой и SIEM. Машинное обучение, судя по интерфейсам, сделано на базе Elastic Stack.

Elastic. Решение, действительно, можно назвать AIOps, ведь в нём есть машинное обучение :). Т.к. Elastic Stack по большей части бесплатен, в него нужно хорошо вложиться, чтобы получить хорошую аналитику.

Evolven. Решение с функционалом машинного обучения, которое может также отслеживать изменения в инфраструктуре и говорить что там на что повлияло.

FixStream. Имеет встроенную функцию дискаверинга, с помощью которой визуализируется топология приложения. Все обнаруженные приложения (информационные системы) можно группировать в бизнес-процессы. Ещё у них есть книга «AIOps for Dummies».

IBM. Речь о платформах Watson и Netcool Operations Insight. Каждая из этих платформ может принимать на вход данные из различных источников и выполнять аналитику на основе алгоритмов машинного обучения.

InfluxData. Это аналитическая система Flux на базе условно-бесплатной БД InfluxDB. Может принимать на вход данные из сторонних БД и систем через API.

ITRS. Система имеет готовые коннекторы к внешним систем и модуль для мониторинга. Есть модуль для управления мощностями, работает на базе «what-if» анализа.

jKool. Облачная система аналитики для поиска аномалий в поступающих данных. На сайте есть раздел «Why jKool is cool?», можете почитать.

Loom Systems. Система аналитики на основе логов и метрик из внешних систем.

Moogsoft. Зонтичная консоль событий. Очень много коннекторов к разным системам мониторинга, инцидент-менеджмента, автоматизации, оркестрации, оповещений. Работает из облака или on-premise.

Scalyr. Собирает логи и производит над ними аналитику. Позиционирует себя как спаситель рабочего времени DevOps (обещают быстро находить факапы).

ScienceLogic. Система аналитики со встроенным мониторингом, дискаверингом, автоматизацией и возможностью управления событиями.

SignalFx. Это система APM-мониторинга с возможностями AIOps. Имеет один единственный Smart-агент, который поддерживает 200+ технологий. Автоматически определяет приложения на хосте после установки. Работает из облака.

Splunk. Известное решение лог-аналитики, которое разрослось до универсальной системы мониторинга, в т.ч. имеет функции AIOps. Жаль, что Splunk ушёл из России.

Stackstate. Система AIOps-аналитики. Из коробки поддерживаются 100+ интеграций и автоматическое построение топологии приложения. Работает on-prem и из облака.

Sumo Logic. Облачная аналитическая система мониторинга. Поддерживает 150+ интеграций с внешними системами.

VNT Software. Система автоматически строит карты приложения и позволяет выполнять симуляцию аварии, чтобы понять какие сервисы будут затронуты сбоем.

VuNet. Решение включает в себя 500+ адаптеров для мониторинга конечных объектов, умеет строить карту приложения и коррелировать события из внешних систем.

Все решения из этого списка реализуют т.н. контекстуальный мониторинг или мониторинг, наполненный контекстом. Получается, что каждое событие в такой системе больше не существует само по себе, а привязано при помощи топологии к целой информационной системе. Перед началом использования такой системы ответьте себе на вопрос — готовы ли вы довериться машине?

Прочитайте другие посты серии:

--

--