Monitoring (İzleme) ve Alerting (Uyarı) Yapıları Temel Bilgiler

Mehmet Can Ertugrul
Intertech
Published in
2 min readJan 2, 2023

Monitoring (İzleme) ve Alerting (Uyarı) kavramları bilgisayarların gelişimi süreci kadar eski bir kavram. Çok basit gibi görünebilir fakat doğru bir İzleme ve Uyarı mekanizması kurmak sanıldığı kadar kolay olmayabilir.

Günümüz izleme ve uyarı araç sistemlerinin çoğu temel olarak:

  • Kapsam
  • Metrik
  • Eşik Değer
  • Zaman

Boyutlarının kombinasyonlarını farklı şekilde uygulayarak çalışırlar.

Örneğin izleme ve uyarı kapsamınız basit bir sunucu izlemden tutun bankacılık sisteminde gerçekleşen işlemlerin tüm detayları gibi fazlasıyla kapsamlı olabilir. Metrikleriniz benzer şekilde izleyeceğiniz sisteme bağlı olarak CPU, disk boş alanı veya bir defada yapılan transferlerdeki “para”’ nın büyüklüğü ya da sayısı olabilir.

Kapsamınızı ve metriklerinizi belirledikten sonra bu yazıda da farklı yöntemlerle izlediğimiz eşik değerin belirlenmesi gerekir. Örneğin disk örneğinden devam edecek olursak eşik değeriniz diskte kalan boş alanın miktarı veya yüzdesi olabilir. Son olarak izlediğiniz metrik ve eşik değerin değişimin hangi süre ile izleneceği boyutudur.

İzleme sistemleri eşik değerleri farklı şekillerde yönetebilir ve alarm üretirler:

  • Sabit / Statik Eşik Değer
  • Algoritmik Besleme
  • Tahmin Yapıları
  • Anormal Durum Tespiti
  • Uç Örnek Tespiti
  • Makine Öğrenmesi

Başlıca yaklaşımlardandır.

Anlaşılacağı üzere sabit eşik değerler anlamlı değil çoğu zaman yanıltıcı ve “gecikmeli” sonuç üretirler. Örneğin sunucu diskinizdeki boş alan “sıfır” olduğunda artık çok geçtir bunun yerine yüzdesel sabit eşik değerler daha anlamı olabilir örneğin %10 yer kaldığında uyarı, %5 alan kaldığında ise panik bildirimleri şeklinde uygulanabilirler. Ancak sabit değerler yüzlerce binlerce alarmın kurulduğu ortamlarda ve belirlenen sabit aralıkları “aşma hızı” değiştiğinde buna adapte olamazlar.

Tahmin (Forecast) yapıları aslında sabit eşik değerlerine çok benzerler, fakat gerçekleşmiş mevcut bilgileri kullanarak eşik değere ne zaman ulaşılacağını tahminleyebilirler. Örneklemek gerekirse sabit eşik değeri “boş disk alanı %10 altına gelince haber ver “şeklinde çalışırken tahmin yapısı “boş disk alanı önümüzdeki 4 saat içerisinde %10 a gelecek” biçiminde davranır. Bu yaklaşımın bir artısı farklı eşik değerleri (uyarı/kritik/panik) belirlenmesine gerek yoktur. Anormal durum yaklaşımı tahminleme yapısına benzer olarak geçmiş veriler ile gerçekleşen durum arasındaki farklara bağlı olarak alarmlar üretir. Yani gün içerisinde ki durumdan ne kadar uzaklaştığımıza bağlı olarak sonuç üretir. Gerçek zamanlı anormal durum tespitinin günümüzde en yoğun çalışılan başlıklardan biri olduğu notunu düşelim.

Uç örnek tespiti ise yukarıdaki tahminleme ve anormal durumdan farklı olarak ve geçmiş veriden bağımsız birden fazla değerin grup olarak benzer davranış değerini izler. Günümüzde modern ürünler algoritmik besleme yapılarının çıktılarının ilgili ekiplere yönlendirilmesini başarılı biçimde yapabilirler. Hatta yeni ön yüzler tıpkı sosyal medyada bir iletiyi beğendiğimiz gibi beğen ya da beğenme gibi eklentiler ile desteklenirler. Bu klasik anlamda “denetimli supervised” öğrenme modelleri gibi anlamlı alarmların daha da kesin biçimde çalışmasına yardım eden yenilikçi, yeni nesil uygulamalardır.

Bu yazıyı yazmamda yönlendirmeleri ve görüşleriyle Fırat Doğan’a çok teşekkür ederim.

--

--