Göbek Bağı Bir: İstatistiksel Öğrenme vs Makine Öğrenmesi

Veri bilimine yeni adım atanlar hatta veri bilimcilerin ve istatistikçilerin çoğu zaman karıştırdığı iki kardeş kavram. Biri ailenin saygılı, kurallara uyan büyük kardeş, diğeri ise ergen ve kural tanımaz küçük kardeş…

Deniz Ağırdan
Deep Learning Türkiye
2 min readNov 4, 2020

--

Photo by Franki Chamaki on Unsplash

Akıllarda ki sorular; istatistiksel öğrenme ve makine öğrenmesi arasındaki farklar neler? Hangisi daha iyi? İstatistik ile istatistiksel öğrenme aynı şeyler mi? Bu ve buna benzer sorular aklınızı karıştırıyorsa, yazının sonunda taşlar biraz daha yerine oturacaktır.

İstatistik ile istatistiksel öğrenme aynı şeyler mi?

Matematiksel olarak ifade edersek istatistik, istatistiksel öğrenmeyi kapsar. İstatistik; veri toplama, düzenleme, görselleştirme, analiz etme, çıkarsama, tahminleme ve betimleme gibi çok geniş kavramları kapsarken, istatistiksel öğrenme çok daha dar bir kavramı yani çıkarsama(inference) ve tahminlemeyi(estimation/prediction) içerir. Başka bir deyişle istatistiksel öğrenme, stokastik bir model kurma ve bu modeli geçerleme durumudur.

İstatistiksel öğrenme;

  • Veriden öğrenir.
  • Bir dağılıma tabidir. (Normal, binom vs. gibi)
  • Varsayımları vardır. (Yansız olması, etkin olması, çoklu bağlantı olmaması vs. gibi)
  • Örnekleme teorisine dayanır. (Merkezi limit teoremi, büyük sayılar kanunu gibi)
  • Çıkarım (inference) yapar. (Parametre testi, Güven aralıkları tahmini, uyum iyiliği, Hata incelemesi vs. gibi)
  • Tahminleme(estimation) yapar.

Matematiksel olarak ispatlanmış teoremlere dayanır. Çerçevesi ve sınırları bellidir. Varsayımları altında yansız ve etkin tahminleyicilerdir. Regresyon analizi, diskriminant analizi, lojistik regresyon ve cox regresyon gibi yöntemler istatistiksel öğrenmeye örnek verilebilir.

Makine Öğrenmesi;

  • Veriden öğrenir.
  • Algoritmik modeller kullanılır.
  • Optimizasyon yöntemleri ön plana çıkar.(gradient descent, newton raphson gibi)
  • Yan ve varyans dengesi önemlidir.(Bias and variance trade off)
  • Tahminleme(estimation/prediction) yapar.
  • Çıkarım yapılamaz. Performans metriklerine bakılarak modelin gücüne karar verilir. (Confusion matrix: Accuracy, recall, sensitivity, roc-auc gibi)

Algoritma temelli ve toplam hatayı belli kısıtlar altında minimize etmeye odaklıdır. Random Forest, Yapay sinir ağları, Derin Öğrenme, Boosting algoritmaları gibi yöntemler örnek verilebilir.

İstatistiksel öğrenme, makine öğrenmesinin amaçları çok benzese de aralarındaki en büyük fark çıkarımdan(inference) gelmektedir. istatistiksel öğrenme verideki değişkenler arasındaki ilişki ve açıklayıcılığı ile ilgilenirken, makine öğrenmesi tahminlemenin doğruluk oranı(accuracy) ile ilgilenmektedir. Ayrıca makine öğrenmesinde ki algoritma çeşitliliği, yan ve varyans dengesinin esnek olması ve çok yüksek boyutlu verilerde tahminleme gücünün yüksek olması gibi avantajları ile büyük veri dünyasında çok hızlı şekilde yerini almasını sağladı.

Hangisi daha iyi?

Bu soru karşılığında ilk öncelikle amaç ne diye sormak gerekir. Amaç çıkarım değil sadece tahminleme ve doğruluk başarı oranıyla ilgileniyorsanız makine öğrenmesi iyi bir seçim olabilir. Eğer amaç çıkarım yapmak, veride ki ilişkileri ortaya çıkarmak ise istatistiksel öğrenme daha iyi bir yaklaşım olacaktır.

--

--