Lojistik Regresyonun Gücünü Ortaya Çıkarmak: Başlangıç Kılavuzu
Makine öğrenmesi modellerine Lojistik Regresyon ile devam ediyoruz. Lojistik regresyon, bağımlı değişkenin iki değeri olduğu durumda kullanılan bir yöntemdir. Lineer regresyon gibi, doğrusallık varsayımını içermektedir. Model parametrelerini, maksimum olabilirlik tahmini veya gradyan inişini kullanarak tahmin edebiliriz. Ayrıca karışıklık matrisi (confusion matrix) ve ROC eğrisi kullanarak modelin performansını değerlendirebiliriz.
Bu yazıda, aşağıdaki soruları cevaplamayı hedefliyorum:
Lojistik regresyon nedir ve kullanım alanları nelerdir?
Lojistik fonksiyon nedir ve lojistik regresyonda nasıl kullanılır?
Lojistik regresyonun varsayımları nelerdir?
Lojistik regresyonda model parametreleri nasıl tahmin edilir?
Lojistik regresyonda aşırı uyumu önlemek için kullanılan bazı teknikler nelerdir?
Lojistik regresyonun performansı nasıl değerlendirilir?
Lojistik regresyonda bazı yaygın sorunlar nelerdir?
Lojistik regresyon diğer sınıflandırma algoritmalarıyla nasıl karşılaştırılır?
Lojistik Regresyona Giriş
Lojistik regresyon, ikili sonuçları tahmin etmek için yaygın olarak kullanılan bir istatistiksel yöntemdir. Lojistik regresyon, geçme/kalma, kazanma/kaybetme veya sağlıklı/hasta gibi belirli bir sınıf veya olayın var olma olasılığını modellemek için kullanılır. Örneğin bir müşterinin satın alma yapıp yapmayacağını tahmin edebiliriz.
Model ve Varsayımlar
Lojistik regresyon modeli, sigmoid fonksiyonu olarak da bilinen lojistik fonksiyonu temel alır. Lojistik fonksiyonu, herhangi bir gerçek değerli sayıyı 0 ile 1 arasında bir değere eşler. 1/(1+e^(-x)) şeklini alır; burada e, doğal logaritmanın tabanıdır ve x fonksiyonun girdisidir. Log-odds olarak da adlandırılan lojistik fonksiyonun çıktısı, bir olayın meydana gelme olasılığını tahmin etmek için kullanılır.
Lojistik regresyonun ana varsayımlarından biri doğrusallıktır. Doğrusallık, sonucun logaritmik olasılığının bağımsız değişkenlerin doğrusal bir kombinasyonu olduğu anlamına gelir. Ancak bu, bağımsız değişkenlerin kendilerinin doğrusal olması gerektiği anlamına gelmez. Bağımsız değişkenlerinin doğrusal olmayan dönüşümleri de lojistik regresyonda kullanılabilir.
Karar sınırı (decision boundary), bir sınıflandırma probleminde sınıfları ayıran çizgi veya yüzeydir. Lojistik regresyonda karar sınırı, bir olayın meydana gelme olasılığının belirlenen eşik değerden büyük veya küçük olduğu alanı ayıran bir çizgidir. Eşik için varsayılan değer 0,5'tir ancak farklı durumlar için değiştirilebilir.
Model Parametrelerini Tahmin Etme
Model parametrelerini tahmin etmek için en yaygın yöntem en büyük olabilirlik tahminidir (Maximum likelihood estimation — MLE). MLE, gözlemlenen verilerin olasılığını en üst düzeye çıkaran parametrelerin değerlerini bulan bir yöntemdir. Olabilirlik, parametreler verilen verileri gözlemleme olasılığını tanımlayan bir fonksiyondur.
Model parametrelerini tahmin etmenin başka bir yöntemi de gradyan inişidir. Bu yöntem, parametreleri olabilirlik fonksiyonunun gradyanı yönünde yinelemeli olarak güncelleyerek optimize etmek için kullanılır.
Düzenlileştirme (regularization), model çok karmaşık olduğunda ve verilerdeki gürültüyü (noise) de modele dahil ettiğinde ortaya çıkan aşırı öğrenmeyi önlemek için kullanılan bir tekniktir. L1 ve L2 düzenlileştirmesi, lojistik regresyonda en sık kullanılan düzenleme teknikleridir. L1 düzenlemesi olasılık fonksiyonuna parametrelerin mutlak değeriyle orantılı bir ceza terimi eklerken, L2 düzenlemesi parametrelerin karesiyle orantılı bir ceza terimi ekler.
Modeli Değerlendirme
Model eğitildikten sonra, performansını test seti adı verilen ayrı bir veri setinde değerlendirmek önemlidir. Karışıklık matrisi (confusion matrix), bir sınıflandırma algoritmasının performansını tanımlamak için kullanılan bir tablodur. Karışıklık matrisinden elde edilen en yaygın ölçüler accuracy, precision, recall ve F1 skorudur.
Aşağıdaki görsel, karışıklık matrisini belki de en akılda kalıcı şekilde anlatan görsellerden biridir. Bunu gördükten sonra unutmanız çok da mümkün olmayacaktır.
Tahmin = 1, Gerçek = 1 -> True positive (TP)
Tahmin =1, Gerçek = 0 -> False positive (FP)
Tahmin =0, Gerçek = 1 -> False Negative (FN)
Tahmin = 0, Gerçek = 0 -> True Negative (TN)
Accuracy = (TP+TN) / (TP+FP+FN+TN)
Precision = TP / (TP+FP)
Recall = TP / (TP+FN)
F1 Score = 2*Precision*Recall / (Precision+Recall)
ROC (Receiver Operating Characteristic) eğrisi, bir sınıflandırma algoritmasının farklı eşiklerdeki performansının grafiksel bir temsilidir. Bunu, çeşitli eşik ayarlarında gerçek pozitif oranını (sensitivity) yanlış pozitif oranına (1-specificity) karşı çizerek yaratırız. ROC eğrisi altındaki alan (AUC), modelin pozitif ve negatif sınıfları ne kadar iyi ayırt edebildiğinin bir ölçüsüdür. Mükemmel bir sınıflandırıcının AUC’si 1 olacaktır.
Sensitivity = TP/(TP+FN)
Specificity = TN/(TN+FP)
Herhangi bir makine öğrenimi modelinde olduğu gibi, lojistik regresyonda da aşırı veya yetersiz öğrenme problem yaratabilir. Aşırı öğrenme, model çok karmaşık olduğunda ve verilerdeki gürültüyü de modele dahil ettiğinde meydana gelir ve bu da zayıf genelleme performansına yol açar. Yetersiz öğrenme, model çok basit olduğunda ve verilerdeki temel kalıpları yakalayamadığında ortaya çıkar. Aşırı öğrenmeyi önlemek için düzenlileştirme ve çapraz doğrulama gibi teknikleri kullanabiliriz. Yetersiz öğrenmeyi önlemek için, model karmaşıklığının arttırılması veya daha fazla özellik eklenmesi düşünülebilir.
Lojistik regresyon ayrıca k-en yakın komşular, karar ağaçları ve destek vektör makineleri gibi diğer sınıflandırma algoritmalarıyla da sıklıkla karşılaştırılır. Algoritma seçimi, belirli probleme ve verilerin özelliklerine bağlıdır.