Model Performansını Değerlendirmek: Regresyon

Buse Köseoğlu
BAU Yazılım ve Bilişim Kulübü
3 min readFeb 11, 2021

Sınıflandırma modelinin performansını değerlendirmek için kullanılan metriklerle alakalı yazdığım yazıya buradan ulaşabilirsiniz.

Regresyonda bağımlı X değişkenlerini alarak bağımsız Y değişkenini tahmin etmeye çalışırız. Tahmin sonucu elde ettiğimiz sonuçlar genelde ya tam olmaz ya da yanlış olur. Burada asıl sormamız gereken soru ne kadar yanlış olduğu. Diğer bir deyişle, asıl yapmamız gereken gerçek değerler ve tahmin edilen değerler arasındaki uzaklığı bulmak. Bu yazıda oluşturduğunuz regresyon modelini değerlendirmek için kullanabileceğiniz metriklerden bahsedeceğim. Bu metrikler:

  1. R Kare / Düzeltilmiş R Kare
  2. Ortalama Kare Hatası (Mean Squared Error (MSE)) / Kök Ortalama Kare Hatası (Root Mean Squared Error (RMSE))
  3. Ortalama Mutlak Hata (Mean Absolute Error (MAE))

Bu metrikleri incelerken sklearn içindeki boston veri setini kullanacağız. Bu veri setini incelediğim yazıma ve kodlara buradan ulaşabilirsiniz. Kodların bir kısmını aşağıda görüyoruz. Burada bağımlı ve bağımsız değişkenleri seçtik daha sonra veri setini eğitim ve test olarak böldük. Ardından lineer regresyon modeli oluşturup eğitim verisi ile eğittik ve test verisi ile de tahmin gerçekleştirdik.

R Kare / Düzeltilmiş R Kare

R kare, modeldeki bağımsız değişkenlere göre bağımlı değişkenin varyasyon oranını yani bağımlı değişkendeki değişkenliğin ne kadarının model tarafından açıklanabileceğini ölçer. Korelasyon katsayısının karesidir. R Kare aşırı uyum (overfitting) sorununu dikkate almaz. Regresyon modelinin çok fazla bağımsız değişkeni varsa model eğitim verilerine çok iyi uyabilir ama testte istenen başarıyı gösteremeyebilir. Bu nedenle Düzeltilmiş R Kare kullanılır. Düzeltilmiş R Kare modele eklenen ek bağımsız değişkenleri cezalandırır ve aşırı uyum sorununu çözer.

R Kare skorunu “from sklearn.metrics import r2_score” kütüphanesini ekleyerek kolay bir şekilde hesaplayabiliriz. Fonksiyonun aldığı ilk parametre gerçek değerler ikinci parametre ise bizim tahmin ettiğimiz değerler oluyor. Düzeltilmiş R Kareyi hesaplarken ise aşağıdaki formulü kullanabiliriz.

Ortalama Kare Hatası (Mean Squared Error (MSE)) / Kök Ortalama Kare Hatası (Root Mean Squared Error (RMSE))

Ortalama Kare Hatası tahmin edilen sonuçlarınızın gerçek sayıdan ne kadar farklı olduğuna dair size mutlak bir sayı verir. Tek bir sonuçtan çok fazla içgörü yorumlayamazsınız, ancak size diğer model sonuçlarıyla karşılaştırmak için gerçek bir sayı verir ve en iyi regresyon modelini seçmenize yardımcı olur. Kök Ortalama Karekök Hatası (RMSE), MSE’nin kareköküdür. MSE’den daha sık kullanılır çünkü bazen MSE değeri kolayca karşılaştırılamayacak kadar büyük olabilir. Bu yüzden MSE hata karesi ile hesaplanır ve böylece yorumlamayı kolaylaştırır. Fakat MSE aykırı değerlere karşı çok duyarlıdır.

Ortalama Kare Hatasını “from sklearn.metrics import mean_squared_error” kütüphanesini ekleyerek kolay bir şekilde hesaplayabiliriz. Fonskiyonun aldığı ilk parametre gerçek değerler ikinci parametre ise bizim tahmin ettiğimiz değerler oluyor. Kök Ortalama Kare Hatası’nı hesaplarken ise karekök almak için numpy’ın sqrt fonksiyonunu kullanıyoruz.

Ortalama Mutlak Hata (Mean Absolute Error (MAE))

Ortalama mutlak hata, mutlak hata değerinin toplamını alır, hata terimlerinin toplamının daha doğrudan bir temsilidir.

Ortalama Mutlak Hatayı “from sklearn.metrics import mean_absolute_error” kütüphanesini ekleyerek kolay bir şekilde hesaplayabiliriz. Fonksiyonun aldığı ilk parametre gerçek değerler ikinci parametre ise bizim tahmin ettiğimiz değerler oluyor.

Okuduğunuz için teşekkür ederim.

--

--