LINEER REGRESYON

ABDULLAH ATCILI
Machine Learning Turkiye
5 min readDec 27, 2021

LINEER REGRESYON NEDIR

Lineer Regresyon, supervised learning (denetimli öğrenme) modellerinde, bağımsız değişkenler (girdi, X) ile bağımlı değişken (çıktı, y) arasındanki en uyumlu hattı çizen bir regresyon modeli algoritmasıdır. Bir veya daha fazla girdi ile çıktı arasındaki istatistiksel ilişkiyi tanımlamak için bir denklem oluşturur. Ve bu oluşturulan denkleme göre de bir lineer doğru çizer.

Single Lineer Regresyon (Tekli Lineer Regresyon) ve Multiple Lineer Regresyon (Çoklu Lineer Regresyon) olmak üzere iki alt başlık altında incelenebilir.

Single Lineer Regresyon (Tekli Lineer Regresyon) : Tek bir x girdisi ile, y çıktısını modellemeye çalışan algoritmadır.

y : çıktı

b0 : intercept değeri (sabit katsayı değeri)

b1 : girdi katsayısı

x : girdi

Multiple Lineer Regresyon (Çoklu Lineer Regresyon) : Birden fazla girdi ile, y çıktısını modellemeye çalışan algoritmadır.

y : çıktı

b0 : intercept değeri (sabit katsayı değeri)

b1 : 1 no.lu girdi katsayısı

x1 : 1 no.lu girdi,

b2 : 2 no.lu girdi katsayısı

x2 : 2 no.lu girdi

b3 : 3 no.lu girdi katsayısı

x3 : 3 no.lu girdi

bn : n no.lu girdi katsayısı

xn : n no.lu girdi

Bir Lineer Regresyon modelinin amacı, gerçek çıktı ile tahmin edilen çıktı değeri arasındaki hatayı minimum yapacak, en uygun lineer doğruyu çizmektir. Hata fonksiyonu ve gradient descent konularına hakim değilseniz lütfen burayı okuyunuz.

Grafiği yorumlamak gerekirse; noktalar, her bir x girdisine ait y çıktısına ait data pointleri (data noktaları) simgelemektedir. Çizilen doğru ise, tüm data pointler incelendiğinde, bu noktaları en iyi temsil edecek doğruyu simgelemektedir. Artık bizim Lineer Regresyon modelimiz, bir tahminde bulunucak ise, sorulan x değeri için, doğru üzerine denk gelen y noktasını tahmin edecektir. Yani X =100 girdisi için modelin tahmini yaklaşık 75 gibi bir değer olacaktır. Veya X =150 girdisi için modelin tahmini yaklaşık 100 gibi bir değer olacaktır. Veya X =250 girdisi için modelin tahmini, grafikten okunduğu üzere yaklaşık 150 gibi bir değer olacaktır.

Gerçek değer ile Lineer Regresyon modelimizin tahmin ettiği değer arasında meydana gelen hataların değerlendirilmesi ile modelin performansı ölçülür. Bu konuda detaylı bilgi aşağıda verilmiştir.

Lineer Regresyon Varsayımları

  1. Lineerlik : Bağımsız değişkenler (X) ile bağımlı değişken (y) arasındaki ilişki lineer olmalıdır.

2. Normallik : X ve y değişkenleri, normal dağılımdan gelen örneklemler olmalıdır. Dağılımlar konusunda detaylı bilgi için burayı okuyunuz

3. Homoscedasticity (homoskedastisite, eş varyanslılık) : İstatistikte, tüm rastgele değişkenleri aynı sonlu varyansa sahipse, bir rastgele değişken dizisi homoskedastiktir. Bu aynı zamanda varyans homojenliği olarak da bilinir. Tamamlayıcı kavram değişen varyans olarak adlandırılır. Homoskedastisite ve heteroskedastisite yazımları da sıklıkla kullanılmaktadır. Homoskedastisite, residual plot çizilerek bulunabilir. Eğer Homoskedastisite durumunun varlığı söz konusu ise, çizgi düz ilerler. Aksi durumda, Heteroskedastisite durumunda ise, grafik huni şeklinde görülür. Aşağıdaki şekillerde en alttaki grafik Homoskedastisite’ye örnektir. Diğerleri ise görüldüğü şekilde, huni şeklinde olan Heteroskedastisite’ye örnek oluşturmaktadırlar.

4. Bağımsızlık / Multicollinearity olmaması : Değişkenler arasında yüksek korelasyon olmaması. (Yüksek korelasyon tabiri afaki bir tabir olabilir. Mesela ne kadar yüksek korelasyon? Burada benim yorumum, 0,80den fazla olan korelasyonlar yüksek korelasyon olarak değerlendirilebilir) Tespit etmek için korelasyon matrisi kullanılabilir.

5. Hata dağılımları normal dağılmalıdır.

6. Otokorelasyon olmamalıdır : Hatalar birbirinden bağımsız olmalı ve birbirleri ile korele olmamalıdır. Otokorelasyon, Durbin Watson test ile test edilebilir. Null hipotezi, otokorelasyon olmadığını varsayar.

Bu varsayımlar karşılanmıyorsa, yapılabilecek bir dizi işlem vardır.

  • Lineerlik durumuna uymuyorsa, Polynomial Regresyon kullanılabilir.
  • Bağımsızlık varsayımı ihlal edilirse, bağımsız ve bağımlı değişken arasındaki ilişki tam olarak belirlenemez.
  • Normallik durumuna uymuyorsa, çeşitli transformasyon teknikleri kullanılarak, değişkenler normalize edilir. Buradan detaylı bilgi alınabilir.
  • Multicollinearity için, 1. hiç bir şey yapılmayabilir (eğerki skoru çok etkilemiyor ise), 2. yüksek korele olan sütünlardan bir tanesi ile modellemeye devam edilebilir, 3. korele olan bağımsız değişkenlerden tek bir sütun üretilebilir, 4. PCA gibi yöntemler ile yüksek korele olan değişkenler üzerinde işlemler yapılabilir.

Lineer Regresyon Ölçüm Metrikleri

Her modelde olduğu gibi Lineer Regresyon modelinde de yapılan hataların ölçülerek modelin başarısının tespit edilmesi önem arz etmektedir.

  1. R kare Skoru nedir?

R kare skoru, regresyon analizlerinde, modelin başarısını ölçmek için kullanılan populer metriklerden biridir. R-kare, verilerin uygun regresyon çizgisine ne kadar yakın olduğunun istatistiksel bir ölçüsüdür. R-kare, doğrusal bir model tarafından açıklanan cevap değişkeni varyasyonunun yüzdesidir. Genellikle 0 ile 1 arasında değer alır. 1'e ne kadar yakın ise o kadar başarılı model olduğu değerlendirilir. Nadiren de olsa 0'ın altında değer alabilir.

SS-RES : Sum of Squares Residuals (Artık kareler toplamı)

SS-TOT : Sum of Squares Total (Toplam kareler toplamı)

2. Düzeltilmiş R kare Skoru nedir?

R kare Skorunun geliştirilmiş halidir. Her zaman R kare Skoruna eşit veya daha düşüktür. Normal şartlar altında, bağımsız değişken sayısı arttıkça, R kare skorunun artması hedeflenir. Ama eklenecek her yeni girdi, modelin başarısını artırmak için aynı önem derecesine sahip değildir. Dolayısıyla, Düzeltilmiş R kare Skoru, hangi eklenen girdinin, en fazla model başarısını artıracağı üzerine odaklanır.

Formülden de görüldüğü üzere, p (girdi sayısı arttıkça), aynı oranda R kare skoru artmaz ise, Düzeltilmiş R kare Skoru düşecektir.

3. Mean Squared Error MSE (Ortalama Kare Hata) nedir

Regresyon modellerinde kullanılan diğer populer ölçüm metriklerinden biridir. Gerçek y değeri ile modelin tahmin ettiği y değeri arasındaki farkların karelerinin ortalamasıdır.

4. Mean Absolute Error MAE (Ortalama Mutlak Hata) nedir

Regresyon modellerinde kullanılan diğer populer ölçüm metriklerinden biridir. Gerçek y değeri ile modelin tahmin ettiği y değeri arasındaki farkların ortalamasıdır.

5. Root Mean Squared Error RMSE (Ortalama Kare Hataların Kökü) nedir

Gerçek y değeri ile modelin tahmin ettiği y değeri arasındaki farkların karelerinin ortalamasının köküdür. Yani diğer bir ifade ile MSE’nin köküdür.

Lineer Regresyom modeline ait notebook burada bulunmaktadır. Polynomial Regresyona ait notebook ise burada bulunmaktadır.

Referanslar :

  1. https://www.analyticsvidhya.com/blog/2021/05/all-you-need-to-know-about-your-first-machine-learning-model-linear-regression/

--

--