Machine Learning — Prediction Algorithms — Multiple Linear Regression — Part 3

Ekrem Hatipoglu
3 min readJul 5, 2018

--

Multiple linear regression ( Çoklu Doğrusal Regresyon) en yaygın kullanılan linear regression analizidir.

Önceki yazımda anlattığım Linear Regression 1 tane bağımlı ve 1 tane de bağımsız değişkenle çalışıyordu. ( y = ax +b , y : bağımsız, x : bağımlı ) Multiple linear regression birden fazla bağımsız değişkenle çalışabilir.

y= b0 + a x1 + bx2 + c a x3 + d

Örneğin Linear Regression’da aylara göre satış tahmini ( bağımsız değişken) yapmıştık. Multiple linear regression ‘da da kilo, yaş ve boy verisinden ayakkabı numarasını tahmin ettirebiliriz. Burada kilo, yaş, boy bağımsız değişkendir yani birden fazladır.

Encode işlemi yapılarak kategorik veriler üzerinde de çalışabilir.

Dummy Variable ( Kukla Değişken )

Dummy variable bir değişkeni ifade eden başka bir değişken olarak tanımlanabilir. Örneğin yukarıdaki cinsiyet kolonu OneHotEncoder ile kategorik veriden sayısal veriye dönüştürülmüştür. Dönüşüm işlemi yapıldıktan sonra elimizdeki kolon sayısı 4'ten 6'ya çıkmıştır. OneHotEncoder sonucu e ve k kolonlarıda dahil olmuştur. Bu veri setini doğrudan makine öğrenme algoritmasına vericek olursak sonucumuzun hatalı çıkma ihtimali yüksektir çünkü bu 6 kolondan 3'ü ( cinsiyet, e, k) özünde aynıdır yani birinin değişmesi diğer kolon değerlerinide etkilemektedir. ( bağımlı ) Bu duruma Dummy variable trap ( Kukla değişken tuzağı ) denir.

Bu durumdan kurtulmak için 3 kolondan ( cinsiyet, e, k) ikisini çıkarmalıyız ve makine öğrenme algoritmasına veri setini öyle vermeliyiz.

Not : Bazı makine öğrenme algoritmaları dummy variable trap olayına karşı bağışıklıdır.

P Value ( Olasılık Değeri )

P değeri bir karşılaştırmada istatiksel anlamlılık düzeyine işaret eder. Olası hata miktarını gösterir. Ünlü bir istatistikçi olan Fisher tarafından bu hatanın maksimum kabul edilebilir düzeyi 0,05 olarak önerilmiş ve kabul görmüştür.

Bir test sonucunda bulunan P değeri 0,05'in altında ise karşılaştırma sonucunda anlamlı farklılık vardır.

Not : Yapıcağımız örnekteki veri dosyasını buraya tıklayarak indirebilirsiniz.

Yapacağımız örnekte yaş, ülke, cinsiyet ve kilo verilerini alıp kişinin boyunu tahmin etmeye çalışacağız.

Sonuç

Backward Elimination ( Geri Eleme )

Her bir değişkenin sistem üzerine bir etkisi vardır. Bazı değişkenlerin sisteme etkisi yüksekken bazılarının azdır. Sisteme etkisi az olan bağımsız değişkenlerin ortadan kaldırılması daha iyi bir model kurmamıza olanak sağlar. Backwar d Elimination yöntemini kullanarak daha iyi modeller oluşturabiliriz.

  1. P değerini seçin ( Genellikle bu değer 0.05 olur)
  2. Tüm bağımsız değişkenleri dahil ettiğiniz bir model kurun
  3. Her bir bağımsız değişkenin p değeri incelenir. Eğer Pdeğeri model için belirlenenden daha büyük ise bu bağımsız değişken modelden çıkarılır. Tekrar çalıştırılır.
  4. Bütün p değerleri belirlediğimiz değerden küçük ise modelimiz hazırdır.

Aşağıdaki kodu yukarda belirttiğimiz kodun altına yazarsanız istenen çıktıyı alabilirsiniz.

OLS ( Ordinary Least Squares ) Sonucu

Kırmızı daire içine alınan alan P değerlerimizdir. x5 ( kilo) kolonu bizim belirlediğimiz P değerinden ( 0.05 ) yüksektir. Bir sonraki adımda bu kolon çıkartılır ve program tekrar çalıştırılır. Kırmızı dairedeki tüm değerler P değerinden küçük oluncaya kadar bu işlem devam eder.

Sonuç

Hepsi bu kadar. Bu yazıda, Multiple Linear regression ( Çoklu Doğrusal regresyon ), P value, Dummy variable, Backward Elimination kavramlarını öğrendiniz.

Okuduğunuz için teşekkürler

--

--