Makine Öğrenimi Bölüm-6 (Regresyon)

E. Kaan Ulgen
Kodcular
Published in
3 min readJan 28, 2018

Uzun bir aradan sonra yine karşınızdayım. Malesef bir süre yazı yazamamıştım. Önümüzdeki haftalarda bu durumu telafi etmeye çalışacağım.

  • Nerede kalmıştık?

Geçen aylarda sizlere gözetimli öğrenme algoritmalarından k-En Yakın Komşuluk, Yapay Sinir Ağları, Destek Vektör Makinaları ve Karar Ağaçlarından bahsetmiştim. Bu yazımda ise “Doğrusal Regresyon” konusunu ele alacağim.

6.1 Doğrusal Regresyon

Regresyon veri kümesi içerisindeki değişkenler arasındaki ilişkileri incelemek için kullanılan istatistiksel bir yöntemdir. Genel itibariyle birçok bilim dalı tarafından kullanılan temel yöntemlerden biridir. Örnek olarak gözlenen galaksilerin uzaklaşma hızı ile uzaklıkları arasındaki ilişkiyi incelemek veya ülkelerin yaşam memnuniyetlerinin (kalitesi), GSYİH (Gayrisafi yurt içi hasıla)a bağlı olup olmadığını incelemek.

Doğrusal regresyon, farklı değişkenler arasındaki ilişkiyi modellemek için kullanılan en temel tekniktir. Çoğunlukla karmaşık analizlerin ilk basamağını oluşturmaktadır. Doğrusal regresyon bize normal dağılmış, hakkında veri toplanmış iki değişken arasında doğrusal ilişki olup olmadığını test etme olanağı verir. Değişkenlerden biri tahmin, biri sonuç değişkenidir.

Temel olarak “basit” ve “çoklu regresyon” olarak iki kısımda incelenmektedir. Basit regresyon bir tane bağımlı değişken bir tane de bağımsız değişkenden oluşmaktadır. Bağımsız değişkenler x vektörü, bağımlı değişkenler ise y vektörüyle gösterilirse regresyon ilişkisi aşağıdaki (denklem-1) gibidir (Basit Regresyon).

y = β0 + β1x + e

Burada:

  • β0 kesişim noktasını (intercept),
  • β1 bağımsız değişkenin regresyon katsayısını (coefficient),
  • e değeri ise hata değerini göstermektedir.

Çoklu regresyon ise, bir adet bağımlı değişken ve birden fazla bağımsız değişkenin bir arada bulunduğu modeldir. Gerçek dünyada, tüm verileri anlamlı bir şekilde tanımlayan doğrusal fonksiyonlar bulunmayabilir, bazı durumlarda veri kümemizi eğri bir fonksiyon ile tanımlayabiliriz. Yani polinom kullanabiliriz (Denklem-2 ve Denklem-3).

6.2 Python Uygulaması

Bu çalışma kapsamında kullanacağım veriler IMF (International Monetary Fund) ve OECD (Organization for Economic Cooperation and Development)’e aittir.

Kullanılan verilere ve kod’a buradan ulaşabilirsiniz.

Veriseti kullanıma hazır hale getirildikten sonra sırada Türkiyenin GSYİH ve Yaşam Memnuniyeti değerleri verilmektedir. Daha sonra ise tüm veri içerisinde bulunan ülkelerin GSYİH ve Yaşam Memnuniyetleri incelenmiştir. Bunun için python — sklearn kütüphanesi içerisindeki doğrusal regresyon modelinden yararlanıldı.

Yukarıdaki verilen denklemler “intercept” ve “coefficient” parametrelerini içermektedir. Buna göre tüm ülkelerin “GSYİH — GDP per capita” ve “Yaşam Memnuniyeti — Life Satisfaction” parametreleri incelendiğinde:

β0= 5.66

β1 ise = 2.45 x 10^-5 dir.

Elde edilen doğru denklemine göre Türkiyenin Yaşam Memnuniyeti tahmin edilmiştir. Buna göre Yaşam Memnuniyeti:

Yani y parametresi = 5.901'dir.

  • OECD verilerine göre ise Türkiyenin “Yaşam Memnuniyeti” puanı 5.5'dir.

Kaynaklar:

  1. http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
  2. Rapidminer ile Uygulamalı Veri Madenciliği (Ufuk Çelik, Eyüp Akçetin, Murat Gök)
  3. DATA -Veri Madenciliği Veri Analizi (Haldun Akpınar), Papatya Bilim, 2014
  4. https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=sr_1_3?ie=UTF8&qid=1517174437&sr=8-3&keywords=machine+learning+python

--

--