Machine Learning — Giriş— Part 1

Ekrem Hatipoglu
3 min readJul 4, 2018

--

Machine Learning, matematiksel işlemler yaparak bir veri kümesi üzerinden belirli algoritmalar kullanarak çıkarımlar yapan ve tahminlerde bulunan sistemlerin bilgisayarlar ile modellenmesidir.

Makine Öğrenmesinin Popüler Kullanım Alanları :

  • Pazarlama ( E-posta ve sosyal medyada duygu analizi )
  • Otomotiv ( Sensörlerle çalışan sürücüsüz araçlar )
  • Tıp
  • Konuşma tanıma ( Speech Recognition)
  • Eğlence

Gerekli Kütüphaneler

  • pandas : Python dilini kullanarak veri ön işlemeyi ve analizini kolaylaştıran açık kaynak kodlu bir kütüphanedir.
pip3 install pandas
  • numpy : Diziler üzerinde kolayca bilimsel hesaplamalar ( Fourier dönüşümü, sıralama, istatistik işlemleri vs. ) yapmayı sağlayan açık kaynak kodlu bir kütüphanedir.
pip3 install numpy
  • matplotlib : Açık kaynak kodlu bir grafik çizim kütüphanesidir. Matplotlib ile verileri görselleştirebiliriz. Hem iki boyutlu hem de üç boyutlu grafikler üretilebilir.
pip3 install matplotlib

Kütüphanelerin Projeye Eklenmesi

Not : Bu yazıda kullanılacak csv dosyasını buraya tıklayarak indirebilirsiniz.

Verilerin İçeri Aktarılması ( Data Import )

Veri yükleme işlemleri için pandas kütüphanesi kullanılır.

Verinin Data Frame Görüntüsü

Not : read_csv fonksiyonuna parametre olarak dosya yolu verilir. Kodu yazdığınız python dosyası ile csv dosyası aynı dizindeyse sadece csv dosyasının adını yazmanız yeterlidir.

Belirli bir sütun üzerinden işlem yapmak istiyorsak aşağıda şekilde sütunlara ulaşabiliriz.

Eksik Verileri İşleme ( Handle Missing Data )

Bazı makine öğrenme algoritmaları eksik verilerle çalışmaz. ( Tahmin algoritmaları vs.) Verilerimizi bu algoritmalara sokmadan önce eksik olanları çözmemiz gerekir. Eksik verilerin çözülmesinin birçok yolu vardır.

Biz bu örneğimizde ‘age’ sütunundaki tüm değerlerin ortalamasını alıp eksik olan yerleri bu değerle dolduracağız.

Not : Bu işlem için sklearn ve scipy kütüphanelerini pip yardımıyla projenize dahil etmeniz gerekmektedir.

Yukarıdaki kod çalıştırıldığında eksik olan kısımlara sütunun ortalaması atanır.

Sonuç

Kategorik Veriler

  • Ordinal : Aralarında büyüktür küçüktür ilişkisi kurulabilen, belli bir sıraya sokulabilen ancak ölçülemeyen verilerdir. ( Örneğin şehir plakaları 34 — İstanbul, 54 — Sakarya belirli bir sıraya sokulabilirler ancak Sakarya İstanbul’dan daha büyüktür gibi birşey söylenemez yani ölçülemez.)
  • Nominal : Hem ölçülemeyen hemde aralarında bir ilişki kurulamayan verilerdir.

Kategorik Verilerin Sayısal Verilere Çevrimi

OneHotEncoder ve LabelEncoder arasındaki fark

Verilerin Birleştirilmesi ve DataFrame Oluşturulması

Daha önceden eksik verilerin düzeltilmesi, kategorik verilerin sayısal değerlere dönüştürülmesi gibi işlemler için verimizi parçalara ayırmıştık. Çözümleme işlemi bittikten sonra çözümlediğimiz verileri tekrar birleştirmeliyiz. Bu işlem için pandas kütüphanesi kullanılır.

Birleştirdiğimiz DataFrame’ler

Sonuç

Hepsi bu kadar. Bu yazıda, Makine öğrenmesine küçük bir giriş yaptık. Verilerinizi nasıl içeri aktaracağınızı, eksik verileri çözümleyip tekrar birleştirmeyi öğrendiniz.

Okuduğunuz için teşekkürler.

--

--