Python ile Temel Veri Analizine Giriş
Python veri analizi ve makine öğrenimi projelerinde sıklıkla kullanılmaktadır. Veriyi modellemeden önce de veri ile ön hazırlık çalışmaları yapılmalıdır. Veri ön hazırlık, veriyi daha iyi analiz edilebilir hale getirmek için yapılan çeşitli işlemleri içermektedir.
Çalışmada kullanılacak olan veri https://www.kaggle.com/datasets üzerinden elde edilen anonim verilerdir.
Verinin genel görünümüne bakacak olursak; gelir, medeni durum, cinsiyet, eğitim seviyesi, yaş ve kredi skoru değişkenleri bulunmaktadır.
Kategorik olmayan değişkenlerin detaylı gönürünümlerinde değişkenlerdeki değer sayılarının farklı olduğu görülmektedir.
Çalışmadaki değişkenlerin veri tipi aşağıda görülmektedir.
Değişken tiplerine daha detaylı bakmak için info() kullanılabilir.
Çalışmadaki kayıp değelerin kontrolünü yaptğımızda eksik verilerin olduğu görülmektedir.
Yöntem olarak kayıp değerlerin kaldırılması tercih edilmiştir.
Kategorik değişkenlerin detaylı durumunu aşağıdaki görüntüden inceleyebiliriz.
Aşağıdaki görüntülerde cinsiyete göre gelir, yaş ve kredi skoru bilgileri görülmektedir. Yorum olarak bu veri seti için erkeklerin kadınlara göre ortalama olarak daha yüksek gelire ve kredi skoruna sahip olduğunu söylenebilir.
Aşağıda eğitim durumuna göre gruplama yapıldğında en yüksek geliri olanlar doktora, yüksek lisans ve lisans şeklinde sıralandığı görülmektedir.
Eğitim durumuna göre kredi skoruna bakıldığında yine sıralamanın aynı olduğu görülmektedir.
Şuana kadar yapılan bölümde genel olarak veriyi temizlemeden verinin genel görünümü hakkında bilgi elde edilmiştir. Veriyi daha doğru yorumlayabilmek ya da veriyi makine öğrenmesi çalışmasında kullanmak isteniyor ise farklı işlemler uygulanması gerekmektedir.
Bu işlemleri temel olarak: Kategorize değişkenlerin sayısallaştırılması, uç değerlerin kaldırılması, standartlaştırma veya normalizasyon şeklinde ifade edebiliriz.
Veri analizi, makine öğrenmesinde kullanılan temel kütüphaneler aşağıdaki gibidir.