Makine Öğrenmesi Algoritmaları ile Alman Kredi Risk Tahmini
Herkese merhabalar, ilk yazımda Kaggle platformunda bulunan Alman Kredi Riski veri kümesini inceleyeceğim. Bu çalışmada Yaş, Cinsiyet, Meslek, Ev Sahipliği, Tasarruf Hesabı, Vadesiz Hesap, Kredi Miktarı, Zaman ve Amaç öznitelikleri bulunan veri kümesinde kredi kullanım amaçları, mevduat hesapları ve kredi miktarlarını inceledikten sonra makine öğrenmesi algoritmalarının nasıl uygulandığını göreceğiz.
Haydi başlayalım!
1. Veri Kümesinin İncelenmesi
Öncelikle kütüphaneleri ve veri kümesini yüklemek için;
Veri kümesinde öznitelikler arasında ilişki olup olmadığını anlamak için korelasyon katsayılarına bakmamız bize yardımcı olacaktır.
Veri kümesi içerisinde eksik verilerin sayılarını ve oranlarını görmek için;
Veri kümesinde her farklı değerden kaç tane olduğunu görebiliriz.
Dropna = False; Eğer NaN değer var ise bize bu değerleri gösterir.
Verileri analiz etmeden önce eksik verilerin nasıl doldurulacağı konusu önemlidir. Bende burada kategorik değişkenlerimizi mode yöntemiyle doldurmayı tercih ettim.
Mode yöntemi uygulandıktan sonra veri kümesinin ilk 5 satırını görmek için;
Buraya kadar yapılan tüm işlemler veri kümesini tanımlama ve filtreleme işlemlerini içeren temel fonksiyonları ele almaktadır.
2. Veri Görselleştirme Aşaması
Veri kümesi özniteliklerinin dağılımını görmek amacıyla veri görselleştirme kütüphanelerinden yararlanarak devam edeceğiz.
Verilen kredilerin hangi amaçla alındığını görmek için;
Veri görselleştirme aşamasından sonra makine öğrenmesi algoritmalarını uygulamak için veri kümesinde bazı düzenlemeler yapıyoruz.
Kategorik değişkenlerin dönüştürülmesi için Label Encoder yöntemini uygulayacağız. Önce kütüphanemizi yükleyip ardından kategorik sütunları nümerik hale getireceğiz.
3. Makine Öğrenmesi Algoritmalarının Uygulanması
Burada Cinsiyet özniteliği baz alınmıştır. Öncelikle;
- Algoritmalara ait kütüphaneleri yüklüyoruz,
- Veri kümesini test ve train olarak ayırıyoruz.
Tüm sonuçları bir arada görmek istediğim için veri görselleştirme yöntemine başvuruyorum.
Makine Öğrenmesi alanında sık kullanılan algoritmaları uyguladığımızda en iyi sonucu veren algoritma %72.40 ile Random Forest oldu.
Yazımız burada sona eriyor. Eğer öneri veya eleştirileriniz varsa bana LinkedIn hesabımdan ulaşarak iletebilirsiniz.
Ayrıca yazının kodlarına ulaşmak ve detaylı olarak incelemek isterseniz linkler;
Github: https://github.com/baharzurnaci/Proje-German-Credit-Risk/blob/master/proje_german_credit_risk.py
Kaggle: https://www.kaggle.com/baharz6/german-credit-risk
https://www.linkedin.com/in/baharzurnaci/
Okuduğunuz için teşekkürler!