Makine Öğrenmesi Algoritmaları ile Alman Kredi Risk Tahmini

Bahar Özdemir
Kodluyoruz
Published in
3 min readDec 13, 2019

Herkese merhabalar, ilk yazımda Kaggle platformunda bulunan Alman Kredi Riski veri kümesini inceleyeceğim. Bu çalışmada Yaş, Cinsiyet, Meslek, Ev Sahipliği, Tasarruf Hesabı, Vadesiz Hesap, Kredi Miktarı, Zaman ve Amaç öznitelikleri bulunan veri kümesinde kredi kullanım amaçları, mevduat hesapları ve kredi miktarlarını inceledikten sonra makine öğrenmesi algoritmalarının nasıl uygulandığını göreceğiz.

Haydi başlayalım!

1. Veri Kümesinin İncelenmesi

Öncelikle kütüphaneleri ve veri kümesini yüklemek için;

Veri kümesine ait ilk 5 öznitelik bilgisi
Veri kümesine ait string olmayan nümerik değerler
Veri kümesi ile ilgili bellek kullanımı ve veri istatistikleri

Veri kümesinde öznitelikler arasında ilişki olup olmadığını anlamak için korelasyon katsayılarına bakmamız bize yardımcı olacaktır.

Zaman ve Kredi Miktarı arasında %62 oranında ilişki olduğu gözlemlenmektedir.
Shape bir özelliktir ve metod olmadığı için parantez kullanılmamıştır.
Veri kümesinin kaç satır ve sütundan oluştuğu bilgisini verir.
Veri kümesine ait sütunlarımızı gösterir.
Veri kümesinde bulunan benzersiz türleri görebiliriz.

Veri kümesi içerisinde eksik verilerin sayılarını ve oranlarını görmek için;

Veri kümesinde her farklı değerden kaç tane olduğunu görebiliriz.

Dropna = False; Eğer NaN değer var ise bize bu değerleri gösterir.

Verileri analiz etmeden önce eksik verilerin nasıl doldurulacağı konusu önemlidir. Bende burada kategorik değişkenlerimizi mode yöntemiyle doldurmayı tercih ettim.

Mode yöntemi uygulandıktan sonra veri kümesinin ilk 5 satırını görmek için;

Buraya kadar yapılan tüm işlemler veri kümesini tanımlama ve filtreleme işlemlerini içeren temel fonksiyonları ele almaktadır.

2. Veri Görselleştirme Aşaması

Veri kümesi özniteliklerinin dağılımını görmek amacıyla veri görselleştirme kütüphanelerinden yararlanarak devam edeceğiz.

Verilen kredilerin hangi amaçla alındığını görmek için;

Veri görselleştirme aşamasından sonra makine öğrenmesi algoritmalarını uygulamak için veri kümesinde bazı düzenlemeler yapıyoruz.

Kategorik değişkenlerin dönüştürülmesi için Label Encoder yöntemini uygulayacağız. Önce kütüphanemizi yükleyip ardından kategorik sütunları nümerik hale getireceğiz.

3. Makine Öğrenmesi Algoritmalarının Uygulanması

Burada Cinsiyet özniteliği baz alınmıştır. Öncelikle;

  • Algoritmalara ait kütüphaneleri yüklüyoruz,
  • Veri kümesini test ve train olarak ayırıyoruz.

Tüm sonuçları bir arada görmek istediğim için veri görselleştirme yöntemine başvuruyorum.

Makine Öğrenmesi alanında sık kullanılan algoritmaları uyguladığımızda en iyi sonucu veren algoritma %72.40 ile Random Forest oldu.

Yazımız burada sona eriyor. Eğer öneri veya eleştirileriniz varsa bana LinkedIn hesabımdan ulaşarak iletebilirsiniz.

Ayrıca yazının kodlarına ulaşmak ve detaylı olarak incelemek isterseniz linkler;

Github: https://github.com/baharzurnaci/Proje-German-Credit-Risk/blob/master/proje_german_credit_risk.py

Kaggle: https://www.kaggle.com/baharz6/german-credit-risk

https://www.linkedin.com/in/baharzurnaci/

Okuduğunuz için teşekkürler!

--

--

Bahar Özdemir
Kodluyoruz

Data Analyst | Data Scientist | Econometrics 🚀