Bankacılıkta Karar Ağaçları

Tugce Kagnici
Fiba Tech Lab
Published in
6 min readApr 4, 2022

Bu yazımda karar ağaçlarının (Decision Tree) bankacılık sektöründe kullanımı konusunu ele alacağız. Karar ağaçları nedir? Hangi problemlerin çözümü için tercih edilir? Avantajları ve dezavantajları nedir? Sorularının cevaplarını mümkün olduğunca teknik detaylara girmeden paylaşmaya çalışacağım.

Bankacılıkta Karar Ağaçları

Bankacılıkta yeniliğin az olmasının en büyük nedenlerinden biri bankaların risk ve getiriyi doğru bir şekilde anlamak için gerekli araçlara ve deneyime sahip olmamalarıdır. 2007–2008 küresel mali krizi, bankacılık uygulamalarında şeffaflığın ve titizliğin önemini vurgulamıştır[1]. Kredi verirken doğa bilecek riskleri minimize etmek için bankalar kredi verme konusundaki kurallarını her geçen gün giderek katılaştırmaktadır. Özellikle riskli kredileri daha doğru bir şekilde belirlemek için karar verme ve risk yönetimi çerçevesinde kullanılan araç ve yöntemlerin başında “karar ağaçları (Decision Tree)”gelmektedir.

Karar ağaçları yardımı ile yeni bir ürüne yatırım konusunda projenin her aşamasındaki iyi ve kötü senaryonun ölçümü yapılabilir. Böylelikle ürünün gelişiminden piyasa sürümüne olan yolculuğunda herhangi bir aşamasındaki başarısızlık sonucunda doğa bilecek maddi kayıpların önüne geçebiliriz[2].

Gelişen teknoloji sayesinde birçok bilgi günümüzde elektronik ortamda yer almaktadır. Elektronik ortamda yer alan kişisel veya kurumsal açıdan önemli bir bilginin başkalarının eline geçmesi, maddi ve manevi zararlara yol açması aynı zamanda kurumun itibarını kaybetmesi gibi büyük çaplı sorunların yaşanmasına neden olmuştur[3]. Bankalarda siber saldırı tespit sistemleri ile sistemlere yapılan yetkisiz erişimler ve kötüye kullanımlar tespit edilerek, bunların yol açabileceği zararlar engellenmeye çalışılmada yüksek doğruluğa ve kesinliğe sahip yöntemlerden biri olan “karar ağaçları” yine tercih edilmektedir.

Değindiğimiz örneklerin yanı sıra yine pek çok konuda bankalar rekabetçi piyasa koşullarında, kazançlarını ve kar oranlarını artırmak için veri madenciliği yöntemlerinden biri olan “karar ağaçlarını” oldukça sık kullanmaktadır.

Peki Karar Ağaçları Nedir?

Karar ağaçları ağaç tabanlı bir algoritma olup en çok tercih edilen gözetimli öğrenme algoritmalarından birisidir.

Ağaçlar akış şemasına benzer bir yapıdadır. Yapıdaki her bir öznitelik bir düğüm tarafından temsil edilir. Ağacın ögeleri kök, dallar ve yapraklardır. En üst yapı “kök” en son yapı ise “yaprak” olup arada kalan yapılar ise “dal” olarak isimlendirilir [4].

Basitçe bir örnek üzerinden anlatacak olursak;

Bir bankada aşağıdaki şekilde veri tabanında toplanan verileri kullanarak bir ikili sınıflandırma yapmak istiyoruz. Belli özelliklere sahip olan kişilerin kredi alma durumu “var”, özellikleri sağlamayan kişileri ise “yok” olarak sınıflandırmayı amaçlıyoruz.

Öncelikli olarak ilk adımda kök düğümüne karar verilmesi gerekmektedir. Kök düğüm için hesaplamaya başlamadan önce burada bazı kavramları açıklamamız gerekiyor;

· Entropi (Entropy): Bir sitemdeki belirsizliğin ölçüsüne denir. Entropi kavramı kullanılarak ağacın dallanması belirlenebilir.

· Bilgi Kazanımı (Information Gain): Düğümün bölünmesi sonucunda elde edilen bilgi ölçmek için başvurulan ifadedir.

Kavramlar üzerinden örneğimize dönecek olursak;

Tabloyu incelediğimiz zaman 14 müşteriden 5 tanesinin kredi alma durumu “yok” iken 9 tane müşterinin ise “var” olduğunu görmekteyiz.

Sistemin Entropi değeri:

Hsistem= I(9,5) = — 9/14 log2(9/14)-5/14 log2(5/14)= 0,940 *Burada log2 tabanını kullanmamızın nedeni ağacın 2 ye ayrılmasını istediğimiz için.

Şimdi ise sistemdeki her bir özniteliğin entropi değerini hesaplayacağız. Bu saya de ağacın en tepeden hangi özniteliğe göre bölünebileceğini belirlemiş olacağız.

Yaş için hesaplama yaparsak tabloda üç değerimizin olduğunu görüyoruz: <=30,30…40,>40. Tablodaki 14 satır için yaşın entropisini hesaplarsak:

Benzer adımlarla diğer öznitelikler için hesaplama yapıldığında;

Gain(çalışıyor) =0,151 < Gain(gelir)=0,029 < Gain(başka banka kredisi var)=0,048

Olarak bulunur. Elde edilen en yüksek kazanç yaşa ait olduğu için ağacı yaş özniteliğinden bölmeye başlıyoruz. Böylece ağacın daha dengeli bölünmesi yani daha iyi parçalanması sağlanmış olur.

Bir sonraki adımda yaş<=30,yaş=31…40 ve yaş>40 olanları kendi arasında bölmek için diğer öznitelikler(gelir, çalışıyor, başka banka kredisi var) için information gain değerleri tekrardan hesaplanır[6].

Sonuç Olarak Elde Edilen Karar Ağacı:

Şekilde basit bir sınıflandırma ağacı elde edilmiş olduk.

Bazı önemli diğer kavramlar:

· Gini Index: Gini indeksi, rastgele seçilen bir öğenin ne sıklıkta yanlış tespit edildiğini ölçmek için kullanılan bir metriktir.

· Budama(Pruning): Karşılaşılan overfit durumunun çözümünde kullanılarak karar ağacının isabetli sınıflama oranına yeterince katkı yapmayan dallarda yer alan değişkenlerin modelden çıkartılmasıdır[7].

Karar Ağacı Çeşitleri Nelerdir?

Karar Ağaçlarında dallanmanın hangi kritere göre olacağı önemli sorulardan biridir. Her farklı dallanma kriteri için bir karar ağacı algoritması bulunmaktadır.

Entropiye dayalı en yaygın kullanılan algoritmalar; ID3 ve C4.5 algoritmalarıdır. Karar ağaçları ile sınıflandırma problemini çözebilmek için Quinlan tarafından geliştirilmişlerdir. Bu yöntem ile karar ağaçlarını hangi niteliğe göre dallanmanın, bölünmenin belirlenmesinde düzensizliğin ölçütü olan entropi kavramına başvurulur[4].

Sınıflandırma ve regresyon ağaçları (CART: Classification And Regression Trees) veri madenciliğinde sınıflandırma ile ilgili önemli konulardan biridir. Breiman tarafından ortaya atılan CART karar ağaları her bir düğümden sonra dallanmanın ikiye ayrılmasına dayanır. CART yöntemleri arasında: Twoing, Gini ve regresyon ağaçları algoritması yer alır[4].

Hangi Problemlerin Çözümü İçin Tercih Edilir?

Karar ağaçları mevcut verileri kullanarak yeni verilerin hangi sınıfa ait olduğu konusunda kural seti oluşturarak karar vermektedir. Karar ağaçları, sorulan sorular ve alınan cevaplar doğrultusunda hareket etmektedir. Sorulan sorulara alınan cevapları birleştirerek kurallar oluşturulmaktadır. İlk adım ağacın kök düğümü ’nü oluşturan özniteliğin belirlenmesi için soru sormaya verideki hangi değişkenle başlanacağı konusunda karar verilmesi gerekmektedir. Kök düğümden başlayarak, cevabı veri tabanında bulunan sorular sorulup alınan cevaplara göre yeni düğümler oluşturulmaktadır.

Veri madenciliği problemlerinden olan sınıflandırma(classification) ve tahminleme (regression) problemleri başta olmak üzere tesadüfi orman(random forest), gradyen güçlendirme (gradient boosting) gibi pek çok veri bilimi probleminin çözümünde yaygın olarak kullanılmaktadır.

Veri madenciliğinde önemli konulardan biri olan sınıflandırma; verinin içerdiği ortak özelliklere göre ayrıştırma işlemidir. Örneğin kredi almak için başvuruda bulunan banka müşterilerinin banka tarafından risk durumu değerlendirilerek “iyi” ve ya “kötü” sınıflandırılması ve birbirinden ayırt edilmesi mümkündür. Başka bir örnek verecek olursak sosyal medya kullanıcılarının verileri kullanılarak kullanıcıların bir konu hakkındaki görüşlerini “pozitif” ve ya “negatif” sınıflandırarak kullanıcıların kutuplaşmalarını ölçebiliriz.

Karar ağacı avantajları nelerdir?

· Karar ağaçlarının harika yanı, esnek olmaları ve bir dizi olay olduğunda her zaman kullanılabilecek olmalarıdır.

· Kullanılan veri için ön hazırlık süreci diğer pek çok yönteme göre kısadır.

· Hem kategorik hem de sayısal veri değerleri ile çalışılabilir.

· İstatistiksel avantajlardan yararlanılarak modelle ifade edilmesi.

Karar sistemi öğeleri mi?

· “aşırı uydurma” (ezberleme) durumu ile karşılaşılabilinir. Çözüm için az sayıda nesneyi tasarlanabilir yaprak düğümler modelinden çıkartılabilir, budama yöntemi uygulanabilir.

· Model iyi bir şekilde oluşturulmaz ise çok fazla dallanmış şekillendirilebilir.

Özetle…

Basit, ince ve esnek yapılarının yanı sıra ilerleyebilecekleri ve yapay zeka programlaması ile çok projelendirme probleminde kullanımda. Yeni bir mağaza açmak, kredi vermek ve yeni bir kullanıcı segmenti için kullanım için kararlarda bu kullanımı kullanmak için riskler için en geniş kapsamlı yardımcı olacaktır.

Tuğçe Kağnıcı

— — — — — — — -* — — — — — — — - -

Kaynakça

[1]. https://rpubs.com/virag_l23/679613

[2]. https://www.linkedin.com/pulse/using-decision-trees-banking-why-innovation-makes-ekonomik-nichols

[3].http://www.set-science.com/manage/uploads/ISAS2018-Winter_0039/SETSCI_ISAS2018-Winter_0039_00266.pdf

[4].Veri Madenciliği Yöntemleri Bilgisayar Bilimleri ve Bilgisayar Mühendisliği DR.Yalçın Özkan sayfa:39–90

[5].https://medium.com/@k.ulgen90/makine-%C3%B6%C4%9Frenimi-b%C3%B6l%C3%BCm-5-karar-a%C4%9Fa%C3% A7lar%C4%B1-c90bd7593010#:~:text=Algoritma%20se%C3%A7imi%2C%20hedef%20de%C4%9Fi%C5%9Fkenin%20tipine,verilerimizle%20ilgili%20belirsizli%C4%9Fin%20bir%20 %C3%B6l%C3%A7%C3%BCs%C3%BCd%C3%BCr.

[6].https://bilgisayarkavramlari.com/2012/04/11/karar-agaci-ogrenmesi-decision-tree-learning/

[7].https://laptrinhx.com/cost-complexity-pruning-in-decision-trees-1361930601/

[8].https://orchidstheinternationalschoolsarjapur.wordpress.com/2020/11/16/health-tree/

--

--