Felsefesi ve Adımları ile Makine Öğrenmesi

Published in

Machine Learning Turkiye

4 min readJun 16, 2021

Nedir? Veriyi, makinenin anlayacağı dilde yani kodlar yardımı ile makinenin deneyim/bilgi kazanmasını sağlıyoruz; makine de öğrendiklerinden bilinmeyene dair tahminde bulunuyor.

Makine öğrenmesine neden ihtiyaç duyarız?

Hayatın birbirinden farklı alanlarında saliseler içerisinde sorunumuza en uygun olan çözümleri üretiyor. O çözümü beğenmedin ve sana güvenilir gelmedi mi? Hiç sorun değil çünkü parametreler ve veri ile oynayarak daha iyi performans elde etmek bizim elimizde.

İş yerlerinde; müşterilerin ne istediğini anlamak, gelecek beklentilerini en doğru karşılamaya çalışma amaçlı derin öğrenme bize fırsat yaratabilir.

Tıpta; teşhis uzmanlarına duyulan ihtiyacı azaltmayı amaçlayarak MR taramalarındaki kanser belirtilerini tespit edebiliyor.

Pazarlamada; hedef tüketicilerini anlamayı ve onlarla etkileşimlerini optimize etmeyi amaçlarlar. Buna en güzel örnek Target Pazarlama ekibi bir genç kızın geçmiş alışveriş deneyimlerini analiz ederek kimseye söylemediği halde hamile olduğunu tahmin eder ve mail adresine hamilelik ihtiyaçları için kampanyalar yollar.

Finansta; sahtekarlıklar tespit edilip hisse senedi fiyatlarını tahmin edilebilir. Aynı zamanda gelişmeler hakkında erken uyarılar vererek alınacak finansal kararlara olumlu etki edebilir.

Amacımız, hedef kriterimiz için gerçeğe en yakın olan tahmine ulaşabilmek. Bunu etkileyen faktörleri dörde ayırırsak ;

1.’si deneyim olarak sunduğumuz veridir. Veri ne kadar fazla ve farklı ise o kadar iyidir. İnsanlar için de aynısı geçerlidir, ne kadar çok deneyim elde edersek gelecek projemizde başarılı olma ihtimalimiz artar.

2.’si değişkenlerin mantıklı olarak var olmasıdır. Örneğin biz cinsiyet tahmininde bulunmak istiyorsak insanların hangi yemeği sevdiğini değişken olarak atamamız anlamsız iken boylarını almamız anlamlı olacaktır.

https://technogezgin.com/makine-ogrenmesi-nedir-ne-ise-yarar/

3.’sü stratejidir. Evlerin sahip olduğu özelliklere göre fiyatı tahmin edilirken regresyon kullanılırken bir mailin spam olup olmama durumunda sınıflandırma kullanılır.

4.’sü ise algoritmalardır. Veriyi aynı anda birkaç algoritma uygulayarak en yüksek gerçeğe yakın sonucu vereni seçebiliriz.

Tüm bu işlemlere başlamadan önce kullanacağımız veriyi en anlamlı şeklide hazırlayıp ondan sonra “öğrenebilirsin” dememiz gerekiyor. Veri madenciliği ve iş problemlerinde çözüm noktasına götürecek olan en yaygın analiz modeli olarak CRISP-DM (Veri Madenciliği için Çapraz Endüstri Standard Süreç Modeli) burada devreye giriyor ve makine öğrenme performansımızı iyileştirmeye yardım ediyor. Aynı zamanda bu modeli uyguladıkça karşımıza çıkacak olan gelecek sorunlarda/projelerde hatanın nerede olduğunu bulma hızımızın arttığı da düşünülüyor.

Makine Öğrenmesi için CRISP-DM Adımları

Flowchart ile oluşturduğum CRISP-DM model adımları.

adım -> Sorunu nasıl anlayacağız? Ben bu adımı daha çok yorumlama ve tartışma olarak görüyorum. Örneğin amacım cinsiyet tahmin etmek olsun. O halde sonuç E/K ya da 0/1 şeklinde olacak. O halde buna uygun olan algoritmaları not etmeliyim.
adım -> Sözel değişkenim var mı; var ise bunu sayısal hale getirebilirim, aşırı uç noktalarda değerlerim var mı sorularını sorduğum ve verimi görselleştirerek aralarındaki ilişkiye görebileceğim adım burası.
adım -> Verimizle oynayacağımız kısım. Bilinmeyen değerler var ise onlara ortalama, en yakınındaki değeri ya da modu atama gibi yöntemlerle boşlukları dolduruyoruz çünkü makine NA(bilinmeyen değer) sevmez. Bir özelliğin veri üzerindeki etkisi az olmasına rağmen sırf sayısal olarak büyük olduğu için küçük sayılar üzerindeki etkisini arttırabilir. Bunu engellemek için verimizi normalize (0–1 aralığına indirgeme) edebiliriz.
adım -> Verimizde hem farklı öğrenme modelleri uygulayabilir, hem de aynı modele ait farklı parametreler uygulayabiliriz. k-En yakın komşu, karar ağaçları, k-Ortalamalar algoritmaları, Basit Bayes sınıflandırıcıyı modellere örnek verebiliriz.

Veri bilimi okulu/hata matrisini yorumlama

5. adım ->Modeller kuruldu, sıra test etmekte. En sık kullanılan yötemlerden biri hata matrisidir. •TN(True Negative)=Hem tahminde hem gerçekte YOK olanlar, •TP(True Positive)=Hem gerçekte hem tahminde VAR olanlar, •FP(False Positive)=Tahminde VAR olup gerçekte yok olanlar ve son olarak •FN(False Negative)=Gerçekte VAR olup tahminde YOK çıkan sonuçlardır. Böyle bir matriste doğruluk oranı şu şekilde bulunur : TP + TN / TOPLAM. Hata oranımız ise 1-(eksi)doğruluk oranıdır.

6. adım ->Seçtiğimiz model ya da modeller hazır! Artık dilediğimiz sisteme uygulayabiliriz.

Kendinize çok iyi bakın ve hoşça kalın!

Kaynakça :
•Veri Madenciliği ve Makine Öğrenmesi-Mehmet Erdal Balaban & Elif Kartal (Kitap linki)
•https://www.veribilimiokulu.com/hata-matrisini-confusion-matrix-yorumlama/
•https://www.dunyahalleri.com/makine-ogrenmesi-derin-ogrenmenin-populer-kullanim-alanlari/
•https://www.smartmind.com.tr/yapay-ogrenmenin-machine-learning-kullanim-alanlari-i-930

Felsefesi ve Adımları ile Makine Öğrenmesi

Makine öğrenmesine neden ihtiyaç duyarız?

Makine Öğrenmesi için CRISP-DM Adımları

Written by Fadime Akdoğan