İstatistik ve Veri Ön İşleme Workshop üzerine

Mehmet Yalçın
Kodluyoruz
Published in
4 min readJun 24, 2020

Geçtiğimiz haftalarda Kodluyoruz’un desteğiyle ve Gizem Aşıcı’nın mükemmel planlamasıyla İstatistik ve Veri Ön İşleme üzerine bir çalışma grubu kurarak bu alan üzerine çalışma imkanına eriştik. Ayrıca bilgisini ve zamanını grupta bizlerle paylaşan Jiyan Aytek’e de teşekkür etmek isterim.

Daha önce işim gereği ders anlatsam da bu workshopta Veri Bilimi alanında olan veya alana girmek isteyen birçok donanımlı katılımcı ile çalışma imkanına eriştiğim için heyecanlandım. Yoğun bir ön başvuru sonrası belli sayıda katılımcı seçmek zordu, ama başvuruda bulunan herkesin yolu bir gün Kodluyoruz ile kesişiyor, bundan emin olabilirsiniz.

Photo by Jo Szczepanska on Unsplash

Kodluyoruz bünyesindeki çalışma gruplarının temel mantığı, bootcamplerden farklı olarak daha katılımcı üzerinden ilerlemesi diyebilirim. (Tabi eğitmenin yönlendirmesi ile :)

Ben de Kodluyoruz’un Uygulamalı Veri Bilimi Bootcamp mezunlarından biriyim. Mezunu olduğum bu çatı altında çalışmalarda bulunmak ayrıca keyifli oldu. Zaten bir kere Kodluyoruz’da bulunursanız bir daha ayrı düşmek istemiyorsunuz. O nedenle toplum yararına olan projelerden oluşan DSPG projesinin de program asistanlarından biriyim.

Bu yazımda da çalışma grubunda katılımcılarla birlikte üzerine değindiğimiz konuların bir derlemesini yapmaya çalışacağım.

İlk Soru: İstatistik Veri Bilimi’nin neresinde yer alır?

Bu hep sorulan soruların başında geliyor. İstatistik üzerine çalışan biri olarak sizi temin ederim ki İstatistik başlı başına bir alan. İstatistik 5 günde bitmiyor ne yazık ki, ancak belki biraz daha zamana yayılarak öğrenilmesi ve veri bilimi üzerine de fikir verecek kitaplar işe yarayabilir. Alanları bağdaştırmak adına daha faydalı olabilir. İstatistik her zaman net olarak alınıp çözülerek yapılan bir problem olmayabiliyor. Örnek vermek gerekirse Makine Öğrenmesi içinde neredeyse her aşamada kısım kısım kullanıyorsunuz. Bu bazen çok net oluyor bazen de daha kapalı. Bu özellikle okumalarla ve projelerde üzerine çalıştıkça kazanılan bir tecrübe oluyor.

Veri setini ele aldıktan sonraki süreçte model dahil olmak üzere İstatistik hep mevcut. Zaten kullandığımız modeller; genel olarak, varsayımların olduğu İstatistik tabanlı modeller… Ancak veri setinin büyüklüğü ve uygulama yönünden varsayımların güçlüğü nedeniyle bu varsayımlar kenara bırakılarak modeller kurulabiliyor.

Photo by Isaac Smith on Unsplash

Çalışma grubunda da üzerine konuştuğumuz gibi, Veri Tipleri ve Veri Toplama Yöntemleri’nden başlayarak dağılımlar, hipotez testleri, güven aralıkları ve bunların gerçek hayat uygulamaları üzerinde durulabilir. Özellikle benim tercih ettiğim çalışma stili mümkün olduğu kadar kavramların gerçek hayattaki yansımalarını ve bunların problemlerini ele almak. Örnek vermek gerekirse bu yazımda normal dağılımın bir olası gerçek hayat problemindeki yansımasını kısaca ele almıştım. Çünkü seçmeli veya zorunlu bir çoğumuz İstatistik dersini aldık. Bu alanda biraz daha kendi çalışmalarımızla ve gerçek hayatla bağdaştırarak ilerlemek kullanışlı olacaktır diye düşünüyorum, tabi mantığını anlayarak.

2. Soru: Veri Ön işleme neden önemli ve İstatistik hangi aşamalarında kullanılır?

Özellikle Makine Öğrenmesi modellerinin kalbi Veri Ön İşleme kısmında yer alır. Veriyi modele götürme süreci en çok vakit harcanan bölüm olur genellikle. Kullandığımız modeller özellikle uzaklık tabanlı modeller ise KNN, SVM gibi Veri Ön İşleme daha da önemli yer tutar. Çünkü yaptığınız küçük hatalar ve tembellikler modeliniz üzerine önemli negatif etkiler yaratır.

Veriyi ele aldıktan sonraki aşamaları özetlersek; veriyi ele aldıktan sonra ilk bakacağımız kavramlar betimleyici istatistikler olur. Yani daha ilk dakikadan için işine giriyor İstatistik. Veri setine ilk bakışta daha iyi anlamak için Merkezi Eğilim ve Dağılım Ölçüleri‘ni inceleyebiliriz.

Bu aşamada yapılan işlemleri özet Doç. Dr. Deniz Kılınçın hazırladığı görsel üzerinden gösterelim:

Betimleyici İstatistikler ve veri seti üzerinde değişkenleri inceleyerek veriyi tanıdıktan sonra yine çok önemli bir yer tutan Eksik Verilere bakmak gerekir.

Eksik Veri

Veri setinde özellikle gerçek hayattan alınmış ise illa ki içinde eksik değerler söz konusu olacaktır. Bu değerleri incelemek gereklidir. Eksik değerlere sahip olduğunuzda işlemler yapamaz, model kuramazsınız.

Öncelikle bunların rassal olup olmadığına bakılmalıdır. Yani istatistiksel bakış açısına devam…

Eksik verileri doldurmadan(ortalama, medyan, regresyon yöntemleri ile…) önce eksik verilerin yapısal bir sorun dolayısıyla oluşup oluşmadığına bakmak gereklidir. Örneğin; bir veri setinde “Gelir” kolonuna baktığınızda içinde eksik değerlerin de olduğunu gördünüz. Ama atama veya doldurma işleminden önce biraz daha inceleyince sadece “Meslekler” kolonundaki “Öğretmen” sınıfına karşılık gelen değerlerin eksik olduğunu tespit ettiniz. Bunun adı yapısal sorundur ve ciddi bir problem var demektir. Yapacağınız atama yöntemleri yanlı bir sonuca yol açacaktır. Dikkat ederseniz Eksik Veri Analizi kısmında da İstatistik alanından bayağı faydalandık.

Aykırı Değer (Anomali Tespiti)

Aykırı değerler, değişkendeki diğer değerlerden sap değerlerdir. Yine bunları İstatistiksel yöntem olan IQR yöntemi ile tespit edebiliriz. Kullandığımız makine öğrenmesi modellerinin çoğu aykırı değerlere karşı dirençsizdir. Bu sapmalar modeli yanıltır. Bu nedenle aykırı değerlere baskılama veya doldurma işlemleri yapabiliriz ya da işlem yapmayarak aykırı değerlere dirençli modelleri tercih edebiliriz.

Yazı planladığımdan uzamaya başladığı için Veri Ön işleme kısmında sonraki aşamaları en azından başlık olarak belirteyim.

Sonraki aşamada değişkenler arasındaki korelasyona bakılabilir. Değişkenler arasındaki yüksek korelasyon modeli yanıltacaktır. Normalizasyon, Ölçeklendirme işlemleri ile değişkenlerin ölçekleri veya dağılımları birbirine yaklaştırılır. Veri setinde bulunan tüm değişkenleri kullanmak zorunda değiliz. Aslında tahmini en az değişkenle yapmak en doğru olanıdır. Bu nedenle değişken seçimi yapabiliriz(feature selection). Ve bunların sonunda da elbette model oluşturma

Veri Ön İşleme sürecini özet olarak ele aldım. Çalışma grubunda da bu aşamalar üzerine yoğunlaştık. Çalışma grubumuzla ve daha başka çalışma grupları ile üretmeye devam edeceğiz. Sizler de bu aşamaları bireysel olarak da kaydedebilirsiniz.

Çalışma gruplarına ve bootcamplere katılım için takipte kalınız, hoşçakalınız.

--

--

Mehmet Yalçın
Kodluyoruz

Lecturer — Data Analyst — Co-founder datarunnertr