Veri Bilimi İçin İstatistik

Mehmet Yalçın
Data Runner
Published in
4 min readJul 10, 2019

Bu yazı ile başlayacağım yazı dizisinde gittikçe daha da popüler hale gelen Veri Bilimi’nde istatistiğin rolünü anlatmaya çalışacağım. İlerleyen yazılarda ise veri setlerini anlama ve istatiksel model kurma aşamalarında neler yapılması gerektiğini Python uygulamaları ile birlikte inceleyeceğim.

Öncelikle kısaca Veri Bilimi’nin tanımını yapacak olursak; verileri anlamaya, geçmiş verilerden yola çıkarak belli istatistiksel modeller kurup geleceğe dönük tahmin yapmamızı sağlayan uygulamaların bütünüdür. Yüz tanıma sisteminden müşteri analizine, kanserli hücre tespitinden elektrik üretim-dağıtım tahmin sistemlerine kadar neredeyse her alanda buna ihtiyaç duyulmasından ötürü oldukça da popülerdir.

Veri Bilimi’nde istatistiğin rolüne geçmeden önce veriden bahsetmemek olmaz. Verilerin güvenilir ve problemin çözümüne giden yolda uygun tipte olması gerekir. Veriler bu anlamda tip olarak kalitatif ve kantitatif olmak üzere ikiye ayrılır. Bu verileri elde etmek için de kullanılan ölçek türleri ise 4 tanedir. (Nominal, ordinal, interval ve ratio)

1. Kalitatif (Nitel, Kategorik) Veriler:

Sınıflanabilen (Nominal): Birbirinden bağımsız isim bildiren, kod ve numara ile gösterilebilen, sınıflara ayrılan verilerdir. Sınıflar birbirinden bağımsızdır, aralarında hiyerarşik bir yapı olmaz. Medeni durum, cinsiyet gibi.

Sıralanabilen (Ordinal): Belirli bir miktar belirtmeyen, bir sıra ya da dereceye göre elde edilen verilerdir. Sıralı sınıflardır diyebiliriz. Akademik unvanları veya hastalığın evrelerini örnek olarak ele alabiliriz. Hastalığın başlangıç, gelişim ve ileri safhası diye sıralı sınıflara ayırabiliriz. Bunları sırasıyla 0 , 1 ve 2 diye numerik değişken haline getirip ele alabiliriz.

2. Kantitatif (Nicel) Veriler:

Aralıklı (Interval): Başlangıç noktası olarak sıfırı almayan, ondalıklı veya negatif değerler alabilen, ölçüm sonucu elde edilen verilerdir. Eşit aralıkların eşit mesafeleri temsil ettiği bir ölçek türüdür. Sayılar arasında oransal bir ilişki yoktur. Tansiyon ve hava sıcaklığı ölçümü gibi.

Oranlı (Ratio): Aralarında oransallık imkanı olan verilerin sayısal değerinin olduğu, matematik ve istatistik kullanımına olanak veren ölçek türüdür. Hasta sayısı, öğrenci sayısı, yıllık kazanç gibi.

Peki Veri Bilimi’nde istatistik nerede yer alır? Özetleyecek olursak;

Veri Bilimi’nin kalbinde istatistik yatar.

İlgilenenler bilir ancak yeni başlayanlar için söylemem gerekirse, eğer kodlama biliyorsanız ve herhangi bir veri setinde çalışacaksınız; veri setini anlayıp tanımak için, regresyondan görüntü işleme modeline kadar herhangi bir model kurmak için ve en sonunda anlamlı sonuçlara ulaşmak için başvuracağınız yer istatistiktir. Özellikle gerçek hayatla ilgili bir veri setiyle çalışıyorsanız sonuçlar konusunda dikkatli olmalısınız. Bu dikkati de sağlayacak olan şey istatistik ve istatistiği ne derece anladığınızdır. Sonraki yazılarda veri seti üzerinden problemi ele alıp uygulamalı olarak çözdüğümüzde daha iyi anlamış olacağız.

Peki bir problemi ele alıp, çözüp ve sonuçları elde etmemizi sağlayacak olan süreç nasıl gerçekleşir? Ben bunu basit anlamda üç ana başlık altında anlatacağım.

  1. Veri Toplama
  2. Betimsel İstatistik
  3. Çıkarımsal İstatistik

1. Veri Toplama

Analizini yapmak istediğimiz problemlerin veya çalışmaların ilk adımı elbette veri toplamaktır.

Veriler, anket ve deney-gözlem yoluyla olmak üzere iki yolla toplanır. Ancak üzerine çalışma yapacağımız konunun bütün gözlem değerlerine veya grubun bütün üyelerine; zaman, maliyet ve pratik olmaması faktörleri nedeniyle ulaşamayabiliriz. Bu nedenle ilgilendiğimiz gruptaki özellikleri en iyi şekilde yansıtan alt gruplar seçeriz. Bu alt gruplara örneklem, grubun tamamına da anakütle denir. Böylece örneklem üzerinde analizler yaparak anakütle hakkında mümkün olan en az hata payıyla fikir sahibi olmaya çalışırız.

Örnekleme seçilen verilerin kaliteli bir şekilde yansız toplanması problemin çözümüne giden adımının en önemlisidir. Örneğin; bir iş yerinde memnuniyet derecesini ölçmek için seçtiğimiz kişiler arasında asistan pozisyonda kimse olmazsa bu durumda yanlı bir veri toplamış oluruz. Böylece yapacağımız çıkarımlar yanlı ve gerçekten uzak olmuş olur.

Örneklem, “keyfi olarak istediğimiz değişkenleri seçme” dışında kısaca üç şekilde seçilir.

i) Rassal (Rastgele-random) Yöntemi: Anakütledeki her verinin eşit seçilme şansının olduğu ve rastgele olarak seçildiği örneklem tipidir.

ii) Katmanlı (Stratified) Rastgele Yöntemi: Anakütle önce birbirinden bağımsız katmanlara ayrılır sonra bunların içinden rastgele seçilerek örneklem oluşturulur. Örneğin bir hastanenin sorunları araştırılırken doktorlar, hemşireler ve diğer hastane personeli gibi gruplara ayrılarak o gruplar içindeki kişiler rastgele seçilir.

iii) Kümeleme (Cluster) Rastgele Yöntemi: Bir populasyonu çokça alt gruba ayırarak bunların içinden rastgele seçerek örneklem oluştulur. Gruplar heterojen değildir. Örneğin; bir ilin 9 ilçesindeki öğrenci başarı oranı yerinde incelemek istenirse, 9 ilçe birer alt grup olarak düşünülüp içlerinden rastgele 2 ilçe seçilir. Bu ilçeler içindeki oran incelenir ve anakütle hakkında çıkarım yapılır.

2. Betimsel İstatistik (Descriptive Statistics)

· Veri üzerinden matematiksel işlemler yaparak, tanımlayıcı istatistikler çıkarılır. Böylece veri seti daha iyi anlaşılır. Ortalama, standart sapma, ortanca vs. gibi

· Veriler görselleştirilir. Sayısal özetler, korelasyon, çizgi grafik ve histogram gibi.

3. Çıkarımsal İstatistik (Inference Statistics)

· Bilgisayar dilleri Python, R ya da uygulamalar üzerinden Makine Öğrenmesi veya başka metodlar kullanılarak istatiksel model kurulur.

· Modeller veri ile eğitilir.

· Eğitilen modelden yararlanılarak tahminler oluşturulur.

· Elde edilen tahminlerin ve sonuçların araştırılan veya gerçek hayat problemlerine nasıl uygulanabileceği, uygulandıktan sonraki sonuçların ne derece faydalı olacağı araştırılır.

Bahsettiğimiz süreci en iyi şekilde aşağıdaki görsel ile özetleyebiliriz.

Bu yazıyı daha çok giriş yazısı olarak tasarladığımdan matematiksel olarak bazı noktalara değinmedim. Sözel kısmın çoğunu bu yazıyla bitirmiş olmamdan mutluluk duyarak bir sonraki yazıda Betimsel İstatistik kısmını uygulamalı olarak anlatacağım.

Sorularınız veya yorumlarınız için twitter, linkedin üzerinden ulaşabilirsiniz.

--

--

Mehmet Yalçın
Data Runner

Lecturer — Data Analyst — Co-founder datarunnertr