Normal Dağılım ve Veri Bilimi’ndeki Yeri

Mehmet Yalçın
Data Runner
Published in
5 min readJul 23, 2019

Bu yazıda, veri bilimi uygulamalarında sıkça duyduğumuz “normal dağılım” kavramından ve neden önemli olduğundan kısaca bahsedeceğim.

Öncelikle dağılım dediğimiz herhangi bir olay hakkında tutulan gözlem değerlerinin sayısal olarak dökümüdür. Bu gözlem değerlerinin olasılık olarak gerçekleşme durumlarına da olasılık dağılımı denir. Kesikli ve sürekli olasılık dağılımı olmak üzere iki kategoride incelenir.

1. Kesikli Olasılık Dağılımı

Sayılabilir veya sonlu değişkenlerin gerçekleşme durumlarının olduğu dağılımdır. Örneğin; bir zar atılma deneyini incelersek, “5 sayısının gelme olasılığı 1/6” olacaktır. Bu dağılımda olasılığını araştırdığımız değişkenlerin tam sayı olması gerekmektedir. Mesela zarın “1,2 gelme olasılığına” bakamayız. Aynı şekilde para atma deneyi de bir kesikli olasılık dağılımıdır.

Grafik1: Bir paranın atılma deneyine bakarsak P(X=x) grafiğinde alacağı değerler verilmiştir. Yazı ya da tura gelme olasılığı 1/2 dir. Diğer grafikte ise kümülatif olarak olasılık dağılımı gösterilmiştir. Grafiklerin de süreksiz olduğu görülmektedir.

2. Sürekli Olasılık Dağılımı

Bu dağılımda, bir aralıktaki sonsuz sayıda değişkenin olasılıkları mevcuttur. Genel olarak ölçüm yoluyla elde edilen değişkenlerin olasılıkları incelenir. Örnek vermek gerekirse; fiyat, uzunluk, ağırlık ve boy bu dağılımda yer alır. Kısaca değişkenler süreklidir ve ondalıklı değerler alabilir. Tabi bu sürekli değişkenlerin olasılıklarını yukarıdaki grafiklerdeki gibi hesaplayamayız. Grafik-2'de sürekli olasılık dağılımının gösterimine bakarsak daha iyi anlayacağız.

Grafik2: İstediğimiz aralığın olasılığı, taralı bölgenin alanına eşittir ve integral yardımıyla bulunur.

Özet niteliğindeki bu bilgilerden sonra şimdi asıl konumuza geçelim.

Normal (Gaussian) Dağılım

Sürekli olasılık dağılımları içinde en önemlisi normal dağılımdır. Çünkü günlük yaşamda gözlenen olaylar bu dağılıma uyar. Bir yatırımın aylık getirileri, üretilen ürünlerin ağırlıkları, boy uzunlukları ve IQ testi sonuçları gibi günlük yaşamdan bir çok örnek bu dağılıma örnek olarak verilebilir. Ayrıca istatistik çıkarsamalarında da temel dağılım olarak kullanılır.

Aşağıda olasılık yoğunluk fonksiyonu formülü verilmiştir. Ancak gözünüz korkmasın bu şekilde çözmeyeceğiz:) Yazının sonunda sık karşılaşılan bir örneğin çözümünü bulabilirsiniz.

Bu dağılımın özelliklerini şu şekilde sıralayabiliriz.

i. Aritmetik ortalama, mod ve medyan birbirine eşittir.

Grafik3

ii. Eğrinin maksimum noktası aritmetik ortalamadır.(dolayısıyla mod ve medyandır).

iii. Eğri aritmetik ortalamaya göre simetriktir.

iv. Aritmetik ortalamanın iki yanında kalan alanların değeri 0,5 dir. Elbette toplam alan 1 dir. (Zaten bildiğiniz üzere olasılık değeri 1 den büyük olamaz:)

Grafik4

v. Normal dağılımda verilerin çoğunluğu ortalama değerin çevresinde kümelenir. Yandaki grafikte net olarak göründüğü gibi, örneğin,değişkenlerin %99.7 kadarı aritmetik ortalamanın(μ) +- 3 standart sapma arasında yer almıştır.

Bu özellik normal dağılım gösteren bir olayda oldukça kullanışlıdır. Aritmetik ortalama ve standart sapma üzerinden genel bir yorum yapma imkanı verir.

Başka bir grafik üzerinden aslında biraz da klişe bir örnek ile anlatırsak: Diyelim ki büyükçe bir topluluk üzerinden örneklem seçilerek IQ ölçümü yapıldı. Ölçüm sonuçları ortalaması 100 ve standart sapması da 15 çıktı. Gerçek yaşamdan bir deney olduğundan rassal verilerin de normal dağılım gösterdiğini biliyoruz.

Grafik5

Bu durumda grafik5 üzerinden şu şekilde bir çıkarsama yapabiliriz.

Elimizdeki örnekleme göre ana kitlenin %68 inin IQ skoru: 85 ile 115 arasındadır veya %95'i 70–130 puanları arasında yer almıştır diyebiliriz.

Peki, “Veri Bilimi’ndeki yeri nedir?” diye soracak olursanız…

Yukarıdaki özelliklerini anlattığımız normal dağılım gerçek hayata en uygun dağılım olduğundan örneklem üzerinden ana kitle tahminlemesi daha az hatayla olur. Örneğin, bir veri setini incelediğinizde tanımsal istatikleri çıkarınca verilerin normal dağılım dağılmadığına bakarsınız. En basitinden, grafik çizdirirseniz eğer, yukarıdaki örnekler gibi çan eğrisine benzer grafik çıkarsa “normal dağılmış” demektir.

Eğer veriler normal dağılmışsa kuracağınız istatistiksel model daha kullanışlı olur, elbette yanlı olmayan doğru verileriniz mevcutsa... (Aynı şekilde başka bir yazıda anlatacağım veri üzerine sorgulamalar yapmamızı sağlayan parametrik hipotez testleri de bu dağılımla yakından ilgilidir.)

Eğer elinizde az veriniz ve rastgele kesikli bir dağılım varsa?

Bu durumda da devreye “Merkezi Limit Teoremi” giriyor. Bu teoreme göre; rastgele özdeş bir dağılım gösteren bağımsız değişkenlerden oluşan ana kitleden, yeterli büyüklükte rastgele toplanan örneklemlerin ortalamaları(veya toplamları) normal dağılım gösterir. Bu örneklem ortalamalarının orta noktası ana kitle ortalaması olacak şekilde bir normal dağılım oluşur. Böylece yukarıdaki normal dağılım özelliklerini kullanarak ana kitle hakkında yorum yapma ve hesaplama imkanı doğar.

Bu teoremde, örneklemdeki gözlem sayısının en azından 30 ve 30 dan büyük olması gerekmektedir. Örneğin; elinizde bir zar var ve bunu her defasında 30 kez attınız ve çıkan sonuçları topladınız. Sonra yine aynı şeyi binlerce kez yaptığınızda işte toplanan o sonuçlar normal dağılım gösterir.

Grafik6: Örnekte net olarak göründüğü gibi anakitle dağılımları farklı farklı iken örneklem büyüklüğü 30 olduğunda, örneklem ortalamaları normal dağılıma yaklaşmıştır.

BONUS ÖRNEK: Gerçek hayattan sıkça karşılaşacağımız bir örnek verelim.

Diyelim ki; standart sapması 2 olan günlük ortalama 10 ürün üretilen bir şirkette çalışıyorsunuz. Soru şu: yarın üretilecek ürün sayısının 8.9 dan aşağı olması olasılığı nedir?

ÇÖZÜM: Ürünlerin günlük ortalaması ve standart sapması var elimizde, demek ki normal dağılım üzerinden çözebiliriz… (Eğer emin olmak istiyorsanız günlük üretim sayılarını grafiğe dökerseniz normal dağılım çıkacaktır.) Her defasında yukarıdaki formülden çözmek zor olduğundan ortalaması 0 ve standart sapması 1 olan standart normal dağılım üzerinden soru çözülür. Yani bir nevi indirgenmiş özel bir haldir.( z= (x — μ) / σ formülü ile bulunur. z tablosunda değerine bakılır.)

Çözüm incelenirse, Z tablosunda 0,55 in değeri 0.2088 e eşittir. -0,55 in solundaki alan istendiği için 0,5 alan toplamından çıkarılır. (Grafik3 e bakınız)

Yani basitçe bir formül yardımıyla üretimin günlük 8.9 dan az olma olasılığını “0,2912” bulmuş oluruz. Hem de makine öğrenmesi yapmadan :)

--

--

Mehmet Yalçın
Data Runner

Lecturer — Data Analyst — Co-founder datarunnertr