Veri Biliminde İstatistik Alanının Kalbi Olan Normal Dağılım (Gaussian Distriburion) Konusuna Genel Bir Bakış

Yiğit Şener
Data Runner
Published in
4 min readSep 12, 2020

Normal dağılımla ilgili bir yazı serisi oluşturma niyetindeyim. Bu ilk yazıda normal dağılımın kavramsal teorik yapısından bahsedeceğim.

Normal Dağılım Serisinin İçeriği:

  1. Veri Biliminde İstatistik Alanının Kalbi Olan Normal Dağılım (Gaussian Distriburion) Konusuna Genel Bir Bakış
  2. Veri Biliminde Normal Dağılımın Python Üzerinden Görselleştirilmesi ve Yorumlanması (Histogram, Box Plot, KDE Plot, QQ Plot ve Violin Plot)
  3. Veri Biliminde Normal Dağılımın R ve Python ile Testi ve Yorumlanması (Skewness ve kurtosis, Shapiro-Wilk, Kolmogorov-Smirnov)
  4. Veri Biliminde Normal Dağılmayan Verilerin Dönüştürülme (Transformation) Yöntemleri Logaritmik, Box-Cox, Karekök, Reciprocal

Normal dağılım, Gaussian dağılımı ya da çan eğrisi (bell curve) olarak da bilinir. Bu konu istatistiğin merkezinde yer aldığı için veri biliminin bel kemiği sayılabilir. Bir veri seti ile karşılaştığımızda öncelikli olarak değişkenlerin olasılıksal dağılımlarını bulmaya çalışırız. Bunu yaparken genel olarak normal dağılıp dağılmadığına dikkat ederiz.

Basit bir kod üzerinden çan eğrisini çizdirelim ve bu şekil üzerinden normal dağılımın özelliklerini aklınızda canlandırmaya çalışın.

import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math

mu = 0
variance = 1
sigma = math.sqrt(variance)
x = np.linspace(mu - 3 * sigma,
mu + 3 * sigma, 100)
plt.plot(x, stats.norm.pdf(x, mu, sigma))
plt.xlabel("X ekseni")
plt.ylabel("Y ekseni")
plt.show()

Çan eğrisi, Carl Friedrich Gauss tarafından keşfedilmiştir. Bu yüzden adı Gaussian dağılımı (normal dağılım) olarak da bilinir.

Normal dağılımı niteleyen iki parametre vardır. Bunlar ortalama ve standart sapmadır. Normal dağılımın bu nitelikleri onu istatistikçiler için son derece basit hale getirir ve bu nedenle normal dağılım gösteren herhangi bir değişkenin daha yüksek doğrulukta tahmin edilmesini mümkün kılar. Esasen, modelin anlaşılırlığını basitleştirmeye yardımcı olabilir.

Normal dağılımın önemli noktaları:

  1. Gauss dağılımı istatistikteki en önemli olasılık dağılımıdır ve her yerde bulunur.. Bunun sebebi yaş, boy, test skorları, IQ skorları veya iki zarın toplamı gibi birçok doğal fenomene uymaktadır.
  2. Gauss dağılımlarına sahip veri kümeleri, parametrik istatistiklerin kapsamına giren çeşitli uygulamaları kapsar. Veri bilimcilerin hayatını kolaylaştıran parametrik testler normal veya normal benzeri dağılımlara sahip veri kümelerine uygulanabilir.
  3. Bu tür analizlerden elde edilen sonuçlar veya özetler sezgisel olabilmektedir. Bu yüzden temel istatistik bilgisi olan herkes için bu analizlerin açıklanması kolaydır.

Şimdi, dikkat edilmesi gereken olağanüstü durum, doğadaki değişkenlerin çoğunun olasılık dağılımlarını bulduğunuzda, hepsinin yaklaşık olarak normal bir dağılım izlemesidir.

Normal dağılımla ilgili iki tür basit açıklama mevcuttur:

  1. Normal bir dağılımın öncülleri ortalama, mod ve medyan tarafından betimlenir. Bir değişkene ait bu değerler eğer ki birbirine eşit veya yakın ise orada bir normal dağılımdan bahsedebiliriz.
  1. Sadece ortalama ve standart sapmayı kullanarak dağılım hakkında bilgi sahibi olabilirsiniz.

Veri bilimciler için normal dağılımın gerekli hale gelmesinin bir nedeni de Merkezi Limit Teorisidir. Bu teori matematiğin büyüsünü açıklar ve hipotez test tekniklerinin temelini oluşturur.

Şimdi merkezi limit teorisi ve ampirik kurallardan de yola çıkarak normal bir dağılıma oturttuğumuz çan eğrisi üzerinden açıklamalarımızı yapalım.

  • Yukarıda örnek olarak verilen çan eğrisinde görüldüğü üzere ortalama, tepe değeri (mod) ve medyan değerleri birbirine eşittir.
  • Dolayısı ile çan eğrisini ortadan ikiye bölen ortalama değerin yer aldığı çizgi dağılımı iki eşit şekilde bölmüştür.
  • Eğrinin altındaki toplam alan, değişkenin alabileceği tüm değerlerin toplam olasılığıdır.
  • Toplam eğri alanı bu nedenle % 100'dür.
  • Değişkene ait değerlerin yaklaşık %68,2'si -1 ve 1 standart sapma aralığında yer almaktadır.
  • Değişkene ait değerlerin yaklaşık %95,4'ü -2 ve 2 standart sapma aralığında yer almaktadır.
  • Değişkene ait değerlerin yaklaşık %99,7'si -3 ve 3 standart sapma aralığında yer almaktadır.

Neredeyse tüm veriler 3 standart sapma dahilindedir. Bu kural, Aykırı (outlier) değerleri kontrol etmemizi sağlar ve herhangi bir dağılımın normalliğini belirlerken çok büyük fayda sağlar.

iki tür çarpık (skewed) dağılım mevcuttur. Eğer tepe değer > medyan > ortalama ise sola çarpık (Negatively Skewed Distribution) bir dağılımdan bahsedebiliriz. Tam tersi durumda yani tepe değer < medyan < ortalama ise sağa (Positively Skewed Distribution) çarpık bir dağılım söz konusudur. Aşağıdaki grafiklerden bu durumları daha iyi gözlemleyebilirsiniz.

Sonuç

Normal dağılım konusu bir değişkeni incelerken bakılması gereken ilk noktalardan birisi olarak istatistikte ve dolayısıyla veri biliminde oldukça önemli bir yeri bulunmaktadır. Bir değişkenin nasıl dağıldığını anlamak için hangi yöntemlerin kullanıldığı konusunu bir sonraki yazımda ele alıp buradan linkini paylaşacağım.

--

--