Olasılık Dağılımları

ABDULLAH ATCILI
Machine Learning Turkiye
8 min readDec 2, 2021

Olasılık Dağılımları

Bir olasılık dağılımı bir rassal olayın ortaya çıkabilmesi için değerleri ve olasılıkları tanımlar. Değerler olay için mümkün olan tüm sonuçları kapsamalıdır ve olasılıkların toplamı bire eşit olmalıdır. Örneğin, bir rassal olay olarak madeni paranın tek bir defa havaya atılıp yere düşmesi ele alınsın; değerler ‘yazı’ veya ‘tura’ veya bunlar isimsel değişken ölçeğinde ifade edilirse 0 (yazı) veya 1 (tura) olur; olasılıklar ise her iki değer için ½ olacaktır. Böylece madeni bir paranın tek bir defa atılma olayı için iki değer ve ilişkili iki olasılık bu rassal olayın olasılık dağılımı olur. Bu dağılım ayrık olasılık dağılımıdır; çünkü sayılabilir şekilde ayrı ayrı sonuçlar ve bunlara bağlı olan pozitif olasılıklar vardır.

https://www.pythonearth.com/2020/10/09/olasilik-dagilimlari/

Bir sürekli olasılık dağılımı, değerleri sürekli olan açıklıkta tanımlar. Tek bir değer için olasılık sıfıra eşittir. Örneğin bir okçuluk sahasında atılan bir okun hedef tahtasında tek bir noktaya düşmesi olasılığı sıfırdır; çünkü geometri kuramına göre bir noktanın ne eni ne de boyu bulunmaktadır ve hedef üzerindeki varsayılan nokta sonsuz küçüklüktedir. [1]

Olasılık dağılımlarını kesikli dağılımlar ve sürekli dağılımlar olarak iki başlık altında incelenecektir.

  1. Kesikli Dağılımlar

Sonuçların birbirinden ayrı olduğu ve devamlılık arz etmeyen dağılımlara Kesikli Dağılımlar (Discrete Distributions) diyoruz.

1.1 Bernoulli Dağılımı

Eğer bir deney için başarılı ve başarısız olmak üzere iki sonuç ortaya çıkıyor ve bu deney aynı şartlar altında tekrarlanabiliyor ise bu deneye James Bernoulli’den dolayı Bernoulli denemesi denir. Bernoulli denemesi kesikli dağılımların temeli niteliğindedir.

Bir tesadüfi deneme iki ayrık sonuçtan birisine sahip ise, bu denemeye Bernoulli denemesi denir. Bernoulli denemesinin sonuçları başarılı başarısız; sağlam bozuk veya istenen istenmeyen olarak ifade edilir. Bernoulli dememesine ait tesadüfi değişken başarılı sonuçta “1”, başarısız sonuçta “0” değerini alır. Bu bağlamda Bernoulli tesadüfi değişkeni,

olarak ifade edilir.

Bir kesikli rasgele değişkeninin Bernoulli dağılımından geldiği aşağıdaki varsayımları sağlamasıyla karar verilir:

  • Denemeler, aynı koşullar altında tekrarlanabilir olmalıdır.
  • Olayların yalnız 2 sonucu olmalıdır.
  • Başarı olasılığı (p), denemeden denemeye değişmemelidir.
  • Her bir deneme birbirinden bağımsız olmalıdır.

Bernoulli dağılımının beklenen değeri ve varyansı: Bu dağılımda beklenen değer yani ortalama, direk p olasılığına (başarı) eşit olup varyans ise başarı ve başarısızlık olasılıklarının çarpımına eşittir. Formülleri E(x) = p; Var(x) = pq biçimindedir. p= 0.3 değeri için aşağıda örnek verilmiştir.

1.2 Binom Dağılımı

Bir Bernoulli denemesinin n defa gerçekleşmesi durumunda — denemeler bağımsız ve her başarı sayısının olasılığı p olmak üzere- elde edilen X rasgele değişkeni, Binom rasgele değişkeni olarak adlandırılır. Yani n-tane bağımsız Bernoulli denemelerinin sayısı bizi Binom dağılımına götürür.

Binom n-tane bağımsız Bernoulli denemelerinden oluştuğu için beklenen değeri ve varyansının formülü E(x) = np; Var(x) = npq biçimindedir. Bu, bir tedavi etkinliğinin işe yarayıp yaramadığı, bir piyango biletinin kazanıp kazanmadığı, bir depodan seçilen 20 tane ürünün 5 tanesinin hatalı olması, bir antibiyotiğin tedaviye yanıt verip vermemesi gibi iki seçenekli herhangi bir olay Binom dağılımın örnek olarak sunulabilir. Gerçek hayatta psikolojiden sosyolojiye, mühendislikten tıp alanına kadar oldukça geniş bir kullanıma sahiptir.

Aşağıdaki örnekte, para atma deneyi yapılmaktadır. Bir madeni para, 8 defa atılıyor ve kaç defa tura geldiği tespit ediliyor. Paraların 8 defa atılma işlemi, 10000 defa tekrarlanınca, gelen turaların dağılımı aşağıda sunulmuştur.

# Binom dağılımı
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy
N = 10000bara = np.random.choice([0, 1], size=(N, 8))
pd.Series(bara.sum(axis=1)).value_counts().sort_index().plot(kind=’bar’)
plt.title(f”8 adet para atildiginda tura gelme sayisi — deney {N} kez tekrar edilmistir”)
plt.xlabel(“Frekans”)
plt.ylabel(“8 atistan kacinin tura geldigi”);

Poisson Dağılımı

Araştırmacıların en çok kullandıkları olasılık dağılımlarından birisi de Poisson dağılımıdır. Poisson dağılımına küçük olasılıklar dağılımı da denir. Belli ve çok dar bir zaman aralığında az rastlanan olaylar bu tür dağılım gösterirler. Örneğin, Boğaziçi Köprüsü’nde meydana gelen günlük kazaların sayısı, bir havaalanından her saat kalkan veya inen uçakların sayısı vb. gibi.

Poisson dağılımında, zaman öyle küçük parçalara bölünür ki, bu küçük zaman parçalarında birden fazla olayın gerçekleşmesi istenmez. Başka bir ifade ile, belirlenen o dar zaman dilimi içerisinde olay ya gerçekleşir ya da gerçeklemez. Bu nedenden dolayı, binom dağılımı n tane deneydeki başarı sayısı ile ilgilenirken Poisson dağılımı da belirli bir aralıktaki ilgilenilen sonucun sayısı ile uğraşır.Araştırmacıların en çok kullandıkları olasılık dağılımlarından birisi de Poisson dağılımıdır. Poisson dağılımına küçük olasılıklar dağılımı da denir. Belli ve çok dar bir zaman aralığında az rastlanan olaylar bu tür dağılım gösterirler. Örneğin, Boğaziçi Köprüsü’nde meydana gelen günlük kazaların sayısı, bir havaalanından her saat kalkan veya inen uçakların sayısı vb. gibi.

Poisson dağılımında, zaman öyle küçük parçalara bölünür ki, bu küçük zaman parçalarında birden fazla olayın gerçekleşmesi istenmez. Başka bir ifade ile, belirlenen o dar zaman dilimi içerisinde olay ya gerçekleşir ya da gerçeklemez. Bu nedenden dolayı, binom dağılımı n tane deneydeki başarı sayısı ile ilgilenirken Poisson dağılımı da belirli bir aralıktaki ilgilenilen sonucun sayısı ile uğraşır.

Araştırıcının Poisson dağılımını kullanabilmesi için aşağıdaki koşulların gerçekleştiğini görmesi gerekir.

  1. İki ayrık zaman aralığında ( ya da uzayda) ortaya çıkan olaylar birbirinden bağımsızdır.
  2. Tanımlanan aralıkta ( ya da uzayda) ilgilenilen olayın ortaya çıkma olasılığı sabit olup, değişmemektedir.

Poisson dağılımının formülü :

Poisson dağılımının beklenen değer ve varyansı aşağıdaki gibidir.

Poisson dağılımın farklı lambda değerlerine göre grafiği aşağıda sunulmuştur. Lambda, gerçekleşen ortalama olay sayısıdır. (λ = n.p)

Bu konu da bir örnek vermek gerekirse :

Bir ülkedeki her 100000 ölüm vakasında ortalama 3 tanesi gıda zehirlenmesinden ortaya çıkmaktadır. Belirli bir zaman dilimindeki 200000 ölüm vakasında gıda zehirlenmesinden dolayı: [2]

a) Sıfır ölüm vakasına
b) 6 ölüm vakasına
c) 6,7 ya da 8 ölüm vakasına,
rastlama olasılıklarını hesaplayınız.

Çözüm: n= 100000 ,

λ = n.p

n= 100000, λ= 3 dolayısıyla λ = n.p’den p = p= 0.00003

n=200000 olduğunda;

λ = n.p’den λ = 200000 x 0.00003 = 6

X: gıda zehirlenmesinden ölen kişi sayısı

Bu örneğe ait script:

# poisson dağılımı
import numpy as np
import matplotlib.pyplot as plt
import scipy
n = 200000 # örneklem sayısı
p = 0.00003 # olayın olma ihtimali
lamda = np.multiply(n,p) # lambda formülü tanımlaması
poison = []
formul = (np.exp(-lamda) * (lamda ** x)) / (scipy.special.factorial(x)) # poison formülü
N =16 # kaç değere kadar hesap yapılacağı
for i in range(N):
poison.append((np.exp(-lamda) * (lamda ** i)) / (scipy.special.factorial(i))) # bu kısım for döngüsü içinde
plt.figure(figsize=(12,6))
plt.title(“Poisson Dağılımı”)
plt.xlabel(“Olayın Gerçekleşme Sayısı P(X = x)”)
plt.ylabel(“OLayın Meydana Gelme İhtimali”)
plt.plot(range(N), poison, c= “blue”)
plt.scatter(range(N), poison, c= “red”)

Ve aldığımız sonuca ait grafik:

Sürekli Dağılımlar (Continious Distributions)

Uniform Tekdüze Dağılım

Sürekli tekdüze dağılım (İngilizce: continuous uniform distribution) olasılık kuramı ve istatistik bilim dallarında, her elemanı, olasılığın desteklendiği aynı büyüklükteki aralık içinde bulunabilir, her sürekli değer için aynı sabit olasılık gösteren bir olasılık dağılımları ailesidir. [4]

Normal Dağılım

Normal dağılım ya da Gauss dağılımı pratikte çok sık karşılaşılan sürekli bir dağılımdır. İnsanların boy uzunlukları, zekâ seviyeleri gibi değişkenler normal dağılmış tesadüfi değişkenlere örnek olarak verilebilir.

Normal dağılım grafiğini etkileyen iki önemli faktör bulunmaktadır. Bunlar ortalama değer ve standart sapmadır. Aşağıda Normal dağılıma ait ortalama ve standart sapma ilişkisine göre dağılım olasılıkları verilmiştir.

X~N(μ, σ 2 ) olduğunda bazı özel olasılık değerleri aşağıda verilmiştir.
P (μ − σ < X < μ + σ) ≅ %68.2
P (μ − 2σ < X < μ + 2σ) ≅ %95.4
P (μ − 3σ < X < μ + 3σ) ≅ %99.7

Normal dağılım, gerek kendi özelliğinden dolayı gerekse teoremler yardımıyla uygulamada geniş alanlar yaratır. Bazı rassal değişkenlerin dağılımlarını — ister kesikli ister sürekli olsun- normal dağılıma yaklaştırma isteği ağırlık kazanır. Normal dağılım, başlıca 3 alanda yoğun olarak kullanılmaktadır.

  1. Uygulamada ele alınan birçok değişken normale benzer bir dağılım gösterir. Örneğin, ölçme hataları, bir fabrikada üretilen vidaların uzunlukları, belli bir sürede uçakların almış olduğu yol vb… gibi. Aslında, bu tür rassal değişkenlerin dağılımları tam olarak bir normal dağılıma uymasa da yaklaştıkları görülür. Fakat, uygulamada çok sayıda birbirinden bağımsız olarak ortaya çıkan rassal değişkenlerin bir normal dağılım gösterdikleri kabul edilir.
  2. Normal dağılımın, istatistik tümevarım ve örnekleme teorisinde önemli bir ağırlığı vardır. Çünkü, örneklemden elde edilen aritmetik ortalama, toplam gibi bazı niteleyici değerlerin örnekleme dağılımları, anakütle normal dağılmasa bile, örneklem hacmi n yeterince büyük seçildiğinde (n>30) normale yaklaşır.
  3. Örnekleme dağılımları olan Ki-Kare, t ve F dağılımları, Normal Dağılımdan türetilmiştir. Örneklem hacmi n arttıkça, normal dağılım Binom ve Poisson dağılımlarının çok iyi bir yaklaşımını oluşturur.

Normal dağılımın genel görünüşü bir çana benzediğinden bu grafiğe
çan eğrisi de denir.

Normal dağılım ile ilgili Türkiyedeki erkeklerin boy ölçülerinin incelendiği script ve grafik aşağıdadır.

# Normal dağılım
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as scs
tr_boy = scs.norm(171, 6) # ortalamab= 171, standart_sapma = 6
N = 10000
plt.hist(tr_boy.rvs(N), label=’Gercek Dağılım’, density=True, bins=50)
plt.plot(np.linspace(150,190,500), tr_boy.pdf(np.linspace(150, 190, 500)), label=”Teorik Dagilim”)
plt.title(f”Turkiye’de {N} yetiskin erkekten alinan boy orneklerinin dagilimi”)
plt.xlabel(“Boy”)
plt.legend()
plt.ylabel(“Frekans”);

Üstel (Exponential) Dağılım

Zaman ekseninde belirli bir zaman aralığındaki olay sayısı Poisson, iki olay arasında geçen süre ise ÜSTEL dağılış gösterir.

Bir(ilk) olayın (r = 1 ) meydana gelmesine kadar geçen zamanın olasılığı ile ilgili dağılış üslü dağılıştır. Bir marka ürünün tahmini ömrü, duraktan geçen otobüsün geleceği zaman vs gibi durumlar üstel dağılım ile çözülür.

https://www.probabilitycourse.com/chapter4/4_2_2_exponential.php

Tren gelme zamanının modellenmesine ait scripy:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as scs
import datetime
N = 920halka = scs.expon(0.8)gecikme = pd.Series([pd.to_datetime(“18:37:10”)] * N) + pd.Series(halka.rvs(N)).apply(lambda x: datetime.timedelta(minutes=x))gecikme.hist(figsize=(17, 4), bins=40)
plt.title(“Halkali-Sirkeci Treninin Kucukcekmece’den Ayrilis Saatleri (2006)”)
plt.xlabel(“Saat”)
plt.ylabel(“Frekans”)
#plt.axvline(“18:38”, color=’red’, label=’Cizelge kalkis saati’)
plt.legend()

Buraya kadar, veri bilimi maksadıyla sıklıkla kullanılan dağılımlara değinmeye çalıştım. Umarım faydalı olmuştur…

Referanslar

  1. https://tr.wikipedia.org/wiki/Olas%C4%B1l%C4%B1k_da%C4%9F%C4%B1l%C4%B1m%C4%B1
  2. https://www.pythonearth.com/2020/10/09/olasilik-dagilimlari/
  3. https://www.spss-tutorials.com/normal-distribution/
  4. https://tr.wikipedia.org/wiki/Tekd%C3%BCze_da%C4%9F%C4%B1l%C4%B1m_(s%C3%BCrekli)

--

--