Veri Bilimi için İstatistik II — Betimleyici İstatistikler

Mehmet Yalçın
Data Runner
Published in
4 min readApr 23, 2020

Uzun bir aradan sonra Veri Bilimi için İstatistik yazı dizisinin devamıyla karşınızdayım. Yazılarıma verilmiş güzel yorumlar ve paylaşımlar benim için gerçekten mutluluk kaynağı oldu. Evde kalmak zorunda kaldığımız bu günlerde daha üretici olmayı, yazılarımı bu kadar süre ihmal etmemeyi umut ediyorum.

Photo by João Silas on Unsplash

Bir önceki yazımda veri üzerine çalışmaya başlamadan önce bilinmesi ve dikkat edilmesi gereken kavramlardan bahsetmiştim. Bu yazımda ise üzerine çalışacağımız veri setini modele almadan önce kısaca ilk aşamada hangi yönlerine bakmamız gerektiğinden bahsedeceğim.

İlk Soru: Betimleyici İstatistikler neden önemlidir?

Üzerine çalışacağımız verileri tanımadan kuracağımız modeller skor olarak başarılı olsa daha iyi bunu yorumlamak çok zor olacaktır. O nedenle model kurmadan önce veri üzerine betimsel analizler yaparak verilerin ne anlattığına -özellikle gerçek hayat problemlerinde- bakmak gereklidir. İlk aşamada aşağıdaki sorular sorulabilir:

· Veriler nasıl oluşturulmuş? Farklı veri tabanlarından mı alınmış? Birleştirme yapılırken hata olmuş mu?

· Veriler kesin mi? Veriler tutarlı mı? Örneğin; veri içindeki yaş kolonunda bir satır “-50" olarak yazılmışsa bunu düzeltmek gereklidir.

· Veri setindeki sürekli ve kategorik değişkenlerin tanımı, bu değişkenlerin özellikleri, Merkezi Eğilim - Dağılım Ölçüleri ve grafikleri nasıl?

Bu sorularla birlikte veri üzerine hakimiyet artacağından modele giden süreç ve sonrası daha az sancılı olacaktır. Bu uzun girizgahtan sonra Merkezi Eğilim ve Dağılım Ölçüleri ile tanımlayıcı istatistikleri ele alalım. (Görselleştirme konusunu sonraki yazılarımda yeri geldiğince uygulayacağım. Özellikle histogram, scatter plot ve boxplot bu anlamda önemli yer tutuyor. Ancak, sizin için buraya harika bir Matplotlib yazı dizisi bırakıyorum :)

Merkezi Eğilim Ölçüleri

Bir değişkenin bütün farklı değerlerinin çevresinde toplandığı merkezi değerleri Merkezi Eğilim Ölçüleri gösterir. Sık olarak aritmetik ortalama, mod, medyan ve kartiller kullanılır. Ben bunları kısaca açıklayarak neden önemli olduklarını açıklayacağım. (Kartilleri bir sonraki yazımda “Veri Ön İşleme” altında inceleyeceğim.)

Aritmetik Ortalama: Bir değişkende yer alan değerlerin toplamının değişkendeki birim sayısına bölünmesiyle elde edilir. Standart sapma ile birlikte yorumlanmalıdır. Ayrıca verinin çoğunluğundan belirgin bir şekilde sapan değerler (aykırı değerler) varsa aritmetik ortalama kullanışlı bir ölçü değildir. Dağılımın simetrik olduğu(normal dağıldığı) durumlarda kullanılmalıdır.

Mod (Tepe Değer): Bir değişken içinde en çok tekrar eden değere denir. Özellikle kategorik değişkenlerde modu bilmek değişkeni anlamak adına önemlidir. Ancak veri sayısının az olduğu durumlarda mod kullanmak güvenli değildir.

Medyan(Ortanca): Bir veri gurubundaki değerlerin küçükten büyüğe sıralanmasıyla tam ortaya düşen değer ortanca değerdir. Eğer dağılım simetrik değilse aritmetik ortalama yerine medyan kullanmak mantıklıdır. Çünkü medyan aykırı değerlerden daha az etkileneceğinden seriyi daha iyi temsil eder.

photo of bulb artwork

Notlar:

i. Eğer mod, medyan ve aritmetik ortalama ölçüleri birbirine eşit ise bu değişken için normal dağılım göstermiş denir. Dağılım simetriktir. Ancak gerçek hayat problemlerinde bu çok mümkün değildir.

ii. Değişken içinde medyan ve ortalamanın birbirine yakın olması; o değişkenin verilerinin merkez etrafında dağıldığını, homojen olduğunu gösterir.

Merkezi Dağılım Ölçüleri

Değişken içindeki verilerin dağılımı önemlidir. Verilerin ortalamanın etrafında mı uzağında mı dağıldığı, max - min, standart sapma ve varyans değerleri ile incelenir.

Formül, örneklem(bir değişken) için olduğundan (n-1)e bölünmüştür. Ana kitle için yazılırsa (n) e bölünür.

Standart Sapma:

Standart sapma formülden anlaşılabileceği gibi verilerin ortalamadan ne kadar uzak olduğunun ölçüsüdür. Eğer standart sapma küçükse veriler ortalamaya yakındır ve homojendir denebilir. Standart sapma büyüdükçe veriler ortalamadan sapmalar gösterir, homojenlik azalır.

Varyans: Standart sapmanın karesidir. Birden fazla değişkeninin dağılımını kendi arasında kıyaslamak için kullanılır. (bkz. Varyans Analizi)

Çarpıklık: Değişkendeki dağılımın simetrik olmadığı durumlarda çarpıklık söz konusudur. Formülüne girmeden söyleyecek olursak; eğer ortalama medyandan büyükse, pozitif(sağa) çarpıktır. Aykırı değerler sağa yaslanmış demektir. Tersi durumda ise negatif(sola) çarpık denir.

Basıklık-Sivrilik: İncelediğimiz değişkenin dağılımının basık mı yoksa sivri mi olduğunu yorumlamamız için kullanılır. Alttaki şekil üzerinden yorumlarsak; normal dağılım simetrik olarak ortada yer alıyor. Sivri olan dağılıma(pozitif) dikkat edilirse; kuyrukları kısa, yani değerler ortalama etrafında yoğunlaşmıştır diyebiliriz. Yine aynı şekilde Basık olan(negatif) dağılıma bakarsak; kuyrukları uzun, dağılımı basık, yani değerler yayılmıştır, standart sapması daha yüksektir diyebiliriz.

(Bu yazıda anlattıklarımın da yer aldığı bir uygulama yazısını ayrıca ele alacağım.)

Bir sonraki yazıda görüşmek üzere, keyifli okumalar…

Sorularınız veya yorumlarınız için twitter, linkedin üzerinden ulaşabilirsiniz.

Kaynakça: https://acikders.ankara.edu.tr/pluginfile.php/1382/mod_resource/content/2/B9_Normal%20Da%C4%9F%C4%B1l%C4%B1m.pdf

https://medium.com/probablity-and-statistics-for-data-science/descriptive-statistics-707716aafe7f

--

--

Mehmet Yalçın
Data Runner

Lecturer — Data Analyst — Co-founder datarunnertr