Ampirik CDF nedir, nasıl kullanılır ve yorumlanır?

Tuba Çifcibasi
Deep Learning Türkiye
3 min readMay 6, 2020

Keşifsel Veri Analizi (EDA), verileri çeşitli görsel yöntemlerle özetlemeye ve analiz etmeye yönelik bir yaklaşımdır. Veri dağılımları ile ilgili analiz yapmak için histogram grafiğini sıkça kullanırız.

Bu yazımda Kaggle’dan aldığım avokado verisi üzerinde görselleştirme yapacağız. Yukarıdaki grafikte avokadoların bölge sayılarına göre dağılımını görmekteyiz. Ancak Datacamp’ta izlediğim Statistical Thinking in Python kursunda Ampirik Kümülatif Dağıtım Fonksiyonunu (kısaca ECDF) keşfetme imkanı buldum. Yazımda kullandığım görsellerin kodlarını ve avokado veri setini Githup Repo’dan ulaşabilirsiniz.

Peki Nedir Bu EDCF ?

ECDF, temel olarak verimizi küçükten büyüğe sırayla çizmemize ve tüm özelliği veri kümesinde dağıtılmış gibi görmemizi sağlar. Daha iyi anlamak için avokado veri setimize uyguladığımız ECDF grafiğimizi çizelim.

Burada 2017 yılı için avokadoların ortalama fiyatlarının varyansını görüyoruz. Bölgelere dağılımına bakacak olursak; bölgelerin yarısında ortalama fiyat 1.5'tur sonucuna varabiliyoruz.

İlk başlarda grafiği okumak için zorlandığımı itiraf edebilirim. Ancak aşağıdaki şekli gözümüzün önünden ayırmazsak gerçekten kolay olduğunu düşünebiliriz.

Gauss(normal) dağılım eğrisindeki dilimlere benzer şekilde grafiğimizi bölümlere ayırdık. Şu durumda aşağıdaki 2 soruya cevap bulabiliriz

  1. Bölgelerin yüzde kaçında ortalama fiyat 1.25'tir?
  2. Ortalama fiyatı 2'den az olan bölgelerin yaklaşık yüzdesi nedir?

Yanıtlar;

  1. %40.
  2. Yaklaşık %98–99.

Şimdi verilerimizi eş zamanlı olarak çizmeye başlayalım !

ECDF grafiğinde 2 farklı bilgiyi 2 farklı yıl ile birleştirebiliriz.

Veri setimizde geleneksel (conventional=con) ve organik (organic=org) olarak 2 farklı avokado tipi mevcut. Yukarıdaki grafikte 2017 ve 2018 yılındaki ortalama fiyatın bölgelere göre dağılımını tip ayrıntısıyla görmekteyiz. Organik avokadoların fiyatının geleneksel avokadoların fiyatından daha yüksek olduğunu biliyoruz. Ancak grafiğe baktığımızda 2017 yılındaki geleneksel avokadoların 2018 yılındaki organik avokadolardan daha yüksek fiyatlı olduğunu ve ya yüksek fiyatlı organik avokadoların 2017 yılındaki bölgesel dağılımı daha fazladır yorumunda bulunabiliriz.

Şimdi bir seviye daha yukarı çıkıp tüm yılların varyasyonlarındaki farklılıkları görelim.

2016 yılındaki bölgesel dağılım 2015 yılındaki dağılımdan fazlayken ortalama fiyat arttıkça 2015 yılındaki bölgesel dağılımın daha fazla olduğunu görüyoruz.(Ortalama fiyatı 2'den fazla olduğu aralığa bakabiliriz.)

Tüm yıllara baktığımızda 2017 yılındaki ortalama fiyat değerindeki değişkenlik diğer yıllara göre daha fazladır. Avokadoların en parlak dönemini 2017 yılında yaşadığını söylebiliriz :)

Sizlerde elinizdeki veri setinizde time bilgisi var ise bu şekilde yıllara göre bir dağılım çizebilirsiniz. Ancak şunu unutmayalım; yıl sayısı, ay sayısı vs(çizmek istediğiniz seriye göre) sayısı arttıkça grafikte çok fazla değer olacak ve yorumlamak zor olacak. Yılları her 10 yılda bir, ayları 3 ayda bir (çeyreklik) şeklinde özet dizinler oluşturduğunuzda grafiğiniz daha açıklayıcı olacaktır.

Umarım keyifli ve yararlı bir yazı olmuştur :)

Kaynaklar

  1. https://learn.datacamp.com/courses/statistical-thinking-in-python-part-1
  2. https://chemicalstatistician.wordpress.com/2013/06/24/exploratory-data-analysis-conceptual-foundations-of-empirical-cumulative-distribution-functions/

3. https://towardsdatascience.com/what-why-and-how-to-read-empirical-cdf-123e2b922480

4. https://stats.stackexchange.com/questions/239937/empirical-cdf-vs-cdf

--

--