ÇARPIKLIK&BASIKLIK

gokcesimge
İstanbul Data Science Academy
5 min readMar 14, 2024

ÇARPIKLIK(SKEWNESS)

Çarpıklık (skewness), bir veri dağılımının simetrik olmayan veya dengesiz bir şekilde dağıldığını ifade eden bir istatistiksel terimdir.

Çarpıklık (skewness), veri bilimi ve istatistik için önemli bir konsepttir çünkü veri dağılımının çarpık olması, analiz ve modelleme süreçlerini büyük ölçüde etkileyebilir.

İşte çarpıklığın veri bilimi için önemini açıklayan bazı nedenler:

  • Model Performansı Üzerindeki Etki: Veri dağılımının çarpık olması, model performansını etkileyebilir. Özellikle çoğu istatistiksel model ve makine öğrenimi algoritması, verinin normal dağılım veya benzeri bir dağılım göstermesini varsayar. Bu varsayımların ihlal edilmesi, tahminlerin yanıltıcı olmasına ve model performansının kötüleşmesine neden olabilir.
  • Hipotez Testleri: İstatistiksel hipotez testleri, verinin dağılımı hakkında çeşitli varsayımlar yapar. Çarpık bir dağılım, bu varsayımları ihlal edebilir ve hipotez testlerinin sonuçlarını yanıltıcı hale getirebilir. Bu da, yanlış sonuçlara ve yanlış karar verilmesine yol açabilir.
  • Parametrik Modelleme: Parametrik istatistiksel modeller, verinin belirli bir dağılıma sahip olduğunu varsayarlar. Bu dağılımın çarpık olması, modelin yanıltıcı sonuçlar üretmesine neden olabilir. Örneğin, lineer regresyon modelleri normal dağılım varsayımını yapar.
  • Veri Görselleştirme: Çarpık bir veri dağılımı, grafiklerin ve görselleştirmenin yorumlanmasını zorlaştırabilir. Verinin çarpık olduğu durumda, dağılımı daha iyi anlamak için uygun görselleştirme tekniklerinin kullanılması gerekebilir.
  • Outlier Tespiti ve İşleme: Çarpık bir dağılım, aykırı değerleri (outliers) daha belirgin hale getirebilir. Aykırı değerler, analiz sonuçlarını yanıltabilir ve model performansını etkileyebilir. Bu nedenle, çarpık verilerle çalışırken aykırı değerlerin tespit edilmesi ve işlenmesi daha kritik hale gelebilir.
  • Veri Dönüşümleri: Çarpık bir dağılımı düzeltmek için veri dönüşümleri (örneğin, logaritmik veya karekök dönüşümleri) kullanılabilir. Bu tür dönüşümler, verinin çarpıklığını azaltabilir ve analizlerin ve modellerin daha güvenilir hale gelmesine yardımcı olabilir.

Sonuç olarak, çarpık veri dağılımlarıyla başa çıkmak ve bu çarpıklığı düzeltmek, veri bilimi ve istatistiksel analizlerde önemli bir adımdır. Verinin doğru bir şekilde modellenmesi ve yorumlanması için çarpıklığın anlaşılması ve gerekirse düzeltilmesi gerekebilir.

BASIKLIK(KURTOSIS)

Basıklık (kurtosis), veri bilimi ve istatistikte önemli bir konsepttir .

  • Veri Anomalilerini Tanımlama: Basıklık, bir veri kümesindeki aykırı değerleri tanımlamada yardımcı olabilir. Eğer bir veri kümesi leptokurtik (sivri kurtosis) ise, bu, veri kümesinde daha fazla aykırı değer olabileceğini gösterebilir. Veri bilimcileri bu aykırı değerlere dikkat edebilirler.
  • Tahmin Modelleri için Veri Dönüşümü: Bazı makine öğrenimi modelleri, normal dağılıma yakın veri kümesiyle daha iyi çalışır. Veri kümeleri platykurtik (basık kurtosis) ise, bazen veri dönüşümleri (örneğin, logaritmik dönüşüm) kullanarak veriyi normal dağılıma yaklaştırmak gerekebilir.
  • Simülasyon ve Modelleme: İstatistiksel simülasyonlar ve modelleme çalışmalarında, verinin dağılımı ve basıklık değeri, doğru sonuçlar elde etmek için önemlidir. Bazı modelleme teknikleri, veri kümesinin basıklığını dikkate alarak daha hassas sonuçlar verebilir.
  • Veri Karşılaştırmaları: Farklı veri kümesi dağılımlarını karşılaştırırken, basıklık, bu karşılaştırmalarda kullanılabilir. İki veri kümesi arasındaki basıklık farkları, bu veri kümeslerinin doğası hakkında fikir verir.
  • Veri Temizliği ve Ön İşleme: Kurtosis değerleri, veri temizliği ve ön işleme süreçlerinde verilerin sağlığını ve uygunluğunu değerlendirmede kullanılabilir. Özellikle veri kümesinde anormal dağılmış veri noktaları bulunuyorsa, bu verilere özel bir yaklaşım gerekebilir.

Sonuç olarak, basıklık değerleri, veri bilimcilerinin ve analistlerin veri dağılımlarını anlamalarına, verileri uygun bir şekilde işlemelerine ve doğru sonuçlar elde etmelerine yardımcı olan önemli bir araçtır. Basıklık, verilerin özgül özelliklerini değerlendirirken ve analizler yaparken dikkate alınmalıdır. Ancak basıklık, tek başına değerlendirilmemeli, diğer istatistiksel ölçütler ve analizlerle birlikte kullanılmalıdır.

Leptokurtik (Sivri Kurtosis): Bu durumda, veriler normal dağılıma göre daha sivri bir tepeli ve daha dar bir kuyruğa sahiptir. Leptokurtik bir dağılım, aykırı değerlere sahip verilerin daha fazla olduğu bir durumu ifade edebilir.

Mesokurtik (Normal Kurtosis): Mesokurtik bir dağılım, normal dağılıma benzer bir tepesi ve kuyruğu olan bir dağılımdır. Bu, verilerin normal dağılıma oldukça yakın olduğu bir durumu ifade eder.

Platykurtik (Basık Kurtosis): Platykurtik bir dağılım, normal dağılıma göre daha basık bir tepeli ve daha geniş bir kuyruğa sahiptir. Platykurtik bir dağılım, verilerin daha yaygın olduğu ve aykırı değerlerin daha az olduğu bir durumu ifade edebilir.

Bazen verilerdeki çarpıklık, lineer regresyon modelinizin tahmin gücünü olumsuz yönde etkileyebilir.

Model düşük performans gösteriyorsa bunun nedeni çarpıklık olabilir.

Bunu halletmenin birçok yolu vardır:

  • Farklı bir model deneyin.
  • Çarpık değişkeni dönüştürün.

En sık kullanılan dönüşümler şunlardır:

  • Log Dönüşümü (Log Transform):
  • Karekök Dönüşümü (Sqrt Transform):
  • Box-Cox Dönüşümü:

Log Dönüşümü (Log Transform):

  • Logaritmik dönüşüm, veriyi logaritmik bir ölçekte yeniden düzenler. Bu, özellikle verinin dağılımının sağa çarpık (positively skewed) olduğu durumlarda yararlıdır.
  • Özellikle büyük değerlerin küçük değerlere göre daha az etkili olduğu durumlarda kullanışlıdır.
  • Doğal logaritma (e tabanında) veya 10 tabanında logaritma kullanılabilir.
  • Formül: np.log(df.sütun_adı)

Karekök Dönüşümü (Sqrt Transform):

  • Karekök dönüşümü, veriyi karekök işlemine tabi tutarak dağılımı daha simetrik hale getirir.
  • Özellikle veri dağılımının sola çarpık (negatively skewed) olduğu durumlarda etkilidir.
  • Genellikle veri küçük değerlere sahip olduğunda veya sayma verileri gibi sınırlı bir değer aralığına sahip olduğunda kullanışlıdır.
  • Formül: np.sqrt(df.sütun_adı)

Box-Cox Dönüşümü:

  • Box-Cox dönüşümü, verinin dönüşüm parametresini (lambda) kullanarak veriyi normal dağılıma benzetmeye çalışır. Bu dönüşüm, verinin farklı dağılımlarına uyum sağlama yeteneği ile dikkat çeker.
  • Scipy kütüphanesinde bulunan scipy.stats.boxcox işlevi, Box-Cox dönüşümünü otomatik olarak yapabilir ve en uygun lambda değerini hesaplar.
  • Verinin normal dağılıma daha yakın bir görünüm kazanmasına yardımcı olur.

Bunları uygulamak çarpık verileri normal dağılmış bir değişkene dönüştürür.

--

--