Python ile Temel İstatistiki Bilgilere Erişim
Merhaba! Bu yazıda Python ile temel istatistiki bilgilere nasıl erişilir? sorusuna cevap arayacağız. Bunun yanında istatistiki bilgilerin ne anlama geldiği hakkında da kısa bilgi vereceğim. Keyifli Okumalar..
Kütüphanelerin import edilmesi
import pandas as pd
import numpy as np
import matplotlib as plt
Verilerin yüklenmesi
data = pd.read_excel('data.xlsx')
describe komutu
Veriler hakkında bilgi veren bir başka yöntem ise describe()
yöntemidir. Bu yöntem ile veriler hakkında bazı istatistiki bilgiler elde etmiş oluruz.
-count: girdi sayısını
-mean: ortalamayı
-std: standart sapmayı
-min: minumum değeri
-max: maximum değeri
-medyan: ortadaki sayıyı verir.
Çok yüksek ve düşük değerlerde medyana bakmak daha güvenilir olabilir.
1.Mod-mode
Verideki en çok tekrar eden sayıyı ifade etmektedir. Mod, sadece tek bir sayıdan oluşmayabilir.Diğer bir ifade ile verinin birden fazla modu olabilir.
2.Medyan- median
Veride ortada kalan sayıyı ifade etmektedir.
3.Aritmetik Ortalama- mean
Verinin aritmetik ortalama değeridir.Serideki tüm elemanların toplanıp, eleman sayısına bölünmesi ile elde edilir. describe() metodu ile ortalamaya bakabileceğimiz gibi mean() metodu ile de değişkenlerin ayrı ayrı ortalamalarına bakabiliriz.
Tüm değişkenlerin aritmetik ortalamalarını elde etmek için demean
metodunu kullanabiliriz.
skipna=True
paremetresi boş değerleri görmezden gelmemize yarar.
4.Standart Sapma- std
Standart sapma verilerin ortalama değere olan yakınlığı hakkında bize bilgi vermektedir.
Verilerin Standart sapması küçükse, veriler ortalamaya yakın yerlerde dağılmışlardır, standart sapma büyükse veriler ortalamadan uzak yerlerde dağılmışlardır yorumu yapılabilir.
Standart sapmanın karesi ise bize istatistikte sıkça kullanılan varyans değerini verir.
5.Kovaryans- cov
Olasılık teorisi ve istatistikte, kovaryans iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. Kovaryans, iki rastgele değişkenin beraber değişimlerini inceleyen bir istatistiktir.
Kovaryans matrisi bize; enflasyon ile işsizlik arasında pozitif ilişkinin var olduğunu göstermektedir. Burada incelediğimiz veriler hakkında teorik bilgi sahibi olmak sonucu doğru yorumlamamızı sağlayacaktır.
6.Korelasyon- corr
Veriler arasındaki ilişki hakkında bilgi verir. “r” ile ifade edilir.
Korelasyon katsayısı 1'e yaklaştıkça ilişki düzeyi artarken, -1'e yaklaştıkça ilişki düzeyi zayıflamaktadır.
Korelasyon katsayısı “-1” ve “+1” arasında değişen değerler alır.
• r= -1 ise tam negatif doğrusal bir ilişki vardır.
• r= +1 ise tam pozitif doğrusal bir ilişki vardır.
• r= 0 ise iki değişken arasında ilişki yoktur.
Bu bağlamda r= İlişki için çıkan sonuçlar aşağıdaki aralıklara göre şu şekilde yorumlanır:
•0.00 ilişki yok
•0.01–0.29 düşük düzeyde ilişki
•0.30–0.70 orta düzeyde ilişki
•0.71–0.99 yüksek düzeyde ilişki
- 1.00 mükemmel ilişki
Korelasyon matrisine göre; ilgili dönemde enflasyon ile işsizlik arasında pozitif (aynı yönlü) zayıf bir ilişki vardır. Burada verinizin dönemi önemlidir. Yıllık, aylık, haftalık, günlük verilerde çıkan sonuçlar farklılık gösterebilir.