Python ile Temel İstatistiki Bilgilere Erişim

Mert Alabaş
Data Runner
Published in
3 min readJun 1, 2019

Merhaba! Bu yazıda Python ile temel istatistiki bilgilere nasıl erişilir? sorusuna cevap arayacağız. Bunun yanında istatistiki bilgilerin ne anlama geldiği hakkında da kısa bilgi vereceğim. Keyifli Okumalar..

Kütüphanelerin import edilmesi

import pandas as pd
import numpy as np
import matplotlib as plt

Verilerin yüklenmesi

data = pd.read_excel('data.xlsx')

describe komutu

Veriler hakkında bilgi veren bir başka yöntem ise describe() yöntemidir. Bu yöntem ile veriler hakkında bazı istatistiki bilgiler elde etmiş oluruz.

-count: girdi sayısını

-mean: ortalamayı

-std: standart sapmayı

-min: minumum değeri

-max: maximum değeri

-medyan: ortadaki sayıyı verir.

Çok yüksek ve düşük değerlerde medyana bakmak daha güvenilir olabilir.

1.Mod-mode

Verideki en çok tekrar eden sayıyı ifade etmektedir. Mod, sadece tek bir sayıdan oluşmayabilir.Diğer bir ifade ile verinin birden fazla modu olabilir.

2.Medyan- median

Veride ortada kalan sayıyı ifade etmektedir.

3.Aritmetik Ortalama- mean

Verinin aritmetik ortalama değeridir.Serideki tüm elemanların toplanıp, eleman sayısına bölünmesi ile elde edilir. describe() metodu ile ortalamaya bakabileceğimiz gibi mean() metodu ile de değişkenlerin ayrı ayrı ortalamalarına bakabiliriz.

Tüm değişkenlerin aritmetik ortalamalarını elde etmek için demeanmetodunu kullanabiliriz.

skipna=True paremetresi boş değerleri görmezden gelmemize yarar.

4.Standart Sapma- std

Standart sapma verilerin ortalama değere olan yakınlığı hakkında bize bilgi vermektedir.

Verilerin Standart sapması küçükse, veriler ortalamaya yakın yerlerde dağılmışlardır, standart sapma büyükse veriler ortalamadan uzak yerlerde dağılmışlardır yorumu yapılabilir.

Standart sapmanın karesi ise bize istatistikte sıkça kullanılan varyans değerini verir.

5.Kovaryans- cov

Olasılık teorisi ve istatistikte, kovaryans iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür. Kovaryans, iki rastgele değişkenin beraber değişimlerini inceleyen bir istatistiktir.

Kovaryans matrisi bize; enflasyon ile işsizlik arasında pozitif ilişkinin var olduğunu göstermektedir. Burada incelediğimiz veriler hakkında teorik bilgi sahibi olmak sonucu doğru yorumlamamızı sağlayacaktır.

6.Korelasyon- corr

Veriler arasındaki ilişki hakkında bilgi verir. “r” ile ifade edilir.

Korelasyon katsayısı 1'e yaklaştıkça ilişki düzeyi artarken, -1'e yaklaştıkça ilişki düzeyi zayıflamaktadır.

Korelasyon katsayısı “-1” ve “+1” arasında değişen değerler alır.

• r= -1 ise tam negatif doğrusal bir ilişki vardır.

• r= +1 ise tam pozitif doğrusal bir ilişki vardır.

• r= 0 ise iki değişken arasında ilişki yoktur.

Bu bağlamda r= İlişki için çıkan sonuçlar aşağıdaki aralıklara göre şu şekilde yorumlanır:

•0.00 ilişki yok

•0.01–0.29 düşük düzeyde ilişki

•0.30–0.70 orta düzeyde ilişki

•0.71–0.99 yüksek düzeyde ilişki

  • 1.00 mükemmel ilişki

Korelasyon matrisine göre; ilgili dönemde enflasyon ile işsizlik arasında pozitif (aynı yönlü) zayıf bir ilişki vardır. Burada verinizin dönemi önemlidir. Yıllık, aylık, haftalık, günlük verilerde çıkan sonuçlar farklılık gösterebilir.

Vakit ayırdığınız için teşekkür ederim. Yazının uygulama kısmına Kaggle ve Colab hesabımdan erişebilirsiniz.

--

--

Mert Alabaş
Data Runner

#datascience #machinelearning #python #r #knime #tableau #powerbı