Photo by Edge2Edge Media on Unsplash

Algoritma

İstatistik İle İlgili Bazı Temel Kavramlar

Bu yazıda AI(Yapa-Zeka) kullanarak açıklamalarını oluşturmaya çalıştığım bazı kavramlardan bahsedeceğim.

--

İster doğal dil işleme, ister finans, ister network analizi olsun, hangi alana girerseniz girin elinizde bir veri seti var ise bu veri setini anlamlandırılması için istatistik’ den faydalanırız.

Sonuçta hepsinin temelinde bir takım istatistik kavramlar yatıyor;

  • Min (Minimum Değer): Veri setindeki en küçük değeri temsil eder. Bu değer, veri setinde bulunan en küçük ölçümü ifade eder.
  • Max (Maksimum Değer): Veri setindeki en büyük değeri temsil eder. Bu değer, veri setinde bulunan en büyük ölçümü ifade eder.
  • Medyan: Değerler sıralandığında ortada kalan değerdir. Bir veri setini iki eşit parçaya böler. Tek sayıda değer için ortadaki sayıyı, çift sayıda değer için ise iki ortadaki sayının ortalamasını verir.
  • Mod: Bir veri setinde en sık tekrar eden değerdir. Bir veri seti bir mod (tek tepe noktası), birden fazla mod (çift tepe, üç tepe, vb.) veya hiç mod içermeyebilir.
  • Varyans: Değerlerin ortalamadan farklarının karelerinin ortalamasıdır. Değerlerin ortalamaya göre ne kadar yayıldığını ölçer.
  • Standart Sapma: Varyansın kareköküdür. Bir veri setindeki değerlerin ortalamadan ne kadar uzakta olduğunu ölçer. Daha büyük bir standart sapma, daha fazla değişkenliği gösterir.
  • Ortalama (Aritmetik Ortalama veya Ortalama): Bir veri setindeki tüm değerlerin toplamının değer sayısına bölünmesiyle elde edilir. Bir sayı kümesinin tipik değerini temsil eder.
  • Ağırlıklı Ortalama: Farklı değerlere farklı ağırlıklar verilerek hesaplanan bir ortalama türüdür. Her bir değer, karşılık gelen ağırlık ile çarpılır ve bu ürünlerin toplamı, ağırlıkların toplamına bölünür.
  • Yüzdelikler: Veri setini yüz eşit parçaya bölen değerlerdir. P50 (medyan), P25 (Q1) ve P75 (Q3) gibi değerler yüzdeliklerin özel türleridir.
  • P25, istatistiksel olarak 25. yüzdeliği ifade eder. Yani, veri setindeki değerlerin %25'ini ifade eden bir değerdir. P25, veri setini dört eşit parçaya böler ve alt çeyrek olarak da adlandırılır.
  • P50 (50. Yüzdelik — Medyan): Veri setini yarısına bölen değerdir. Yani, bu değer, veri setinin ortasındaki değeri ifade eder. Yüzde 50'i bu değerden küçük, yüzde 50'si ise bu değerden büyüktür.
  • P75 (75. Yüzdelik): Veri setindeki değerlerin %75'inin altında kalan değeri ifade eder. Bu değerin altında veri setinin %75'i bulunmaktadır.
  • P95 (95. Yüzdelik): Veri setindeki değerlerin %95'inin altında kalan değeri ifade eder. Bu değerin altında veri setinin %95'i bulunmaktadır.
  • P99 (99. Yüzdelik): Veri setindeki değerlerin %99'unun altında kalan değeri ifade eder. Yani, bu değerin altında veri setinin %99'u bulunmaktadır.
  • Çeyrekler (Q1, Q2, Q3): Medyanın öncesinde ve sonrasında kalan veri setini dört eşit parçaya bölen değerlerdir. Q1 (alt çeyrek), verilerin alt %25'ini, Q2 (medyan) orta %50'sini ve Q3 (üst çeyrek) ise üst %25'ini temsil eder.
  • Çeyrekler Arası Aralık (IQR): Q3 ile Q1 arasındaki farktır. Veri setinin ortasındaki yarısının dağılımını ölçer.
  • Kuartiller: Veri setini dört eşit parçaya bölen değerlerdir. Medyanı ve çeyrekleri içeren dört kısım oluştururlar.
  • Frekans: Belirli bir değerin veri setinde kaç kez tekrarlandığını gösterir.
  • Çeşitlilik Endeksleri (Diversification Indexes): Veri setindeki çeşitliliği veya farklılık derecesini ölçer. Örneğin, Simpson’ın çeşitlilik indeksi gibi.
  • Korelasyon: İki değişken arasındaki ilişkiyi ve ilişkinin gücünü ölçer. Pearson korelasyon katsayısı ve Spearman’s rho gibi farklı korelasyon türleri bulunmaktadır.
  • Regresyon Analizi: Bağımlı ve bağımsız değişkenler arasındaki ilişkiyi modellemek için kullanılan bir tekniktir.
  • Olabilirlik (Likelihood): Belirli bir durumun gözlemlenebilirliği veya gerçekleşme olasılığını ifade eder.
  • Hipotez Testleri: İstatistiksel verilerle ilgili yapılan varsayımların doğrulanması veya reddedilmesi için kullanılan testlerdir. T-testi, ANOVA, Chi-kare testi gibi.

Okumaya Devam Et 😃

Bu yazının devamı veya yazı grubundaki diğer yazılara erişmek için bu linke tıklayabilirsiniz.

--

--