PCA ( Principal Component Analysis) Temel Bileşenler Analizi

Gülcan Öğündür
2 min readJan 14, 2020

--

Türkçesi “Temel Bileşenler Analizi” olan PCA tanıma, sınıflandırma, görüntü sıkıştırma alanlarında kullanılan yararlı bir istatistiksel tekniktir. Temel amacı yüksek boyutlu verilerde en yüksek varyans ile veri setini tutmak ancak bunu yaparken boyut indirgemeyi sağlamak olan bir tekniktir. Fazla boyutlu verilerdeki genel özellikleri bularak boyut sayısının azaltılmasını, verinin sıkıştırılmasını sağlar. Boyut azalmasıyla bazı özelliklerin kaybedileceği kesindir; fakat amaçlanan, bu kaybolan özelliklerin popülasyon hakkında çok az bilgi içeriyor olmasıdır. Bu yöntem, yüksek korelasyonlu değişkenleri bir araya getirerek, verilerdeki en çok varyasyonu oluşturan “temel bileşenler” olarak adlandırılan daha az sayıda yapay değişken kümesi oluşturur.

PCA verideki gerekli bilgileri ortaya çıkarmada oldukça etkili bir yöntemdir. PCA’in arkasında yatan temel mantık çok boyutlu bir veriyi, verideki temel özellikleri yakalayarak daha az sayıda değişkenle göstermektir.

Veri setimiz üzerinde PCA yapabilmek için sklearn kütüphanesinden PCA metotunu çağırmamız gereklidir.

Öncelikle iris veri setimizi sklearn’den indirelim. iris veri setimizde 3 farklı sınıfa ait 4 öznitelik bulunmaktadır.

Veri seti üzerinde yapmış olduğumuz PCA dönüşümü bize 2 bileşen seçmenin, verilerin toplam varyansının yaklaşık % 97.7'sini koruyabileceğimizi söylemektedir. Tüm bileşenleri kullanmak istemediğimiz sadece ana bileşenleri kullanmak istediğimiz için bu varyans oranı bizim için yeterlidir.

PCA dönüşümü işlemini tamamladıktan sonra sınıfların iki boyutlu vektörlerini aşağıdaki grafikte görebiliriz.

--

--