Normalizasyon Neden Önemli?

Hasan Gözcü
Kodcular
Published in
2 min readJan 15, 2021

Makine öğrenim algoritmalarının çoğunda featurelardaki dataların özelliklerini karşılaştırarak verilerdeki eğilimleri bulmaya çalışırız. Verilerin birbirinden büyüklükçe çok farklı olduğu durumlarda özellikle mesafe tabanlı işlemlerimizde(regresyon, sınıflandırma, kümeleme ..) küçük datamızın bir etki payı kalmıyor. Bu tarz durumlarda datayı bazı normalizasyon adımlarından geçirmeliyiz. Bu yazımda sizlere en popüler normalizasyon yöntemlerinden kısaca bahsetmek istiyorum.

min-max normalization

Mininimum ve maksimum normalizasyonu ile datalarımızın hepsini 1 maksimum, 0 minimum olmak üzere 0 ile 1 arasında map ederiz.

Verilerimizi alır datadaki en küçük değerden çıkarır vu bulduğu sonucu da datadaki en büyük değer ile en küçük değer arasındaki farka böler. Böylece tüm datalarız 0 ile 1 arasına gelir.

z-score normalization

Yukarıdaki normal dağılım grafiklerini inceleyelim. Normal dağılım grafiğinde aradığım bir hesabı datamın ortalamadan kaç σ kadar uzakta olduğunu bulup bunu ortalaması 0 ve standart sapması 1 olan bir normal dağılım grafiğine entegre edersek işlemlerimiz epey bir kolaylaşır.

Zaten biliyoruzki karşımızda continuous bir olay var ve alana göre hareket edeceğim. Aynı zamanda toplam alanın 1 olduğu gerçeği de değişmeyeceği için oranlarım aynı çıkacaktır. Bu alanları kolaylıkla elde edeceğimiz z tabloları(rahatlıkla erişebilirsiniz internetten) mevcut. Z değerimizi bulup tablodan direk karşılığına bakabiliriz ve oranımızı yapabiliriz.

--

--