Damla Yazıcı
Turk Telekom Bulut Teknolojileri
6 min readApr 28, 2022

--

VERİ İNDİRGEME(DATA REDUCTION) NEDİR?

Veri indirgeme yani data reduction, verileri depolamak için gereken kapasite miktarını azaltma işlemidir. Veri indirgeme ile ham veri içeriği korunarak verinin mevcut depolama alanında küçültme sağlanır ve böylece depolama verimliliği artar, maliyet azaltılabilir. Nicelik olarak data daha küçük bir hal alırken orijinal datanın kalitesinin korunmuş ve yoğunlaştırılmış bir hali ortaya çıkar.

Büyük veriler üzerinde algoritma çalıştırmak, verileri işleme sokmak zaman ve maliyet açısından bizlere zorluklar çıkartacaktır. Veriler yönetilebildiği takdirde hayat kurtarır; verilerin kaliteli yönetimi açısından takibini etkili yapmak mühimdir. Veri indirgeme tekniğiyle verinin hacmini azaltıp içeriği koruyarak bu amaçlarımıza daha kolay ulaşabiliriz.

Veri indirgemenin faydasını düşünürken kendimize şu soruyu sorabiliriz;

“1 TB’lk storage alanına ne kadar fazla farklı veriyi sığdırabilirim ve bu alanı veri ekledikçe en geç ne kadar sürede tüketebilirim?”

Bu soruda sahip olduğumuz alanı en etkili ve olabildiğince uzun sürede kullanmak hayali vardır ve veri indirgeme bize bu hayalin gerçekleştirilmesine olanak tanır;

· Fiziksel depolama maliyetlerinden tasarruf

· Veri merkezi ayak izlerinin azaltılması

· Depolama sisteminin verimliliğinin büyük oranda arttırılması ve doğrudan kapasite üzerindeki kullanımında etki sağlanır.

Veri indirgeme teknikleri Boyutsal Azaltma(Dimensionality Reduction), Sayısal Azaltma(Numerosity Reduction), Veri Sıkıştırma(Data Compression), Veri Tekilleştirme(Data Deduplication), Thin-Thick Konfigürasyon(Provisioning) ve Veri Arşivleme(Archiving Data) başlıkları altında açıklanabilir.

Ben ilk olarak depolama ve yedekleme ile ilişkili olan Veri Sıkıştırma, Veri Tekilleştirme, Thin ve Thick Konfigürayon ve Veri Arşivleme başlıklarını açıklamakla başlamak istiyorum.

1. Veri Sıkıştırma(Data Compression):

Veri bit sıklığının azaltılarak orijinal verinin daha az bir sıklığı ile tutulmasını sağlanır. Sıkıştırma algoritmaları kayıplı ve kayıpsız olabilir. Eğer sıkıştırılmış verilerden herhangi bir veri kaybı olmadan orijinal veriye dönüş yapılabiliyorsa bu bir “kayıpsız” veri azaltmadır. Ancak sıkıştırılmış olan veriden orijinal veriye dönülemiyorsa bu “kayıplı(lossy)” veri indirgeme olur. Veri sıkıştırmada boyutsal(dimensionality) ve sayısal(numerosity) azaltma metotları kullanılabilir.

Kayıpsız veri sıkıştırma tekniği ses, görüntü ve yazı sıkıştırma için kullanılabilir; PNG, GIF, ZIP, vb veri tipleri buna örnektir. TIFF, MNG veri türleri ise hem kayıplı hem kayıpsız sıkıştırılabilen tiplere örnek gösterilebilir.

Kayıplı sıkıştırma algoritmalarında daha çok ses ve hareketli görüntü işlenmektedir. Bu algoritmalar ile veri sıkıştırılsa da veri kaybı görülmektedir. Fakat bu kayıplar insan gözüyle veya kulağıyla fark edilmeyebilir ve asıl iletinin anlamını, bütünlüğünü bozmayabilir.

2. Veri Tekilleştirme(Data Deduplication):

Veri tekilleştirme yani data deduplication tekrarlanan veriyi ortadan kaldırmak için başvurulan bir metottur. Yinelenen veriler bu metot sayesinde kopyalanmaz; sadece değişen veri kopyalanır ve böylece tek bir çıktı içerisinde fazlalıklardan arınmış net veri bütünü bulunur. Böylelikle yedeklenmesini istediğimiz verinin boyutu küçültülerek işlem hızlandırılır ve bu veri depolanırken alandan da tasarruf edilmiş olur.

3. Thin ve Thick Konfigürasyon(Provisioning)

Veri bloklarının ve dosyaların boyutlarını küçültmeden de saklama alanının azaltılması mümkündür. Bunu sağlamak için thin disk kullanımı ve veri arşivleme tercih edilebilir.

Thin disk kullanımında depolama alanı esnek bir şekilde ihtiyaca göre tahsis edilir. İhtiyaç göz önünde bulundurularak bir alan mantıksal olarak ayrılır; örneğin 20 GB’lık alana ihtiyaç duyacağınızı düşündünüz ve bu alan sizin için sanki bir pointerla işaretlenmiş gibi hafızada tutulur. Sizin veriniz 20 GB’lık bir boyuta ulaşamadı ve 8 GB olarak kaldı diyelim. Siz ilk başta 20 GB olacağını varsayıp alan belirtmiştiniz ve 12 GB’lık alan boş kaldı. Bu alan sırf siz başta belirttiniz diye sabit durmaz eğer başka kaynaklar tarafından bu alana ihtiyaç duyulduysa bu alan sizin verinizden bağımsız olarak o kaynaklar içinde kullanılabilir. Bu sayede alan tasarrufu yapılır, thick diskte olduğu gibi ayrılan alan dolsa da dolmasa da sabit olarak bu veri için duracak diye bir kaide yoktur, aksine thin diskte alan tahsis edilir fakat boş kaldıysa başka kaynakların ihtiyacını karşılamak amaçlı kullanılır. Böylece bir veri için tutulan alan hacmi düşükte tutulabilir; verinin hacminden fazla bir alanı işgal etmenin anlamı yoktur.

4. Veri Arşivleme(Archiving Data)

Veri arşivleme depolama sistemlerindeki verileri yukarıda açıklaması yapılan metotlardan daha farklı olarak ortadan kaldırarak dolaylı olarak veri indirgeme yapar. Arşivleme ile verileri azaltmak amaçlı kaldırmak yerine sıklıkla bize lazım olmayacak ve sürekli açıp bakmamız gerekmeyecek ama lazım olursa bir gün ulaşabileceğimiz verilerin pahalı depolama ünitelerinden kaldırılıp yerine daha ucuz ve saklama kapasitesi yüksek olan tape’lere veya cloud ortama taşınması verinin depolama ünitelerinde azaltılmasını sağlar.

Bu dört başlıktan da anlaşılacağı üzere verilerin yedeği alınırken ve depolanırken seçilen yöntemler ile verinin hacmi küçültülerek alandan tasarruf sağlanabilmektedir. Bu yöntemler ulaşmak istediğimiz hedef ve imkanlarımız ile doğru orantılıdır.

Şimdi ise Boyutsal Azaltma(Dimensionality Reduction), Sayısal Azaltma(Numerosity Reduction) başlıklarından yani veri indirgemenin mantıksal tarafından kısaca bahsetmek istiyorum.

5. Boyutsal Azaltma(Dimensionality Reduction):

İlgili veri kümesinde rastgele değişken veya özniteliklerin ortadan kaldırılarak orijinal veri hacmini azaltılmasıdır.

a. Dalgacık Dönüşümü(Wavelet Trasform):

Dalgacık dönüşümünde bir X vektörü kendisiyle aynı uzunlukta olacak başka bir vektöre dönüşür, örneğin X’ olur. Wavelet sıkıştırma yöntemleri sesteki vuruşları veya iki boyutlu görüntülerdeki yüksek dalga frekanslı bileşenleri temsil etmek için yeterlidir. Sıkıştırılmış veriler en güçlü dalga katsayısının en küçük parçaları tutularak elde edilir.

Verilerin farklı çözünürlüklerde incelenmesine olanak sağladığı için özellikle resim türündeki verilerin sıkıştırılmasında tercih edilmektedir. Bu veriler üzerinde çeşitli filtreler uygulanarak alt alanlar elde edilir ve bu alt alanlarda veri korunarak, veri kaybı olmadan orijinal verinin boyutu indirgenerek veri saklanabilir.

b. Temel Bileşen Analizi(Principal Component Analysis):

Elimizde n öznitelikli bir veri kümesi olduğunu düşünelim. Bu vektörün kovaryans matrisi oluşturulur ve bu matrisdeki en büyük öz değerlere karşılık gelen öz vektörler ile artık daha düşük boyutlu bir alana doğru doğrusal eşleşme yapılabilir. Bu sayede orijinal veriler daha küçük alana aktarılabilir.

c. Nitelik Alt Kümesi Seçimi(Attribute Subset Selection):

Büyük veri setlerinde gereksiz veya eski öznitelik alt kümeleri seçilerek ortadan kaldırılır ve verimin hacmi azaltılmış olur. Bu metot ile öznitelik alt küme seçilip silinmesiyle, sonuçta elde edilen çıktıdaki veri dağılımının mümkün olduğunca orijinal veri dağılımına en yakın olacak şekilde bir öznitelik alt kümesi elde etmemizi sağlar.

6. Sayısal Azaltma(Numerosity Reduction):

Bu yöntemde gerçek veriler, matematiksel modeller veya verilerin daha küçük temsilleri ile değiştirilir, yalnızca model parametresinin saklanması önemlidir.

Sayısal azaltma parametrik ve parametrik olmayan yöntemlerle sağlanmaktadır.

Parametrik sayısal azaltma, orijinal veriler yerine yalnızca veri parametrelerini depolamayı içerir. Parametrik sayısal azaltmanın bir yöntemi, regresyon ve log-doğrusal yöntemidir. Parametrik olmayan yöntemlere ise kümeleme, histogram, örnekleme gibi işlemler tercih edilir.

Parametrik

· Regresyon ve Log-Lineer:

Veri kümesine doğrusal bir denklem modelleyerek iki öznitelik arasındaki ilişkiyi modeller. Log-lineer model, veritabanındaki iki veya daha fazla ayrık öznitelik arasındaki ilişkiyi keşfeder.

Diyelim ki, n-boyutlu uzayda sunulan bir dizi demetimiz var ve çok boyutlu bir uzayda her bir demetin olasılığını incelemek için log-lineer model kullanılır. Seyrek veriler ve çarpık veriler için regresyon ve log-lineer yöntemi kullanılabilir.

Parametrik Olmayan

· Histogram:

Veri kümesindeki bir verinin ne sıklıkla görüldüğünü frekans aralıklarıyla grafik olarak yansıtır. Histogram yoğun, seyrek, tek tip veya çarpık verileri temsil edebilir.

· Kümeleme(Clustering):

Veri kümesindeki benzer nesneleri birbirine benzeyecek fakat başka bir kümedeki nesnelere benzemeyecek biçimde gruplandırır. Bu benzerlik distance fonksiyonu kullanılarak hesaplanır. İki nesne arasındaki mesafe yani distance vektör ne kadar küçük ise bu kümenin kalitesi fazladır.

· Veri Küpü Toplama(Data Cube Aggregation):

Elimizde var olan verilerin amacımıza ulaşmamız için toplanıp tek bir alanda tutulması verinin daha küçük ve tek bir alan kaplamasını sağlarken veri kaybı olmadan bizi amaca ulaştırır.

Kaynakçalar:

https://binaryterms.com/data-reduction.html

https://www.ibm.com/docs/en/sanvolumecontroller/8.1.x?topic=STPVGU_8.1.3/com.ibm.storage.svc.813.learning/dataReduction_script.html

https://www.tutorialspoint.com/what-is-data-reduction

https://www.geeksforgeeks.org/data-reduction-in-data-mining/

https://www.techtarget.com/searchdatabackup/definition/data-reduction

https://www.purestorage.com/knowledge/what-is-data-reduction.html

--

--