Big Data Kaç Gigabyte ?

Published in

Fiba Tech Lab

6 min readApr 13, 2021

Günümüzde son derece değerli ve popüler bir teknoloji olan Big Data, teknolojinin ilerlemesiyle birlikte gün geçtikçe daha çok değerleniyor. Dünyada birçok şirket, veri ile birlikte dijital dönüşümü gerçekleştirirken, bu dönüşüm Big Data’yı yeni bir devrin başlangıcı olarak tanımlıyor.

Aslında bizler verileri yıllardır kullanıyoruz. Veri tabanları, sorgulamalar, analizler tüm geliştiricilerin ve şirketlerin vazgeçmeden kullandığı teknolojilerdir. Teknolojinin ilerlemesi ve internet kullanımın artmasıyla birlikte hem verinin türü değişti hem de verinin hacimsel olarak büyüklüğü gün geçtikçe artmaya başladı. Yıllardır yapılandırılmış verileri(structured data) analiz ederken artık hem yarı yapılandırılmış(semi-structured data) hem de yapılandırılmamış verileri(unstructured data) toplama, saklama ve analiz etme ihtiyacı ortaya çıktı. Yapılandırılmış ve yapılandırılmamış verilerden yazının ilerleyen bölümlerinde tekrar bahsedeceğiz. Hacimsel olarak büyük verileri yönetmek de bir ihtiyaç haline geldi. İşte tam bu sırada hem hacimsel olarak büyük verileri hem de farklı türdeki verileri doğru bir şekilde saklayabilmek, performanslı bir şekilde sorgulayabilmek Büyük Veri Ekosistemi’nin ortaya çıkmasına sebep oldu.

İnternet kullanımının artmasıyla birlikte;

· Sosyal medya paylaşımları,

· Mobil cihazlardaki uygulama kullanımları,

· Web sayfalarında bıraktığımız loglar,

· Sensör verileri,

· Gerçek zamanlı veri analizi ihtiyacı,

· Makine öğrenmesi ve Yapay zeka teknolojilerinin veriye bağımlı olması

gibi bir çok veri ve sebep bir araya geldi. Büyük Veri teknolojileri sayesinde bu verileri toplamak, saklamak ve analiz etmek kolaylaştı.

Milyonlarca insanın her dakika internetteki, sosyal paylaşım sitelerindeki hareketleri exabyte hatta zettabyte büyüklüğündedir. 2020 yılında hayatımıza giren pandeminin bu kullanımların daha çok artmasında büyük etkisi olmuştur. Örneğin; 2019’da Twitter’da her dakika ortalama 481k twit atılırken, 2020 yılında ortalama 600k twit atılmıştır. Google’da her dakika 3.7 milyon arama yapılmaktadır. Dijital liderler için bu verilerin saklanması bile yüksek bir maliyet demektir. Oysa big data ekosisteminde açık kaynaklı dağıtık sistemler ile bu verileri birleştirerek daha az maliyetle saklamak ve bu verileri performanslı bir şekilde analiz etmek mümkündür.

Mevcut verilerinizin Big Data ekosistemine dahil olabilmesi için aşağıda bulunan 5 bileşene göre değerlendirilmesi gerekmektedir (5V kuralı olarak da bilinir).

1- Variety(Çeşitlilik) : Günümüzde veriler, sadece düz metin verileri ya da veritabanları şeklinde yapılandırılmış verilerden ibaret değildir. Bir çok kaynaktan alınan farklı türde veriler bulunmaktadır. Fotoğraflar(JPG)’de bir veridir, Zoom video kayıtları (MP4)’de bir veridir. Twitter paylaşımlarımız da birer veridir. Bu yüzden verilerin 3 türü bulunmaktadır.

Yapılandırılmış Veri: Verilerin formatı, metadata bilgisi, nasıl kullanılacağı ve şeması önceden belirlenmiş verilerdir. RDBMS, OLTP, işlem verileri örnek olarak gösterilebilir.
Yapılandırılmamış Veri: Bilinmeyen bir yapıya veya formata sahip herhangi bir veri, yapılandırılmamış veri olarak adlandırılabilir. Yapılandırılmamış verilerin boyutu çok büyüktür ve ondan değer elde etmek kolay değildir. Fotoğraflar, video-ses kayıtları, word dökümanları vb.
Yarı Yapılandırılmış Veri: Yukarıdaki verilerin her ikisini de içerir. Çoğu zaman, veriler tanımlanmış ancak yapılandırılmamışsa, yarı yapılandırılmış veri olarak sınıflandırılabilir. Yarı yapılandırılmış veriler, organizasyon özelliklerini içeren ancak geleneksel veritabanı biçiminde olmayan bilgileri içerir. JSON, XML dosyaları, vb.

2- Velocity(Hız): Büyük verinin üretilme hızı çok yüksektir ve her geçen gün bu hız daha da artmaktadır. Bu açıdan bakıldığında veriyi işleyecek, analiz edecek süreçlerin de büyük verinin üretimiyle aynı hızda olması gerekmektedir. Örneğin, müşterinin konumuna göre yapılan bir promosyon teklifi; müşteri o konumdan ayrıldıktan sonra müşteriye gönderilirse, başarılı olma şansı çok düşebilecektir. Bu da elde edilen verinin anlamsız olmasına neden olabilir. Yukarıda bahsettiğimiz “İnternette 1 dakikada neler oluyor ?” infografiği Velocity’e çok güzel bir örnektir. Bu kadar hızlı akan bir veriyi yönetebilmek büyük veri teknolojileriyle mümkündür. Hem verilerin toplanmasında hem analiz edilmesinde hız çok önemlidir.

3- Volume(Hacim): Büyük Veri dediğimizde herkesin aklına öncelikle hacimsel olarak büyük bir veri gelir. Veriler artık mevcut veri tabanlarına sığamayacak, geleneksel veri analiz teknikleriyle işlenemeyecek, terabayt ve petabaytlardan çok daha yüksek hacimsel seviyelere ulaşmıştır. Verinin boyutu verinin değerini belirler.

4- Verification(Doğruluk): Bu kadar hızlı ve büyük olan verilerin akışı sırasında, gelen verilerin güvenli olup olmadığını kontrol etmek gerekir.Çünkü kirli ve bozulmuş gelen verinin depolanması ve daha sonra analiz edilmesi ekstra vakit ve hatalı sonuçlara yol açabilir.

5- Value(Değer): En önemli bileşenlerden birisi de değer katmanıdır. Veriler yukarıdaki bileşenlerden filtrelendikten sonra analiz edilen verilerin şirket için artı değer sağlıyor olması gereklidir.

Büyük Veriyi Kimler Kullanıyor ?

Bilinenin aksine büyük verinin tek kaynağı sosyal medya paylaşımları değildir. Şirketlerin kendi içerisinde veri kaynakları oluşturduğundan ve bunlardan yararlanarak analizler yaptığından bahsetmiştik. Örnekler vermek çok daha anlamlı olacağından hemen örneklere geçiyorum.

Hükümet Kaynakları : Türkiye Cumhuriyeti Cumhurbaşkanlığı himayesinde, içerisinde büyük veri ekibi bulunacak olan Dijital Dönüşüm Ofisi kurulması kararlaştırıldı. Türkiye Cumhuriyeti sahip olduğu büyük veriler sayesinde, verileri hızlı ve düzenli bir şekilde analiz ederek;

· başta terör ve bilişim suçları olmak üzere suç önleme,

· trafik sıkışıklığıyla mücadele,

· kurumları yönetme ve hizmetleri yürütme

gibi bir çok konuda Big Data teknolojilerini kullanmayı hedeflemektedir.

Finans Sektörü : Finansal hizmet sektörü, geleneksel olarak veri bakımından oldukça zengin bir endüstri olarak karşımıza çıkıyor. Bu sebeple, farklı kaynaklardan elde edilen büyük miktarda veri ile finansal teknoloji (Fin-Tech) işletmelerinin artık Büyük Veri teknolojilerine her zamankinden daha çok ihtiyacı var. Bankacılık sektöründe Büyük Veri;

· Müşteriyi Elde Tutma ve Yeni Müşteri Kazanma,

· Kredi Skorlaması,

· Sektör Hakkında Daha Geniş Kamuoyu Elde Etmek,

· Dolandırıcılık Tespiti,

· DWH Optimizasyonu

gibi konularda kullanılmaktadır.

E-Ticaret Şirketleri : Bir çok e-ticaret firması site içi arama kayıtlarınızı, baktığınız ürünleri ve sepetinizdeki ürünleri analiz ederek ana sayfa vitrinlerini size özel (dinamik olarak) düzenlemektedir. Dünyanın en büyük e-ticaret firmalarından olan Aliexpress, ana sayfasını bu doğrultuda düzenlemektedir.

Spor : Almanya ve İspanya’da farklı takımlardaki teknik direktörler büyük veri ve Google Glass kullanarak futbolcuların maç esnasındaki performansını önceki maçlar ile kıyaslıyor. Futbolcunun performansı ile o maçın anlık durumuna bakarak değişiklik talimatı veriyor.

Alışveriş Merkezleri : Bir zincir market hava durumu verilerini müşteri alışveriş alışkanlıkları ile birleştiriyor. Böylece havanın yağışlı olduğu günlerde mağazanın hemen giriş kısmına koyulan şemsiyelerin daha çok sattığını keşfediyor. Mağaza ; yağış, müşteri kitlesi, en çok satılan ürünler bilgilerini birleştirerek mağaza içi reyon düzenini otomatik değiştiriyor.

Birçok kurum ve kuruluş dijital dönüşümden dolayı Big Data ekiplerini oluşturdular. Çünkü verisi en çok olan değil, o veriden en iyi anlam çıkartan, en iyi analiz yapan en güçlüdür.

“İster perakende, ister ulaşım, isterse ilaç sektörü olsun, tüm endüstrilerde büyük veri neticesinde inanılmaz boyutlarda ekonomik değer görülecek. Hatta bu değerler o kadar yüksek olacak ki, Dünya Ekonomi Forumu, kısa süre önce veriye ‘yeni petrol” adını taktı.” — Kevin Kelly’nin “Web 2.0” konferans konuşması,2012

Büyük Veri Teknolojileri

Büyük Veri Ekosisteminden bahsederken verinin toplanması, saklanması ve depolanmasından bahsetmiştik. Verileri yönetebilmek için büyük veri ekosisteminde çok fazla open-source (açık kaynak) teknoloji bulunmaktadır. Genelde bu kadar çok teknoloji yığınının bulunduğu durumlarda yazılımcılar topluluğu(community)’nun desteklediği popüler teknolojilerin tercih edilmesi doğru olacaktır.

Apache Hadoop: Hadoop, büyük verileri yönetmek amacıyla kullanılan açık kaynak kodlu bir kütüphanedir. Her türden yüksek hacimli veriyi depolama, çok yüksek işlem gücü ve neredeyse sınırsız sayıda eşzamanlı görevleri yönetme yeteneği bulunur. Dağıtık sistem mimarisini kullanarak büyük verileri verimli bir şekilde yönetmenizi ve işlemenizi mümkün kılar.

Apache Spark: Apache Spark, büyük verileri işlemek için kullanılan açık kaynak kodlu, dağıtık işlem mimarisi ile çalışan veri işleme sistemidir. Spark verileri hızlı bir şekilde sorgulamak için in-memory özelliğini kullanır. Her geçen gün geliştirilmeye devam eden Spark SQL, Spark Mllib, Spark Streaming ve GraphX adında farklı sorunlara çözüm bulmuş bileşenleri bulunmaktadır.

Apache Kafka: Veriler anlık olarak yüksek hacimlere ulaşabilir, bu verilere real-time’a yakın bir sürede tekrar ulaşılmak istenebilir. Apache Kafka sayesinde anlık gelen yüksek hacimde veriler düşük bir gecikme(latency) ile kontrol edilmektedir. Kafka, LinkedIn bünyesinde geliştirilip, sonrasında ise open-source bir hale gelmiştir. Apache Kafka düşük latency oranı ile real-time veri akışını sağlamak için verileri farklı sistemlere mesaj sistemi ile sunmaktadır.

NoSQL Veritabanları: Modern uygulamalara yönelik esnek şemalara sahip ve belirli veri modelleri için özel olarak tasarlanmış bir veritabanı türü olan NoSQL, uygun ölçekte geliştirme kolaylığı ve pratikliği, fonksiyonelliği ve yüksek performansı ile öne çıkmış, kısa sürede popülerlik kazanmıştır. NoSQL veritabanı grafik, anahtar değer, belge, bellek içi arama da dahil olmak üzere farklı veri modelleri kullanır.

Sqoop: İlişkisel veritabanında saklanan verilerin Hadoop üzerinde efektif biçimde işlenebilmesi için bu verilerin HDFS üzerine aktarılması gerekmektedir. Sqoop, ilişkisel veritabanları ile Hadoop arasında veri aktarımı için tasarlanmış açık kaynak kodlu bir araçtır. Zaten ismi de Sql-to-Hadoop kelimelerinden türetilmiş.

Bu yazımızda büyük verilerin oluşmasından, bileşenlerinden ve yönetilmesinden bahsettik. Önümüzdeki yazı serilerinde büyük verinin gizemli dünyasını keşfetmeye devam edeceğiz..

Kaynaklar;

What are the Characteristics of Big Data? | 5V's, Types, Benefits | Edureka

Big Data Characteristics are mere words that explain the remarkable potential of Big Data. This pinnacle of Software…

www.edureka.co

NoSQL Nedir? | İlişkisel Olmayan Veritabanları, Esnek Şemalı Veri Modelleri | AWS

Esnek veri modellerine sahip, yüksek performanslı, ilişkisel olmayan veritabanları NoSQL veritabanları, belirli veri…

aws.amazon.com