Big Data Kaç Gigabyte ?

Talha KILIÇ
Deep Learning Türkiye
4 min readAug 27, 2018

Günümüzde son derece değerli ve popüler bir teknoloji olan Big Data, teknolojinin ilerlemesiyle birlikte gün geçtikçe daha çok değerleniyor. Dünyada birçok şirket, veri ile birlikte dijital dönüşümü gerçekleştirirken, bu dönüşüm Big Data’yı yeni bir devrin başlangıcı olarak tanımlıyor.

Aslında bizler verileri yıllardır kullanıyoruz. Veri tabanları, sorgulamalar, analizler tüm geliştirici ve şirketlerin vazgeçmeden kullandığı teknolojilerdir. Fakat teknolojinin ilerlemesi, internetin gelişmesiyle birlikte milyarlarca veri oluştu.

  • sosyal medya paylaşımları,
  • mobil cihazlardaki uygulama kullanımları,
  • web sayfalarında bıraktığımız loglar,
  • nesnelerin interneti sayesinde oluşan sensör verileri

gibi bir çok bilimsel ve bilimsel olmayan veri bir araya geldi. Bu durum, arkasından hayal bile edemeyeceğimiz bir ekosistemi ortaya çıkardı. İşte tam olarak Big Data dediğimiz ekosistem aslında sadece verinin büyüklüğü değil; verinin toplanması, analiz edilmesi, saklanması yani veriden bir değer kazanılmasıdır.

Birçok kurum ve kuruluş bu değişimden dolayı Big Data ekipleri oluşturdular. Çünkü verisi en çok olan değil, o veriden en iyi anlam çıkartan, en iyi analiz yapan en güçlüdür.

Dijital liderlerin teknolojiye ayırdıkları bütçe grafiği — 2017

Sosyal medyanın hayatımızda vazgeçilmez bir yeri bulunmaktadır. Milyonlarca insanın her gün sosyal paylaşım sitelerinde hareketleri exabyte hatta zettabyte büyüklüğündedir. Örneğin; Twitter’da her dakika 481k twit atılmakta, Google’da her dakika 3.7 milyon arama yapılmaktadır. Dijital liderler için bu verilerin saklanması bile yüksek bir maliyet demektir. Oysa big data ekosisteminde açık kaynaklı dağıtık dosya sistemleri ile bu verileri birleştirerek daha az maliyetle saklamak ve bu verilerden anlamlı sonuçlar elde etmek mümkündür.

İnternette 1 dakikada neler oluyor ? — jacobsmedia.com/wait-internet-minute

Elinizde bulunan her exabyte seviyesindeki veri Big Data mıdır ? Mevcut verilerinizin Big Data ekosistemine dahil olabilmesi için aşağıda bulunan 5 bileşenden en az birine sahip olması gerekmektedir (5V kuralı olarak da bilinir).

Variety(Çeşitlilik) : Verilerin belirli bir türde olmasına gerek yoktur.Resimler,text,log dosyaları,ses dosyaları gibi bir çok veri türünde olabilir.Bütünleşik ve birbirlerine dönüştürülebilir olmaları gerekmektedir.

Velocity(Hız): Yukarıdaki grafikte her bir dakikada sosyal medyada oluşan veri miktarı gösterilmişti.Veri tıpkı sosyal medya verileri gibi çok hızlı ve sürekli elde edilmesi gerekir.Tabi aynı hızla da işlenmesi gerekir.

Volume(Hacim): Bir verinin ‘büyük veri’ olup olmamasının en önemli şartı ciddi boyutlarda olmasıdır.Verinin boyutu verinin değerini belirler

Verification(Doğruluk): Bu kadar hızlı ve büyük olan verilerin akışı sırasında, gelen verilerin güvenli olup olmadığını kontrol etmek gerekir.Çünkü kirli ve bozulmuş gelen verinin depolanması ve daha sonra analiz edilmesi ekstra vakit ve hatalı sonuçlara yol açabilir.

Value(Değer): En önemli bileşenlerden birisi de değer katmanıdır.Veriler yukarıdaki bileşenlerden filtrelendikten sonra analiz edilen verilerin şirket için artı değer sağlıyor olması gereklidir

Büyük Veriyi Kimler Kullanıyor ?

Bilinenin aksine büyük verinin tek kaynağı sosyal medya paylaşımları değildir. Şirketlerin kendi içerisinde veri kaynakları oluşturduğundan ve bunlardan yararlanarak analizler yaptığından bahsetmiştik. Örnekler vermek çok daha anlamlı olacağından hemen örneklere geçiyorum.

Hükümet Kaynakları : Türkiye Cumhuriyeti Cumhurbaşkanlığı himayesinde, içerisinde büyük veri ekibi bulunacak olan Dijital Dönüşüm Ofisi kurulması kararlaştırıldı. Türkiye Cumhuriyeti sahip olduğu büyük veriler sayesinde, verileri hızlı ve düzenli bir şekilde analiz ederek;

  • başta terör ve bilişim suçları olmak üzere suç önleme,
  • trafik sıkışıklığıyla mücadele,
  • kurumları yönetme ve hizmetleri yürütme

gibi bir çok konuda Big Data teknolojilerini kullanacaklar.

E-Ticaret Liderleri : Bir çok e-ticaret firması site içi arama kayıtlarınızı, baktığınız ürünleri ve sepetinizdeki ürünleri analiz ederek ana sayfa vitrinlerini size özel (dinamik olarak) düzenlemektedir. Dünyanın en büyük e-ticaret firmalarından olan Aliexpress, ana sayfasını bu doğrultuda düzenlemektedir.

Spor : Almanya ve İspanya’da farklı takımlardaki teknik direktörler büyük veri ve Google Glass kullanarak futbolcuların maç esnasındaki performansını önceki maçlar ile kıyaslıyor. Futbolcunun performansı ile o maçın anlık durumuna bakarak değişiklik talimatı veriyor.

Alışveriş Merkezleri : Bir zincir market hava durumu verilerini müşteri alışveriş alışkanlıkları ile birleştiriyor. Böylece havanın yağışlı olduğu günlerde mağazanın hemen giriş kısmına koyulan şemsiyelerin daha çok sattığını keşfediyor. Mağaza ; yağış, müşteri kitlesi, en çok satılan ürünler bilgilerini birleştirerek mağaza içi reyon düzenini otomatik değiştiriyor.

“İster perakende, ister ulaşım, isterse ilaç sektörü olsun, tüm en­düstrilerde büyük veri neticesinde inanılmaz boyutlarda ekonomik değer görülecek. Hatta bu değerler o kadar yüksek olacak ki, Dün­ya Ekonomi Forumu, kısa süre önce veriye ‘yeni petrol” adını taktı.” — Kevin Kelly’nin “Web 2.0” konferans konuşması,2012

Büyük Veri Teknolojileri

Yazının başından beri anlatmaya çalıştığım Big Data ekosistemi, aslında bir çok web sitesinde, makalede görebileceğiniz kısımlardı. Big Data’yı veri setleriyle analizler yaparak daha detaylı öğrenmek ve projeler geliştirmek için yazı serisi başlatıyoruz. Bu yazı serisinin Big Data teknolojilerini öğrenmek isteyenler için Türkçe kaynak niteliğinde olmasını ümit ediyorum.

İlerleyen haftalarda düzenli olarak bir teknolojiyi inceleyerek analizler yapacağız. Bir teknoloji öğrenirken sadece kodlamasını değil,o teknolojinin neye çözüm ürettiğini,nasıl oluştuğunu ve mimari mantığını anlatmaya çalışacağım.

İnceleyeceğimiz teknolojiler ;

  • Apache Hadoop (HDFS, MapReduce),
  • Apache Pig,
  • Apache Hive,
  • Apache Spark (Core, Sql, ML)

İlgi duyanları yazı serimize beklerim.

--

--