Nedir Bu Big Data ?

Ömer Gencay ÜNLÜ
DataBulls
Published in
4 min readJan 25, 2022

Son yıllarda Endüstri 4.0, Toplum 5.0, IOT vb derken, bu kavramlar arasında geçen bir de Big Data vardı. Peki bu Big Data ne demekti, hangi veriler bu kapsamda sayılabilirdi, ya da 60 TB’lik lık bir veri Big Data sayılır ise, 5 gb’lik veri Big Data değil demek midir ? Tüm bunlara bu yazımda kısaca değineceğim.

https://www.economist.com/leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data​

Yukarıda The Economist tarafından, 2017 yılında yayınlanan bir görselde, verinin bu yüzyılın yeni petrolü olacağı ve Facebook, Google gibi firmaların da bu kaynaktan değer üreten yeni firmalar olacağı resmedilmişti. Bu yıldan sonra niş çevrelerde yapılagelen veri analizi, veri bilimi, veri mühendisliği gibi kavramlar popüler olmaya başladı. Bunun sonucu olarak da veri yığınlarından anlamlı sonuçlar çıkarabilen firmalar rakiplerine ciddi farklar atmaya başladı.

Süreç içerisinden yaşanan teknolojik gelişmeler ve bilgisayar sistemlerinin insanların günlük hayatı ve işletme süreçlerine hiç olmadığı kadar entegre hale gelmesi sonucu, bir veri patlaması yaşandı. Bu kapsamda şirketler bu veri yığınlarından anlamlı sonuçlar çıkarmak adına veri analitiği çalışmalarına yöneldi ve big data adını verdikleri bir kavram ortaya çıktı.

Big Data denildiğinde, bu kavramı ele alırken yapısal olan( structured) ve bunun karşısında yer alan yarı yapısal( semi structured) ve yapısal olmayan( unstructured) veri kavramlarını anlamak gerekir. Zira big data denildiğinde sadece yapısal formattaki veriler değil, yapısal olmayan veya yarı yapısal formattaki verileri de içeren bir yapı anlaşılmalıdır.

Yapısal veri denildiğinde, biçimlendirilmiş ve iyi tanımlanmış ver modeline dönüştürülmüş bilgileri anlamak gerekir. Ham veriler, SQL üzerinden kolayca çağrılabilen ve okunabilen önceden tasarlanmış alanlara (kolonlara-tablolara) eşlenir. Satır ve sütun içeren tablolardan oluşan SQL ilişkisel veritabanları, yapılandırılmış verilerin en iyi örneğidir.

Yapısal olmayan veri denildiğinde ise, sosyal medya gönderileri, mesajlar, uydu görüntüleri, IoT sensör verileri, e-postalar ve sunumlar dahil olmak üzere birçok biçimden veri anlaşılmalıdır. Yukarıda açıklanan yapılandırılmış verilerin anlamı, önceden tanımlanmış veri modellerini izleyen ve analiz edilmesi kolay verilerdir. Yapılandırılmamı verilerde ise süreç aynı şekilde kolay değildir.

Not: ( Yarı yapısal olan verilere ise yazımızın kapsamını karıştırmaması adına şimdilik girmiyorum. )

Yani kısaca yapısal veriler hepimizin bildiği şekilde tablo olarak tutulan verilerken, yapısal olmayan veriler ise tablo şeklinde tutulamayan genelde satır veya sütun bazlı kayıt edilebilen veri tipleridir.

http://www.primarydigit.com/blog/-a-brief-introduction-to-column-oriented-databases

Bu kapsamda Big Data, klasik ilişkisel veri tabanı teknolojileri ile işlenemeyen veri olarak ele alınabilir. Bu da Big Data denildiğinde, RDBMS ( ilişkisel veri yönetim sistemleri ) ile ele alınamayan verilerin hepsi Big Data olarak anlaşılabilir anlamını çıkarmaktadır. Yani Big Data denildiğinde yüksek hacimli veri yığınları anlaşılmasından ziyade bunun hangi teknoloji ile işlenebileceği önemlidir. Bu nedenle de 5 gb ‘lik veri de big data olarak ele alınabilir.

Bir diğer yaklaşım ise, Big Data’nın V’leri olarak bilinen ve her geçen gün yeni bir tanesini türediği özellikler setine uyan veri tiplerinin Big Data olarak anlaşılmasıdır:

1- volume: Analiz edilmesi ve işlenmesi gereken veri setlerinin boyutunu ifade eder; günümüzde genellikle terabayt ve petabayttan daha büyük verileri kapsar.

2- Value: Bu ham veriden anlamlı sonuçlar çıkarılabilir nitelikte olmasını ifade eder.

3- Variability: Değişkenlik(Variability) çeşitlilikten farklıdır. Bir kahve dükkanı 6 farklı kahve karışımı sunabilir, ancak her gün aynı karışımı alıyorsanız ve her gün tadı farklıysa, bu değişkenliktir.

4-Veracity: Verilerin doğru olduğundan emin olmakla ilgilidir, bu da verilerin sistemlerinizde anlam ihtiva etmeyecek şekilde birikmesini önlemek için süreçler gerektirir.

5- Visualization: Görselleştirme, günümüz dünyasında kritik öneme sahiptir. Büyük miktarda karmaşık veriyi görselleştirmek için çizelgeleri ve grafikleri kullanmak, anlamak için daha yararlıdır

6- Velocity: Verilerin işlenme ve erişilebilir hale gelme hızıdır.

7- Variety: Çeşitlilik, büyük verinin en büyük zorluklarından birini tanımlar. Yapılandırılmamış olabilir ve XML’den videoya ve SMS’e kadar pek çok farklı veri türünü içerebilir.

İkinci yaklaşımın neticesinde Big Data denildiğinde, yukarıdaki özellikleri ihtiva eden veri Big Data olarak anlaşılmalıdır. Bu yaklaşım da özellik bazlı tanım olarak ele alınabilir.

Big Data denildiğinde bir diğer tanımlama yaklaşımı ise, Mimari Temelli yaklaşımdır. Scale-up metodlar ile yani, tek bir bilgisayarın donanımları artırarak işlenemeyen veriler Big Data olarak ele alınabilir.

https://microsegment.io/post/2019-09-15-scale-up-vs-scale-out/

Tek bir bilgisayar bazında donanım artırarak o veriyi işlemek mümkün olmamakla birlikte, birden fazla bilgisayarın daha küçük kapasiteye sahip donanımlar ile olsa dahi, yan yana birden fazla donanım ile çalıştırılabildiği Scale-Out yöntemler ile işlenebilen veri, Big Data olarak ele alınmalıdır.

Diğer Yazılar:

--

--