Herkesin Big Data’sı kendine

Herkesin bir fikrinin olduğu ama tam olarak nedir dendiğinde bir uzlaşıya varılamadığı bir kavram Big Data. Öyle ki Linkedin üzerinde 2014 senesinde yapılan araştırmada en çok trend olan konu yine big data ile ilgili veri analizleri veya alt yapılarla ilgili kısımlar. Rapor ile ilgili detayları bu linkte bulabilirsiniz. Harvard Business Review’ı incelerseniz sürekli bu konudan bahsediyor. Öte yandan ülkemize bakacak olursak bu konuda olumlu şeyler söylemek isterdim fakat son yıllarda sürekli “Big Data” seminerleri düzenleniyor ve hala neyin ne olduğu belli değil. “Big Data çok güzel bir şey” şeklinde başlayan cümleler artık sıkmaya başladı açıkçası.

Peki nedir bu Big Data. Aslına bakarsanız bu yazıda da tam bir oturmuş tanımlama olmayacak. Eskiden konu ile alakalı olanlar hatırlayacaktır Data Mining terimi bu şekilde trend olmuş durumdaydı. Herkesin dilinde. Excel üzerinden (hayır Data Mining Add-in’inden bahsetmiyorum) Data Mining yapanlar olduğunu düşünenler vardı. Evet gerçek hayatımda karşıma çıkmış bir durum bu. Elindeki bir kaç bin satırdan oluşan verileri Excel üzerinde Pivot tablo oluşturarak biraz daha okunabilir olmasına Data Mining yapıyorum diyenler karşımıza çıktı ve çıkmaya devam edecek. İşte terminoloji ve title türetmeyi seven bir grup olarak şu anki üzerine oynayacağımız ana tabir Big Data.

Hangi seminere gitseniz kiminle konuşsanız farklı bir yanıt alacağınız kavram olan Big Data’yı aslında iki farklı gözden incelemek gerekir diye düşünüyorum.

Birincisi henüz bu olayın yeni yeni öneminin anlaşıldığı kısım olan Pazarlama ve İşletme ağırlıklı gruba bakacak olursak Big Data yüksek hacimli veriler yardımıyla kısmen derin analizlerin yapıldığı ve bu analizler sonucunda karşılaşmış olduğumuz problemlere karşı çözüm üretebildiğimiz yapılardır. Bu grup için tek önemli olan nokta yüksek hacimli verinin işlenmiş ve sonucunda da bir problemi çözmüş veya stratejinin önemli bir parçası olmuş olmasıdır. Arka planda kullanılan teknolojinin çok bir ehemmiyeti yoktur.

İşletme ve Pazarlama gözlüğünü çıkartıp yerine IT profesyonellerinin gözlüğünün taktığımızda ise belli altyapıları kullanarak (Hadoop Ekosistemi) geçmişte gerçekleştirmenin imkansız olduğu veya katlanılamayacak derecede yüksek maliyetlere sahip olan çözümlerin çok daha rahat şekilde hayata döndürülmesidir. Bu gruptaki kulanıcılar bir üst gruptakilere göre daha keskin koşulları vardır ki esasen bu da kullanılan teknolojilerin belli olması durumudur.

Peki bizler niye böyle bir dönüşüme ihtiyaç duyduk? Hayır hayır buraya herkesin bildiği çok klişe olmuş 60 saniyede sosyal medyada olan olayları sıralamayacağım. Fakat sosyal medya platformlarının her birisinin karşılaştıkları sorunların teknoloji üreticiler ile çözülememesi ve kendi geliştirmiş oldukları sistemlerin Big Data ekosistemine katkısı yadsınamaz. Bu cümlem şaşırtıcı gelmesin çünkü ekosistemde yer alan servisleri incelediğiniz zaman arka planlarında ilk üreticilerin Facebook, Twitter, Linkedin, Yahoo vb. olduğunu göreceksiniz. Önce sorunu ele almak lazım. İlk sorun eski dönemlerde solda yer alan görselde de olduğu gibi IT kaynaklarının maliyetlerinin çok yüksek olması durumuydu. Bu sebeple kısıtlı kaynakları doğru kullanmamız ve boşa harcamamamız gerekiyordu. Bundan 10 sene önce geliştirilen yazılımların malesef yüksek bir çoğunluğunda yazılımın hata kodları (log dosyaları) saklanmıyordu. Eğer saklanıyorsa da belli periyotlar saklanıp sonrası farklı platformlara taşınıyor veya tamamen siliniyordu. Bunu gerçek hayatta da deneyimlemiş olabilirsiniz. Bazı ihtiyaçlarınız doğrultusunda gittiğiniz şirketlerden talep ettiğiniz dökümler dahi belirli bir dönemi kapsıyordu. Çünkü veri tutmanın maliyetleri oldukça yüksekti. Bu durum günümüzde pek kalmadı ve sürekli şekilde düşüş gösteriyor. Özellikle Bulut Bilişim sistemlerinde ihtiyaca göre ölçeklenebilir yapı doğru kurgulandığı zaman maliyet kalemlerimizi oldukça alt boyutlara çekebilmemizi sağlıyor.

Bir diğer konu bir şirket için eskiden belirli periyotlarda ve belli bir iki ana sistemden gelen verinin artık onlarca, yüzlerce farklı platformdan ve sürekli şekilde gelmesi durumu. Örneğin siz bir perakende şirketiyseniz işinize yarayan, analizlerinizde kullanacağınız müşteri verileriniz sadece sizde değildir. Bu tüm şirketler için böyle. Yaptığınız pazarlama faaliyetlerinin başarı oranından tutun, stok yönetiminize, kritik envanter planlanlarından insan kaynakları yönetiminize kadar şirketinizde olmayan ve şirketinizi ilgilendiren milyonlarca veri var. Ve sizin yapmış olduğunuz anlaşmalar neticesinde partnerlarınızdan alarak kendi sistemlerinizdeki verilerle entegre etmeli ve bunun sonucunda da anlamlı yapılar ortaya sunmalısınız. Burada esas konu sürekli akan veriyi işleme problemi. Evet gigabyte ve hatta yaptığınız yatırımlarla terabyte seviyesindeki verileri işleme konusunda RDBMS dediğimiz ve halen çok büyük oranda pazarı domine eden ürünler işimizi kurtarıyordu. Fakat kimi problemler için bu yapılar çözüm olmamaya başladılar. Diyelim ki bir uçak firmasında çalışıyorsunuz. Hatta bu firma Boeing olsun. Son günlerde gerçekleştirdikleri 38 Milyar dolarlık satış işlemiyle bu sıralar gündemde. Boeing uçaklarındaki sensörlerden saat başında yaklaşık 20 Terabyte veri üretimi gerçekleşiyor. Bu rakam şirketlerin çok büyük bir çoğunluğunun bu zamana kadar üretmiş oldukları veri miktarından çok çok daha fazla. (kullanıcıların download ettikleri filmleri saymazsak) veya özellikle benim izlemekten keyif aldığım ve saniyelerin kazanmanıza veya kaybetmenize neden olduğu Formula 1 yarışlarını ele alalım. İnsanların çalışma yaptığı işlemlerde bile saniyeler kritik. Pitstop’lar 1.923 saniyeye kadar düşebiliyor (Red Bull, Austin, 2013) Merak edenler buradan izleyebilir, ama çok kısa :) Bu yarışlarda araç başına ortalama 2000 sensör ile 200 GB civarında bir veri üretimi gerçekleşiyor. Peki bunlar nasıl analiz edilecek. İşte biraz önce bahsettiğimiz RDBMS sistemleri bu konuda ya yetersiz kalıyor ya da gerçekleştirilmesi çok yüksek maliyetlere sebep oluyor. Bu sebeple başta sosyal medya platformları olmak üzere bir çok mühendis bu büyük soruna cevap arayan çözümler geliştiriyor ve adına Big Data deniliyor. Her sektörde her alanda onlarca örnek hayatımız ta içinde. Mesela yakın bir tarihte iflasın eşiğine gelen Borussia Dortmund’un veya son dönemlerde oldukça başarı kaydeden Hoffenheim takımının başarı sebeplerini bir araştırın derim. Moneyball filmini hatırlayanlar için çok benzer bir örnek geçen sene karşımıza çıktı. Midtjylland Aşağıdaki video ise efsane pilot Ayrton Senna için Honda’nın veri görselleştirerek yaptığı bir çalışma ve Cannes Lions 2014 yılı ödülünün sahibi… Demek ki verinin boyutu kadar anlamlandırılması da önemli!

Kendi vucutlarımızı ele alalım. Çektirmiş olduğunuz bir MR ortalama 150 MB ediyor. Fakat gelişen teknolojiyle birlikte her bir MR’ın 1 GB tan fazla veri sağlayacağı belirtiliyor. Mamografi ise 120 MB civarında. Hal böyle olunca hastanelerde ortalama yıllık 600 TB civarında veri üretileceği varsayılıyor. Ülkemizdeki yapı ise elbette bu durumda değil. Malesef aklınıza gelebilecek en büyük hastanelerde bile her giriş yaptığımda telefon, kimlik vs. Bilgilerim hala isteniyor. Bir türlü veri anlamlandırılıp işe yarar hale getirilememiş. Yığın şeklinde duruyor.

Yine bir başka sorun klasik kullandığımız yapılarda veri türlerinin belli olmasıydı. Ne demek bu derseniz aslında mevcut veri tabanı sistemlerinin çok büyük bir çoğunluğu verileri tablo mantığında tutar ve bu tablolarda bulunan sütunların da veri tipleri bellidir. Ama günlük hayatımıza baktığımızda üretilen verilerin çok çok büyük bir kısmı bu şekilde değil de yapısal olmayan dediğimiz türde yer almaktadır. Burada kastettiğim oran yaklaşık %80 civarında. Örneğin klasik bir veri tabanı ile Breaking Bad dizisinin baş karakteri olan Jesse’nin dizi boyunca kaç kere Yo! Veya bitch kelimesini kullandığını tespit etmeniz oldukça güç.

Sözü daha fazla uzatmayalım. Üç ana başlık altında ihtiyaçların sıralandığı kısmı aslında yukarıda güncel örneklerle açıklamaya çalıştım. Bunlar Velocity (Hız), Variety (Çeşitlilik) ve Volume (Hacim) olarak karşımıza çıkıyor. Ve bu sorunlara karşılık olarak sunulan çözüm HDFS dosyalama yapısının üstünde yer alan Hadoop ismindeki platform ve onu temel alarak çalışan ürünlerdir. Bu konuda giriş yazısı olduğu için daha fazla detay vermeyeceğim. Fakat açık konuşmak gerekirse eskiden ve hali hazırda kullandığımız yapılardan çok daha farklı mantığa sahipler. Bu sebeple ucu bucu olmayan bir dünya ve Big Data’yı tanımlayanları iki gruba ayırmıştık ya işte o ilk grubun gördüğü kadar basit bir dünya değil. Aksine kendi görüşümü söyleyecek olursam her bir servisin kurulumunu, ne işe yaradığını, ne zaman kullanılması gerektiğini öğrenmek ve bunu çok yüksek boyutta yazılım dilleri ile yapmak açıkçası çok zorluyor. Fakat bu bile bir problem ve bunu problem olarak gören kişiler çözüm üretmişler. Bu çözümler ise Hortonworks, Cloudera, Amazon EMR, Azure HDInsight gibi çözümlerle size bu yapıların hazır kurulu olarak gelmesi ve sizlerin bu kurulu yapılar üzerine çalışmanıza olanak sağlanması.

Veri’nin ışığında dünyamızın nasıl değiştiğini işletme gözünden daha fazla görmek isteyenler için TED’in yayınlamış olduğu seminerleri şiddetle tavsiye ederim. Öte yandan yeni olan her konuda olduğu gibi bu konuda da türkçe kaynak bulmak oldukça zor. Eğer ki ben biraz daha teknik kısma girmek istiyorum derseniz Hakan İlter’in öncülük ettiği Devveri.com bu konuda bulunmaz nimet.

Not: eee yazının başında House Of Cards var. Bunun büyük veri ile alakası ne diyenler için buraya bi göz atmalarını tavsiye ederim. House of Cards’ın aldığı nefes büyük veri…