Hürriyet Big Data Projects (Codename:Galactica)

Hurriyet Insights
Hürriyet Labs
Published in
4 min readJun 23, 2017

Hürriyet olarak bir süredir veri odaklı yapılanma üzerine yoğun şekilde çalışıyoruz. Bu çalışmalarımıza istinaden elde ettiğimiz deneyimleri veya hoşumuza giden araştırmaları ise sizlerle paylaşmayı planlıyoruz. İnternetin hayatımızda elektrik, su gibi vazgeçilmez bir yapı taşı olmasıyla birlikte medya sektörünün değişimi de kaçınılmaz olmaya başladı. Okuyucular bırakın 1 gün öncesinin haberini, tamamen o an oluşan haberleri anlık, doğru ve detaylı almak istiyorlar. Aynı şekilde yayın tarafı da okuyucuların tepkilerini anlık ölçmek, nabzını sürekli takip ederek ona göre içeriklerin sıralamasını değiştirerek haberin yayılımının en doğru şekilde olması için gerekli çabayı gösteriyorlar.

Bizim ekibimizin görevi ise Hürriyet ekosisteminde oluşan bu yüksek hacimli ve oldukça hızlı(!) verileri analiz ederek tüm paydaşlarımızın ihtiyaçlarını en doğru şekilde karşılamaya çalışmak. Dolayısıyla yeni bakış açımızla birlikte elimizdeki tüm verileri saklamak ana prensibimiz. O an talep edilen ihtiyaçlara göre bunlar işimize yarar, geri kalanları saklamamıza gerek yok şeklinde düşünmekten ziyade tüm verileri saklayalım ve gerektiğinde (şu anda gerekmek zorunda değil) çok boyutlu şekilde analiz edelim ve sonrasında da doğru ürünü çıkaralım ana prensibimiz.

Burada aslında Big Data kavramının temelini oluşturan (çok klişe bir cümle oldu bu) 3V problemlerinin tamamı fazlasıyla mevcut.

Velocity

Her ne kadar sektörlerin çoğunda yapılan tüm analiz çalışmaları t-1 gün prensibine dayansa da medya sektörü ve Hürriyet için bu durum pek mümkün değil. Bırakın t-1 gün ölçümünü t-1 dakika bile kabul edilemez. Onun yerine haberlerin farklı platformlar üzerinde oluşturduğu etkiler için anlık takip etmek gerekiyor. Bunun için Amazon Web Services üzerinde geliştirilmiş ElasticBeanstalk, Kinesis, Lambda ve Redis kullanılarak veri görselleştirilmesinin yapıldığı bir projemiz mevcut ve yeni gelen taleplerle birlikte sürekli gelişimi devam ediyor.

Volume

Yine bulut bilişimin güzelliklerinden faydalanarak (PaaS) kullanıcılarımızın anonim şekilde site ve uygulamalarımız üzerinde oluşturduğu tüm aksiyonları toplayarak çeşitli analizler yapmaya çalışıyoruz. Fakat mevzu bahis Hürriyet olunca bir günlük biriken verinin oluşturduğu miktar abartısız söylemek gerekirse Türkiye’de bulunan şirketlerin çok büyük bir çoğunluğunun ömrü boyunca oluşturduğu veri miktarından yüksek. Hal böyle olunca standart yapılarla bu veriden bilgi çıkartmak çok mümkün gözükmüyor.

Variety

Hürriyet tek bir ürün değil. Aslında her bir kategorisinin farklı dinamiklerinin olduğu, 3. parti şirketlerle (reklam vb.) verinin zenginleştiği ama bir o kadar da farklılaştığı bir sistem. Dolayısıyla kimi durumlarda her bir yapı için ayrı çalışarak elde edilen bu çeşitli verileri tek bir çatıda toplamak ve buradan bilgi çıkartmak ana işlerimizin başında yer alıyor.

Peki projenin ismi neden Gallactica?

Aslına bakarsanız çok bir nedeni yok. Adını ister Business Intelligence ister Business Analytics isterseniz Big Data Analytics koyun projeleriniz alt alta onlarca projeden oluşuyor. Bu projelerin sonunda ise yapmak istediklerimizin bazılarını sıralayacak olursak:

Descriptive olarak tanımlayabileceğimiz istatistiksel ölçümlemeleri anlık olarak gösterebilmek.

Bir istatistiğe kullanıcıların bize ihtiyaç duymadan (Self Service) çok boyutlu olarak bakabilmelerine olanak sağlamak.

Sabit incelenen istatistiklerin bir kullanıcı tarafından oluşturulmadan ihtiyaç sahiplerine yetkilerine göre otomatik olarak sistem tarafından gönderilmesini sağlamak.

“Doğru” Tüketimi arttırmak

Hangi konulara odaklanmamız gerektiğini, kıvılcım yaratabilecek outlier konuları tespit edebilmek.

İçeriklerin oluşturulması ile ilgili geri bildirimlerle yayın ekibini besleyebilir hale gelmek. (İçerik Optimizasyonu)

Machine Learning algoritmalarıyla okuyucularımızı daha iyi anlayabilmek ve onların tüketimlerine göre içerik önerebilmek.

Tüm ürünlerin her bir parçasını sürekli teste tabi tutarak en doğru yapıyı kurgulayabilmek.

Ve aslında bunun gibi daha nice kendimize koyduğumuz hedefler…

Hal böyle olunca birbiriyle iç içe onlarca projeden bahsediyoruz. Daha önceki dönemlerde Pangea(dünyanın tek parça olduğu zamanki adı), Victoria’s ( :) ) ve Olympus (Yunan mitolojisindeki alt tanrıların isimleri) isimlendirmeler yapmıştık.

Bu iç içe projeler için Hürriyet özelinde tespit ettiğimiz projenin ismi ise Gallactica. Uzay temalı yapımlardan nefret eden biri olarak öneriyi sunmamın sebebi ise Battlestar Gallactica dizisinin ömrüm boyunca izlediğim en iyi dizilerden birisi olması. Not: Evet hala diğer uzay temalı yapımları sevmiyorum.

Bambaşka bir yıldız takımında geçen dizide yer alan nesneler ve gezegen isimleri aslında bizim projelerimizin alt isimleri olarak karşımıza çıkıyor. Örneğin dizide yer alan Picon gezegeni bizim ekosistemimizde Hürriyet Seyahat ile ilgili projeyi temsil ederken, para birimi olan Cubid’in karşılığı bizim projede Bigpara. Tüketicimize otomatik durum raporlarını gönderdiğimiz yapının ismi ise Cylons, Eğitim projemizin ismi CMA şeklinde gidiyor.

Medium üzerinde yola çıktığımız bu süreçte başımıza gelenler veya sonuçlarla ilgili sık sık paylaşım yapmaya çalışacağız.

Torture the data, and it will confess to anything.

--

--