Mutfağın Arka Tarafı: fakatiyiyedik.com

Koray Kocabas
Masa Lambası
Published in
7 min readSep 27, 2015

Aranızda henüz denk gelmemiş olan var mı bilmiyorum ama Fakatiyiyedik.com Yemeksepeti’nin kullanıcılara özel verilerinin anlamlandırılması ve analiz edilmesi sonucu ortaya çıkan bir mikro site. Örnek olarak CEO’muz Nevzat Aydın’ın hikayesini buradan izleyebilirsiniz: Bazı arkadaşlar İrlanda’lı arkadaştan dayak yiyen Aksaray esnafının birlik olup kurduğu site olduğunu sanmışlar hemen uyaralım öyle değil :) Twitter arama kısmında fakatiyiyedik yazarak kullanıcı tarafındaki geri bildirimleri de görebilirsiniz.

Özetle kullanıcı bilgileriniz ile girişinizi yaptıktan sonra karşınıza size özel video ve infografik bilgilerinin çıkmasının yanı sıra Bunları Biliyor Muydun kısmı ile sizin verilerinizden hoş istatistikler sunan ve günlük karşınıza çıkan sorulara tahmin yapabileceğiniz modülleri var. Peki biraz daha bu platformu ülkemizde yapılan sayısız dijital üründen farklı kılan nedir? Aslında yanıtı basit: Veri.

Ajansların yaptığı sayısız creative (?) işlerden en önemli farkı bu projenin tamamının veri odaklı ve onların işlenmesi, anlamlandırılması (sürekli) sonucu ortaya çıkması. Detaylarına ve aslında işin arka planına biraz sonra değineceğim fakat gerçek zamanlı ve büyük hacimde veri işlenen başka bir kampanya var mı ben bilmiyorum. Global ölçekte ise Facebook Memories vardı kısa dönemli yayınlanan. Bu yazıda ise proje üzerinden biraz Big Data, Data Analytics konularına değinmek ve ön tarafta sizlerin gördüğü hatta bazılarınızın “ne var ki gayet basit al datayı göster” diye düşündüğü işin mutfağını anlatmak istiyorum.

Önce Rakamlar

Daha detaya girmeden kısa bir rakamların üzerinden geçmek gerekir. Fakatiyiyedik.com projesi için her gün 4–5 farklı veri kaynağından alınan yaklaşık 8 milyar satır veri işleniyor ve bunun sonucunda yaklaşık 750 milyon satır sonuç ön tarafta sizin kullanımınıza sunuluyor. Bu sayede milyonlarca insan kendine özel videoları görüp, istatistiklerini inceleyebilir veya verilerini daha eğlenceli hale getirdiğimiz Bunları Biliyor Muydun kısmı ile eğlenebilir :) Bu projeyi diğer projelerden farklı kılan bir başka husus ise sizin siparişlerinize göre tekrar tekrar düzenli olarak hesaplanması. Hatta siz sipariş vermeseniz dahi tekrar tüm verileriniz analiz ediliyor. Çünkü sizin adınızla aynı olan (Koray’lar) veya sizin bulunduğunuz bölgeden sipariş verenler sizin tüm istatistiklerinizi değiştirebiliyor. Dolayısıyla bir kere tüm kullanıcıları analiz edelim, onların videolarını stoklayıp gösterelim gibi bir durum söz konusu değil. Siz yeni bir sipariş verin vermeyin bilgilerinizin tamamı tekrar tekrar hesaplanıyor. Siteye ve ilgili module ne zaman giriş yaparsanız o zaman video oluşturulmaya başlanıyor. Yazılım tarafındaki en büyük challenge buydu. Çünkü bu anın çok hızlı olması gerekir. Aksi halde siteye girdiniz ve biraz bekletildiğinizde siteyi terk etme oranınız çok yüksek olur. Hem o anda giriş yaptığınız tüm platformlarda çalışır şekilde video oluşturulsun hem en kısa sürede oluşturulsun istedik. Teknik olarak hırpalayan kısım aslında burasıydı. Günün sonunda yaptığımız çalışmalar sonucu verileriniz ortalama 0–1 milisaniye’de sunuculara gönderiliyor ve yine ortalama iki saniyede de video dosyalarınız oluşturulmuş oluyor.

Projenin teknik tarafına indiğimiz zaman ise video ve diğer bölümlerin sizlerin karşısına çok hızlı sunulması amacıyla tüm veri işleme Gartner’ın hype cycle grafiğinde de yer alan In Memory Analytics ile gerçekleştirildi. Projenin tamamında ise gelen talepler sonucunda ölçeklenebilir olması nedeniyle Cloud Computing servislerinin nimetlerinden fazlasıyla faydalanıldı.

Big Data isn’t Big

Artık bu tabiri kullanıldığında defalarca arka tarafta ne dendiğini anlamaya çalışıyorum. Kabul edelim Big Data veya Data Science seksi bir tabir. Bunu ben değil Harvard Business Review söylüyor. İşiniz nedir diyorlar Business Intelligence uzmanıyım diyordum. Hemen gelen soru Big Data falan mı? Kullanılmayınca sanki eksik kalınıyormuş gibi ülkemizde. Son yıllarda sayısız etkinlik oldu bu konu üzerine ve şaka gibi ama gerçek neredeyse hiç yapılmış bir örnek göremedim bildiklerim haricinde. Bundan sonra gerçekleşecek etkinliklerde “Yemeksepeti’nin Projesi” şeklinde kulaklarımızın çınlayacak olması ise içten içe sevindiriyor beni :) Büyük verinin büyüklük miktarı o kadar göreceli ki excel üzerinden big data yapıyorum diyen insanlara şahit oldum.

Fakatiyiyedik.com yapılan yüksek hacimli verinin işlenmesinden ötürü bir big data projesi olarak gözüküyor. Fakat projeden bağımsız olarak genel olarak söylemek istediğim şey önemli olan verinizin büyüklüğü veya boyutu değil, o veriden çıkardığınız anlam ve katma değerdir. Big Data uygulaması olmaksızın ortamlarda Terabytelarca verimiz var diye övünen şirket yöneticilerinin gözden kaçırdığı nokta bu. Olay disk hacimlerinizi doldurmak değil, bir problem bulup o problem için sakladığınız verileri inceleyip anlamlandırarak çıktı üretmek esas mesele.

Big Data is not useful

Bu başlık biraz kafa karışıklığına neden olabilir. Fakat gerçekler bu şekilde. sizin sakladığınız veriyi kullanmadığınız, anlamlandırmadığınız, bir probleme çözüm olarak kullanmadığınız veya o veriler üzerine bir strateji belirlemediğiniz sürece bir anlamı yok ve sektörde benzer pozisyonlarda çalışan arkadaşlarla yaptığımız sohbetlerin sonucunda çoğunlukla görmüş olduğumuz durum bu. Şirketler olur olmadık ürünlere milyonlarca dolar para akıtır sonrasında o ürün şirkette hiç kullanılmaz. Teradata‘nın oldukça gelişmiş bir ürününe para verip sonrasında eee bununla ne yapalım diyen şirket yöneticileri ile karşılaştım. Büyük veri diye tabir ettiğiniz veri yığını kelimenin tam anlamıyla kullanışlı değil. Altyapısı klasik IT uzmanlarının hayatları boyunca yaşadıkları ve uyguladıkları tüm deneyimlerden farklı ve hakikaten uğraşması hiç kolay değil. ve karşılaştığınız problemler… küçük verilerle ne var ki pıt diye yaparım diye düşündüğünüz işlemler dahi yüksek hacimli verilerle çalıştığınızda sorun olarak karşınıza çıkabiliyor çünkü limitleriniz belli. Çalışma süresi kısıtınız var, sunucu kısıtınız var (Cloud var derseniz onun da maliyet kısıtı var) ve daha bunun gibi bir çok problemi çözmek ama bu sırada da sizden istenen kısmı yapmak durumundasınız.

Öte yandan Big Data olarak kastedilen alt yapıların (hadoop, hdfs) içerisinde bir anda hayatımıza giren onlarca ürün oldu. Ve bunlar henüz çok yeni olduğu için probleminiz karşısında hangi ürünü kullanmanız gerektiğinin tespiti kimi zaman sorun olabiliyor. (hadoop mu spark mı, hive mi hbase mi, impala mı presto mu, mongo db mi couchbase mi şeklinde kafanızda onlarca soru oluşabilir)

Dark Side of Data

Bu kısa tanımlardan sonra gelelim yine projemizin karanlık taraflarına. “ne var ki gayet basit al datayı göster” kısmı evet 5.000 -10.000 kullanıcı özelinde yaptığınız zaman kolay fakat işin zevkli ve beni heyecanlandıran yanı bunu milyonlarca kullanıcının olduğu milyarlarca satır işlemek zorunda kaldığınız yapıda ve limitli zaman aralığında her gün çalışır halde uygulamak.

Şirketlerin yeni petrolu veridir. Bu sözü her yerde duyuyorsunuzdur. Burada ilk akla gelen şey petrolun değerli olması ile verilerin de değerli olduğunun anlaşılması fakat işin gerçeğinde başka bir boyut daha var. Tıpkı petrolun değerli olması için ciddi süreçlerden geçerek ürün (benzin vs.) olması gerektiği gibi verileriniz de benzer zorlu süreçler sonrasında değerli oluyor. Örneğin bu projede ilk video bölümünde sizin isminizin seslendirilmesi kısmı. Açık konuşmak gerekirse projenin en zorlayıcı kısımlarından birisiydi. Çünkü üyeler isimlerini istediği şekilde yazabilir ama arka planda çalışan yazılımlar hepsini farklı algılar.

Çiğdem, ÇİĞDEM, Çigdem, Cigdem, CIGDEM , A. Çiğdem, A Çiğdem, Çiğdem Damla şeklinde üretilecek tüm değerler aslında makine dilinde farklı. Sizin bunları işleyerek hepsinin Çiğdem olduğunu anlamanız gerekiyor ki video bölümünde ismi okunabilsin. Aynı şekilde Volkan, VOLKAN, Wolkan, Vollkan, Wolkann kullanıcı isimlerde de benzer bir çözüm bekleyen sorun. Veya Bunları Biliyor Muydun kısmında doğru analiz sunulabilsin. Aksi taktirde A. Çiğdem isimli şahıs her alanda 1. sırada çıkacaktır. Bunların tespiti için tıpkı google’ın bunu mu demek istedin bölümündeki gibi benzerlik algoritmaları kullanıldı. Tabi sansürlü kelimeleri kullanarak isim yazan kullanıcıları da analizlerden temizlememiz gerekliydi. Bazen küfür lügatımıza şaşıyorum hakikaten. En basit yer olan isimlendirmede bu denli efor sarfedilirken cinsiyet tespiti, burçlara göre analiz ve daha bir çok basit gözüken yerlerdeki çalışmanın zorlayılıcılığını düşünün.

Büyük verinin en çok kullanılacağı sektörlerin başında Pazarlama geliyor her ne kadar ülkemizde çok kullanılmıyor olsa da. Bu her zaman Fakatiyiyedik.com projesinde olduğu gibi son kullanıcının göreceği şekilde olmak zorunda değil. Aksine departmanların harcamış olduğu yüksek miktardaki maliyetlerin ölçümlenmesi için de çok kullanılabilir. Geçmişte yazdığım bir yazı bu konuda ilginizi çekebilir. (Not Mad Men, Math Men)

Projenin birinci fazında sizlerin görüp kullandığı moduller için yüksek hacimli verilerle çalışıldı. Fakat projenin başarı seviyesinin nasıl ilerlediğine dair de arka planda bir çok analiz gerçekleştiriliyor. Öyle ki son kullanıcının micro site üzerinde yaptığı aksiyonlar ve onunla ilgili verilerin aktarım hızları tamamen analizimizin içerisinde yer alıyor. Bu sayede hangi kullanıcı ne zaman gelmiş nereyi tıklamış video kısmında ne kadar süre geçirmiş bunları biliyor muydun kısmında hangi sorular ile karşılaşmış gibi bilgilere istediğimiz boyutlarda ulaşabiliyoruz. Proje bir defaya mahsus değil günlük olarak yüksek veri analizi içerdiği için bunların işlenmesi ciddi öncelik arzediyor. Bu sebeple kullanıcıların taleplerine en hızlı şekilde yanıt verebilmek için in memory analytics teknolojilerinden faydalandık.

Öte yandan siteye gelip videonuzu izlemeniz, size özel hazırlanan infografik verilerini incelemeniz haricinde bize nasıl geldiğiniz ve paylaşımlarınız da önem arzediyor. Bu sebeple hangi kanaldan geldiğiniz (organic, twitter, checkout sayfası, email vs.) ve yapmış olduğunuz aksiyonlara göre pazarlama bütçesini (sadece parasal kaynak değil, zaman kaynağı da) revize edebiliyoruz. Öte yandan sitede ne kadar kaldınız neleri paylaştınız (dolayısıyla bizim brief sürecinde kullanıcı davranışa yönelik tahminlerimiz tuttu mu) sizin paylaşımlarınız ne kadar etkili (Video’unuzu yayınladığınızda hangi zaman aralığında kaç farklı kullanıcı izledi, tweetlerinizin gücü) gibi konuları araştırıyoruz ki bu durum aslında büyük veri analizini iceberg olarak tanımlarsak suyun altında kalan tarafını temsil ediyor.

Bence ilerleyen dönemlerde en çok Big Data kullanılacak alanların başında burası geliyor. Video yayınladık ama kaç kişi izledi sorusunun çok daha ötesinde nasıl geldiler, ne etkili oldu, değişime nasıl ayak uydurmalı ve sürdürülebilir olmalı gibi daha bir çok alanda analitik çalışmalar yapılacak. Tıpkı başka bir projede yapmış olduğumuz televizyon reklamımızın medya planlarına near to real time revize vermemiz gibi. Dijital mecralar pazarlama bütçesinden her geçen yıl daha fazla pay alsa da ülkemizde televizyon reklamları hala çoğunluğa sahip. (Bildiğim kadarıyla İngiltere’de başabaş noktasına geldiler) Dolayısıyla yayınlamış olduğum reklamın etkisini ölçümlemek çok önemli. Hangi kanal, hangi saat, hangi program daha verimli.

Çok fazla lafı uzatmadan özetlemek gerekirse büyük veri analizi her geçen gün çok daha fazla hayatımızda yer alacak. Özellikle Pazarlama departmanlarının. Fakat büyük verilerle uğraşmak hiç de göründüğü kadar kolay değil, aksine hiç beklemediğiniz anda Murphy ile karşılaşma olasılığınızın çok yüksek olduğu ve hakikaten ciddi emek isteyen bir alan. Umarım bu şekilde veri odaklı, kullanıcı davranışlarını inceleyen ve buradan elde ettiği sonuçlarla aksiyona geçen daha çok ürün ile karşılaşma şansımız olur.

Biraz dağınık anlattım sanırım ama eğer bu tarz konular ilginizi çekerse Medium’da yayınlamış olduğum eski yazılarıma göz atmanızı tavsiye ederim.

Istediğiniz zaman aklınıza takılan ve sormak isteyeceğiniz konular için benimle iletişime geçebilirsiniz.

--

--

Koray Kocabas
Masa Lambası

SQL Server MVP, Business Intelligence, Statistics, Galatasaray, @misjournal, Social CRM, @yemeksepeti, The Godfather, Instructor @Bahcesehir