Plug & Play Predictive Analytics Platform mümkün mü?

İş Zekası (Business Intelligence) ekipleri yüksek miktarda veri üreten büyük şirketler için müşteriye yönelik trend’lerin takip edilmesinde kilit rolü olan ve yol gösterici ekiplerdir. Nitekim, BI ekiplerinden şirketin yakın geçmişinde neler olup bittiğine dair analizler ve raporlama yaparak pazarlama ekibini sürekli besliyor olması beklenmektedir. Ancak, 2000'lerin başıyla birlikte ortaya atılan ‘Predictive Analytics’ konusu bu alanda oyunu biraz değiştirmiştir. Artık şirketler, sadece geçmişte neler olup bittiğini öğrenmek ile yetinmeyip, geleceğe dair de öngörülerde bulunma ve bu yönde hızlı aksiyon alabilecek sistemler geliştirmek istemektedirler. Predictive Analytics uygulamaları ise bu ihtiyacı karşılamaya yönelik geliştirilen ve geleceğe yönelik hedefli pazarlama (‘Predictive Marketing’) teriminin ortaya atılmasına yol açan yeni bir alan olmuştur.

Peki bir predictive analytics girişimi, kendi platformunu (örn. Churn Tahminleme/Skorlama) farklı sektörlerden - telco, sigorta, bankacılık, e-commerce vs.- bir çok şirket için çalışabilen ve aynı zamanda entegrasyonu maximum 1–2 hafta içerisinde tamamlanan pratik bir ürün haline getirebilir mi?(Plug & Play)

Aslında problem, büyük şirketlerin bu tarz dışarıdan entegre olacak third party projelere yönelik zamansal tahammülsüzlüklerinden doğmakta. Yazının amacı ise böyle bir platformun entegrasyonunda süreci 1–2 haftaya indirmenin ve bu şirketler üzerindeki işi minimal hale getirmenin yollarını aramak, onların karşısına en hızlı ve başarı rakamlarıyla çıkabilmek, böyle bir platformun satış ekiplerinin kıvrak hareketleri ve laf cambazlığıyla değil de, nasıl kendi kendinin satışını kısa sürede yapabilen bir predictive analytics ürünü haline getirilebilir sorusuna yanıt bulabilmektir.

Bu yazıda herhangi bir Predictive Analytics-Data Mining projesi nasıl hayata geçirilir sorusuna cevap bulmaktan ziyade bu amaçla geliştirilen bir platformun nasıl ürün haline getirilebileceği üzerine yorumlarımı paylaşacağım. Bu sorunun cevabını aramadan evvel genel başlığıyla bir ‘data science’ projesinin sırasıyla hangi aşamalardan geçtiğini tanımlamak gerekir.

Aşama I : Veri Toplama (Data Collection)

Aslında hangi business problemine çözüm getiriyorsak getirelim bir Predictive Analytics uygulamasının başarılı sonuç vermesi tamamen verinin doğruluğuna ve aynı zamanda ne şekilde toplandığına bağlıdır. Başlangıç noktası veri olan bir işte eğerki temeli sağlam atılmamışsa bütün çabaların boşa çıkacağı aşikardır. Predictive Anaytics dediğimiz alan verideki ‘pattern’ ları yakalamak üzerine ortaya çıkmıştır ve bu yüzden verinin yanlış veya eksik olması sistemin sonunda başarıya ulaşıp ulaşmayacağını doğrudan etkileyecektir. İşin yanlış veri yükleme boyutunu şimdilik bırakıyorum. Nitekim, bugüne kadar tecrübe ettiğim kadarıyla verinin yanlış akmaya başlaması gecikmeli de olsa bir şekilde fark edilip önlem alınmaktadır. Verinin doğru akışına anlık çözümler bulmak açısından Streaming yapısına bir kontrol mekanizması yerleştirip — hangi kolonlar ne şekilde gelmeli, boş gelmemesi gereken kolonlar, kolon veri tipleri vs — bu tarz problemlerin çözümüne daha hızlı gidilebilir.

Bu başlık altında daha çok verinin ne şekilde toplanması gerektiği ile ilgili düşüncelerimi paylaşmak istiyorum. Verinin toplanması şirketlerde genelde ‘system design’ ya da ‘data infrastructure’ mühendisleri tarafından yapılmaktadır. Veri toplama her ne kadar Data Science ekiplerinin asıl işi olmasa da toplanan verilerin türleri belirlenirken kesinlikle bir data scientist’den önerileri ve yardımları alınmalıdır. Çünkü, verinin sadece toplanması yetmez, ayrıca ilerde çözülmesi muhtemel business problemlerine yönelik de tutulmuş olması beklenmektedir. Örneğin bir ‘Churn Prediction’ projesinde, belki business içerisinde şu ana kadar toplanan verilerle bir uygulama geliştirilebilir ancak gerçekten müşterinin churn olmasına neden olacak faktörler veride gizli değilse hep daha eksik ve zayıf bir uygulama ile yetiniyor oluruz. Örneğin, müşteri hizmetleri arama verisi toplanırken kimin ne zaman aradığının yanında ne sebeple aradığı,konuşma sonunda problemine çözüm bulunup bulunmadığı ya da görüşme süresi gibi veriler de eklenirse bu bilgiler ilerde oluşturulacak bir churn modelleme projesi için çok değerli olacaktır. Bu noktada ne tür verilerin toplanması gerektiği ile ilgili data scientist’ler etkili önerilerle gelmelidir.

Asıl konumuz olan bir predictive analytics platformu nasıl ürünleştirilir sorusuna geri dönersek, third party iş yapacak bir analitik platform girişimi veri toplama işine girmemelidir. Eğer, diyelim bir Churn Prediction platformu kendi verisini kendi toplamayı sağlıyorsa bunun hem dezavantajları hem de avantajları bulunmaktadır. Avantajı verisini kendi toplayan bir analitik platformunun bu aşamadan sonra diğer aşamalarda çok hızlı hareket kabiliyeti olduğunu söyleyebiliriz. Verinin bilindiği noktada -türü ve veri tipleri — analiz tarafında hızlı bir entegrasyona gidilebilir. Ancak, bunun dezavantajı ise bugüne kadar toplanan veriden faydalanamamak ve sistemin güçlü bir şekilde çalışabilmesi için yeterli verinin toplanması adına uzun bir süreye gereksinim duymasıdır. Varsaydığımız ürün ‘plug and play’ bir third party churn prediction platformu olduğundan biz var olan verinin işlenmesi üzerine yoğunlaşacağız. Bu noktada şunu belirtmeliyim : aynı işi yapan şirketlerde bile ‘verinin toplanması’ ile ilgili çok büyük farklılıklar bulunmaktadır. Örneğin, iki e-ticaret websitesinin gezinti verileri (“access log”) denilen ve ziyaretçilerin site üzerinde yaptığı aksiyonların (click, satın alma, görüntüleme vs.) bulunduğu veriler birbirinden çok farklı yapılarda tutulabilmektedir. Tam bu nokta aslında bir predictive analytics platformunun ürünleşmesi önünde duran en büyük engeldir. Başlangıç noktası -beslendiği yer- veri olan bu sistemlerde verinin bırakın farklı business alanlarını aynı işi yapan iki farklı yerde bile sabit olmadığı gerçeği bu tarz bir girişimin çözmesi gereken ilk ve en büyük problemdir. Bu aşamayı ürün entegrasyonun 1–2 hafta olduğunu öne süren bir predictive analytics platformu nasıl çözebilir? Bu aşamada garanti verebileceğim tek şey eğerki ürününüzü belirli bir business türü için — telco, web, bankacılık, sigorta vs. — özelleştirmezseniz bunun neredeyse imkansız olacağıdır. Herhangi bir data science projesinin başarıya ulaşması adına o alanda ‘iş bilgisi ya da uzmanlık seviyesi’ (business domain expertise) hayati önem taşımaktadır. Churn problemine çözüm bulacağınız alanda hiç tecrübeniz yok ise kesinlikle o business içerisinden tecrübeli kişiler ile iş birliği halinde olunmalıdır. Bu işbirliğinden kasıt — ne tür faktörlerin bu business’ın müşterilerinde Churn’e yol açacağının belirlenmesidir. Ki iddiamız 1–2 haftada entegrasyonu tamamlanan bir ürün olmaksa eğer bu noktada bilmediğimiz bir business için platform üretmek yanlış olacaktır. Yani, bütün business türleri için çalışacak bir Churn Prediction platformu kulağa pek inandırıcı ve mümkün gelmemektedir.

İş Bilgisi ve Uzmanlık hedef iş alanına yönelik geliştirilmeli
Aşama II : Verileri Birleştirmek (Data Integration)

Yaratılacak bir predictive analytics platformda ne kadar farklı türden ve kaynaktan beslenen veri kullanılırsa o kadar iyi sonuçlar alınacaktır. İşlenecek veri satın alma verisi (transactions), tıklama ve görüntüleme verisi (click and access logs), müşteri ilişkileri verisi (CRM), müşteri servisi verisi, sosyal medya verileri, reklam tıklanma verileri vs. gibi bir çok farklı kaynaklardan beslenebilir. Şirketlerin yapması gereken ilk hamle farklı platformlarda tutulan bu verilerin tek bir yerde (örn. hadoop cluster üzerinde veya cloud üzerinde) tutulmasıdır. Bu sayede, geliştirilecek bir analitik platformda bütün verilerden faydalanma imkanı bulunabilecektir. Örneğin, bir kişinin web sitenizde ne kadar zaman geçirdiğinin (click and access logs), şu ana kadar size ne kadar kazandırdığının (transactions), bu müşterinin bir problemi için müşteri hizmetleri ile görüşüp görüşmediğinin, sizin bu müşteri ile kampanya veya hizmetlerinizle ilgili iletişime geçip geçmemenizin (CRM), kişinin sosyal medya üzerinde sizin markanızdan ne şekilde bahsettiğinin bu kişinin churn olma olasılığını ne şekilde etkilediğini bu predictive analytics platformu sayesinde görebileceksiniz.

Yine bu noktada bir çok işletme için bu verilerin farklı veri kaynaklarında tutulduğunu varsayarsak ürün olma yolu ile işe koyulmuş bir predictive platform girişimi içerisinde iyi bir data engineer da bulunmalıdır. Bu data engineer gerekli durumlarda farklı kaynaklardan gelen bu verilerin aynı platform üzerinde toplanmasını sağlayıp, data scientist için bütün veriden faydalanma yolunu açmalıdır.

Ancak, tam bu aşamada böyle bir platformun ürünleşmesi adına istenen bir data formatı ve içeriği belirlenmelidir. Bu format, sonraki aşamalarda veri temizliği ve veri işleme adımlarına input olarak verilecek ‘raw data’ dediğimiz veridir. Yani, bir işletmeye entegre olup olamayacağınız sizin daha önce belirlemiş olduğunuz veri içeriğinin (taslağının), işletmenin var olan verisinden çıkarılıp çıkarılmayacağına bağlı olacaktır.

Örneğin çok basit bir şekilde var olan farklı kaynaklardan,

Access Log Data Formatı : UserID, Current URL, Page Type, Date, Referer Page, SessionID

CRM Data Formatı : UserID, ReasonID, Date

Transactions : UserID, ProductID, Date, Price

gibi sabit formatlı veri isteğinde bulunulmalı.

Bu girişim bünyesinde bulunan data engineer, entegrasyon (anlaşma) gerçekleşmeden önce bir fizibilite çalışması yapıp olası iş birliği yapılacak işletmenin verilerinden istenilen bu formatta veri elde edilip edilmeyeceği kontrolünü yapmalıdır. Bazı işletmeler ise third-party çalışanlarının bünyesinde in-house çalışmasını — veriye erişim sağlamasını- istemeyeceğinden kendileri de bu veriyi hazır etme misyonu yükleyebilir. Nitekim, hem işletmenin kendi bünyesindeki çalışanlarıyla bu “raw data” yı hazır etmeleri hem de bir fizibilite çalışmasından sonra bu verinin third party şirket bünyesinde çalışan bir data engineer tarafından hazır edilmesi Predictive Analytics Platformunun ‘Plug & Play’ bir ürün olmasının önünü açmaktadır.

Sabit bir “raw data” formatı belirlenmeli - gerekli fizibilite çalışmalarından sonra ya işletmeden bu veriyi sağlaması beklenmeli ya da girişim bünyesinde bulunan bir data engineer tarafından bu veri oluşturulmalı

İşin bu aşamadan sonra gelen kısımları aslında ilk iki aşamada karşılaşılabilecek büyük problemler çözüme ulaşmışsa çorap söküğü gibi hızlı devam edecektir. İşlediğimiz veriyi iyi biliyorsak Aşama III’de bu verinin temizliği (formatting) için de önceden tanımlanmış kural serileri data üzerinde çalıştırılacaktır. Yine aynı şekilde, aşama IV’de yer alan feature engineering için ekstra zaman harcanmayacak ve önceden kararlaştırılmış faktör seti (features) datadan çıkarılacaktır. Normalde, bir sektör ihtiyacına yönelik sıfırdan geliştirilecek data mining-predictive analytics projesinde en uzun süreyi alacak ‘feature engineering’ aşamasının böylelikle hızlı bir şekilde çalışması sağlanabilecektir. Sırasıyla aşağıda yer alan ve bu yazıda detaylarına girmeyeceğim aşamalar datanın gelişini ve formatını kontrol ettiğimiz durumlarda bir predictive analytics/data mining platformunun ‘plug & play’ pratikliğinde bir ürün haline gelmesi için engel teşkil edemeyeceklerdir.

Aşama III : Veri Temizliği (Data Cleaning/Munging)

Aşama IV : Probleme Yönelik Etkisi Olduğu Düşünülen Faktörlerin Veriden Çıkarılması (Feature Generation)

Aşama V : Modelleme (Modelling)

Aşama VI : Model Değerlendirme (Model Evaluation)

Aşama VII : Sistemin Canlıya Alınması (Production Integration)

Özetlemek gerekirse; predictive analytics üzerine ürünleşmek ve bir girişim başlatabilmek için altın 2 kural :

  1. Tek bir hedef sektör belirlenmeli ve bu sektörde iş bilgisi veya tecrübesi olan kişilerin girişim içerisinde olması gerekmektedir.
  2. Sektöre yönelik sabit bir data formatı input olarak belirlenmeli ve gerekli fizibilite çalışmaları yapılırken müşteri olacak business’ın var olan data schema’sından bu data formatının çıkarılıp çıkarılmayacağı önceden kararlaştırılmalı.
Asıl soru bu sabit input data formatı belirlenirken hedeflediğimiz sektörde bulunan business’ların tamamına yakınından bu datanın elde edilebiliyor olması gerekmektedir. Yani, geliştirilen platformun hedef sektördeki bütün oyuncular için çalışabiliyor hale gelmesi adına, bu sektörde toplanan veri ve veri tiplerinden muhtemel ortak olanları seçilerek bu formata son şekli verilmelidir. Bunun için de tabi ki ilk madde de belirtmiş olduğum hedef sektör özelinde geçmiş iş bilgisi ve tecrübesi (domain knowledge) en önemli ön koşuldur.

İşte bu iki aşama sorunsuz atlatılabildiği sürece bir predictive analytics-data mining platformu 1–2 hafta içerisinde entegrasyonu sağlanıp, ilk sonuçlar müşterinin dashboard’una yansıtılabilmiş olur. Nitekim, Salespredict ve Dataframed gibi predictive analytics şirketleri bu iki temel prensiplere kendi içlerinde çözümler getirerek bu şekilde ürünleşebilmeyi başarmışlardır. Bu iki şirketin de detaylı incelemelerini ve başarı hikayelerini bir başka yazıda aktaracağım.