Analýza zákazníků firmy Liftago a vliv zmínek v médiích na výkon a růst firmy

Lenka Černáková & Lenka Hromádková

Jak jsme se daly dohromady

Už od začátku Digitální akademie nás nabádali ať se co nejdříve rozdělíme do dvojiček na projekt. Nám se to podařilo ještě před Meet your Partner. Ani jedna z nás neměla dřívější zkušenosti s oborem IT a na začátku Akademie jsme neměly ani tušení, jaké množství informací získáme a do jakých oblastí zvládneme v opravdu krátkém čase tří měsíců nakouknout. S Lenkou jsme se daly dohromady, protože nás obě baví cestování a hned jsme začaly plánovat projekt, který by se tomuto tématu věnoval. Náš nápad byl nástroj na predikci tzv. error fare letenek nebo nějaká aplikace na vyhledávání zlevněných letenek. Věděly jsme, že kamenem úrazu bude získání dat.

Na setkání s mentory jsme šly plny očekávání a myslely jsme si, že i s připraveným plánem, tedy nejen s přibližným nápadem na projekt, ale také ochotou přijmout téma projektu, kdybychom přišly na to, že původní plán je podle mentorů nereálný. I když jsme stále doufaly, že náš letenkový projekt vyjde. Během večera Meet your Mentor jsme však přišly na to, že naše představy nebyly příliš realizovatelné v rámci tak krátké doby, jakou jsme měly na projekt. Naštěstí nám naši mentoři nabídli téma projektu a data firmy a my jsme mohly začít pracovat.

Zadání projektu

Firma Liftago si připravila jako téma projektu “Vliv zmínek v médiích o Liftagu vs konkurence na výkon a růst firmy”. Cílem bylo zjistit, zda se nějakým způsobem projeví větší výskyt článků na téma Liftago a/nebo konkurenční platformy v médiích. Tato informace by byla přínosná především pro PR oddělení, aby vědělo, jak agresivní strategii má do budoucna nastavit.

Firma nám poskytla anonymizovaná data o objednávkách a jízdách svých zákazníků, a dále měla data o článcích sebraná za posledních několik měsíců, ale pro naší analýzu jsme potřebovaly data za alespoň jeden rok. Náš první úkol tedy zněl: Musíme z webu získat články na zadaná témata ideálně od podzimu 2017. V té době jsme poprvé slyšely něco o scrapování, API, psaní crawlerů apod. Daly jsme se tedy do googlení a zkoušení různých možností.

Protože jsme chtěly mít články z různých médií, rozhodly jsme se scrapovat Google News. Jako pomocníka jsme chtěly použít Apify, ale to ukázalo jako oříšek. Google nás měl neustále za robota, nechtěl spolupracovat a vydat nám potřebná data. Náš mentor nám poté poradil News API. To ze začátku vypadalo dobře - nezdálo se to nijak složité a výstup měl být v json a s tím by jsme už uměly dále pracovat - tedy než jsem se začetla do podmínek. Háček číslo jedna - zdarma jsme měly přístup pouze k článkům za poslední měsíc. Háček číslo dvě byl, že je to zaměřené především na americké a britské média. Se zaměřením na Českou republiku nebo na český jazyk lze vyhledat pouze “Top headlines”, takže bližší vyhledávání specifického téma nebylo možné. Další nástroj na scrapování webu, který našla Lenka, opravdu zafungoval a my jsme konečně měly nějaká data o článcích. Data Miner se nainstaluje přímo do Chromu, a poté se v něm vytvářejí tzv. recepty, které se v nástroji uloží a dají se používat opakovaně na obdobné rozložení stránky. Stažené výsledky lze následně vyexportovat do csv.

Z Googlu se nám tedy podařilo dostat 136 článků na téma Liftago za 1 rok zpětně. Nicméně z prvních vizualizacích bylo jasné, že výsledky nejsou dobré. Jelikož jsme měly málo článků, tak z vizualizací nešly vyčíst žádné závislosti. V tom přišla dobrá zpráva od našeho mentora, že by jsme v blízké době mohly získat data o článcích od jejich PR agentury. Super, sice se blížil termín na odevzdání projektu, ale to snad zvládneme.

RFM analýza

Během čekání na data o článcích, aby nám práce zatím nestála, jsme se po dohodě s mentorem, vrhly na RFM analýzu. Abych pravdu řekla, tak ani jedna jsme tento marketingový nástroj do té doby neznala. Přišel tedy opět na řadu strýček Google. Poslední měsíce jsme velmi dobří přátelé :) Nejdříve tedy trocha teorie, kterou jsme nastudovaly na internetu:

Největší přínos RFM analýzy spočívá v tom, že dává firmám příležitost pro zlepšení marketingových kampaní a hlubší porozumění zákazníkům. Jedná se vlastně o jednoduchou vizuální analýzu nákupního chování zákazníků, která je cenným zdrojem nových poznatků a souvislostí. RFM analýza segmentuje zákazníky ve třech dimenzích: Recency (podle času, který uplynul od posledního nákupu), Frequency (dle četnosti nákupů) a Monetary (podle celkové peněžní hodnoty všech nákupů daného zákazníka). Jakmile jsou zákazníci dobře rozděleni do jednotlivých segmentů, firmy dokáží velmi rychle a přesně vyhodnotit, jakou marketingovou strategii pro danou skupinu zákazníků zvolit, aby tito na specifickou reklamní nabídku zareagovali. Zákazníky, kteří už s velkou pravděpodobností nenakoupí, totiž nemá smysl oslovovat, zatímco ty, kteří utrácejí větší částky, můžeme zvát na speciální akce a komunikaci s nimi rozvíjet.

Potřebovaly jsme několik detailů o každém zákazníkovi:

  • ID zákazníka - nebo jakkoliv identifikovat zákazníka
  • Recency (R) - jako dny od poslední jízdy: Před kolika dny jel zákazník s Liftagem naposledy? V Pythonu jsme stanovily den D (poslední den za který jsme měly data) jako dnešní den a od toho jme odečetly poslední jízdu každého zákazníka. Získaly jsme tedy před kolika dny jel zákazník naposledy: před 1 dnem? Před 14 dny? Před 500 dny?
  • Frequency (F) jako celkový počet jízd: Kolikrát zákazník využil aplikaci Liftago a uskutečnil jízdu? Například pokud někdo uskuteční 10 jízd po určitou dobu, jejich četnost je 10.
  • Monetary (M) jako celková vynaložená částka: Obvykle se tato hodnota počítá v penězích, ale k těmto datům jsme za prvé neměly přístup a za druhé jsme po dohodě s mentory zjistily, že počet ujetých metrů bude lépe odrážet skutečnost. Sečetli jsme tedy počet ujetých metrů u každého zákazníka za poslední rok a doplnily jako hodnotu M.

Výstupem těchto výpočtů byla tabulka zákazníků a k nim napočítané konkrétní hodnoty. Super, první část hotová. Teď víme přesně, kdy který zákazník použil platformu naposledy, kolikrát za poslední rok jel a kolik kilometrů (tedy metrů) za poslední rok s Liftagem najezdil.

V dalším kroku bylo potřeba zákazníkům přiřadit skóre od 1 - 5, kdy zjednodušeně řečeno 1 je nejhorší a 5 nejlepší zákazník, a to v každé ze tří dimenzí (tedy R, F, a M). Na výpočet skóre se používají různé metody a každé firmě se může hodit jiná. My jsme nejdříve začaly s kvantilovou metodou, tedy rozdělení zákazníků do pěti stejně velkých skupin:

I když mnoho webů tuto metodu doporučují nám se výpočet ale příliš nelíbil. Výsledky se nám zdály zkreslené. Tak jsme přešly k další metodě, a to metodě tzv. expertního rozdělení dat. Tuto metodu je vhodné používat pokud známe dobře naše zákazníky, tedy data o našich zákaznících a víme kde chceme nastavit hranice mezi zákazníky při přiřazování skóre. Často je potřeba si s touto metodou trochu pohrát než podaří nastavit správný výpočet skóre. Naše nové výpočty tedy vypadaly takto:

Kód bude doplněn

Nakonec jsme vzaly skóre za jednotlivé dimenze u každého zákazníka a spojily do jednoho trojciferného čísla v pořadí Recency, Frequency, Monetary, takže jsme dostaly segmenty zákazníků od číselný hodnoty 111 (nejhorší zákazník) až po 555 (nejlepší zákazník). Aby jsme se v segmentech lépe vyznaly, tak jsme si je ještě pojmenovaly:

Champions - zákazníci, kteří jeli nedávno a jezdí často

Loyal Customers - jezdí často, ale nejeli v poslední době

Potential Loyalist - zákazníci z poslední doby, kteří ovšem nejsou tak častými zákazníky

Promising - podobně jako nový zákazníci, mají málo jízd, ale není to tak dlouho, co jeli

Need Attention - tito zákazníci spadají do průměru, ale se nejedná o ztracené zákazníky

About To Sleep - zákazníci, kteří nám pomalu usínají.

At Risk - jezdili často, ale nějakou dobu již nejeli

Can’t Lose - jezdili velmi často, ale již dlouho nejeli

Hibernating - spící zákazníci

New Customers - nový zákazníci

Text bude doplněn

Graf bude doplněn

Text bude doplněn

Graf bude doplněn

Závěr

Z těchto grafů a tabulek je možné nyní zjistit odpovědi na následující otázky:

  • Kdo jsou moji nejlepší zákazníci?
  • Kteří zákazníci jsou na hraně odchodu?
  • Kdo má potenciál být ziskovějším zákazníkem?
  • Kdo jsou ztracení zákazníci, kterým nemusím věnovat velkou pozornost?
  • O které zákazníky nesmím přijít?
  • Kdo jsou mojí věrní zákazníci?
  • Která skupina zákazníků s největší pravděpodobností zareaguje na mou aktuální kampaň?

Z RFM analýzy je potřeba vycházet při vytváření segmentovaných seznamů ve firemním e-mailovém nástroji a spustit automatické kampaně na vybrané segmenty. Získají se tím velmi přesně cílené kampaně na vysoce relevantní skupiny uživatelů a rapidně se tím zlepší výsledky. Pokud bude spuštěn například věrnostní program, Potenciálně loajální zákazníci by měli být první segment, na který se bude program zaměřen. Pokud budou osloveni několika propagačními akcemi, je velmi pravděpodobné, že využijí aplikace znovu.

Vplyv zmienok v médiách na vývoj a rast firmy

Témou nášho projektu bolo nájsť prepojenie medzi zmienkou v médiách a vplyvom na rozvoj firmy. Na transformácie a vytváranie nových tabuliek sme používali Keboolu, kde sme si importovali pôvodný dataset od Liftaga. Dáta, ktoré sme dostali od mentorov boli anonymizované a obsahovali dátum aktivácie účtu, vytvorenia objednávky, ID objednávky a jej status, ktorý mohol byť CANCELLED, TIMEOUTED a ACCEPTED. To, že zákazník vytvoril objednávku ešte neznamená, že sa uskutočnila jazda. Až potom, čo zákazník prijme ponuku po vytvorení objednávky sa vytvorí ID jazdy a status.

V Snowflake-u sme si z datasetu, ktorý obsahoval 4 milióny riadkov, vytvorili 2 hlavné tabuľky:

  • V jednej z nich boli napočítané všetky jazdy, objednávky, zákazníci, ktorí použili aplikáciu, počet zákazníkov, ktorí urobili v jeden deň viac, ako jednu jazdu a nové registrácie zoskupené podľa dňa.
  • V druhej boli napočítané nové registrácie a všetky jazdy týchto zákazníkov. Túto tabuľku sme si následne pretransformovali tak, aby obsahovala dátum registrácie zákazníka a iba jeho prvú jazdu, z čoho sme v Power BI vizualizovali priemerný počet dní, kým začne nový používateľ jazdiť.

Graf bude doplněn

Graf bude doplněn

Hneď na začiatku sme si povedali, že skúsime scrape-ovať Google News. Ako už bolo spomenuté vyššie, k dátam o článkoch na Google News sme sa pokúšali dostať cez rôzne služby ako Apify, News API či Data Miner. Prvé dve služby nám nepomohli, cez Data Miner sme úspešne získali 136 článkov, ktoré nám však veľmi neukázali odpoveď na otázku, či má zmienka v médiách vplyv na výkon a rast firmy Liftago.

Potom však prišla skvelá správa od mentorov - články budeme mať k dispozícii od ich PR agentúry. Blížil sa síce termín termín odovzdania projektu, ale povedali sme si, že to zvládneme. Od PR agentúry nám prišli 3 tabuľky. Jedna z nich sa týkala alebo zmieňovala Liftago a zvyšné dve obsahovali články o konkurencii -Uber a Taxify. V Snowflaku sme si prepojili všetky 3 tabuľky do jednej hlavnej, ktorej sme pridali stĺpec “Tema” obsahujúci z ktorej tabuľky článok pochádza, aby sme vedeli, koľko článkov denne vychádza o Liftagu a koľko zmieňuje konkurenciu.

Počet článkov, ktoré boli vydané v rozmedzí November 2017 až 2018.
Témy článkov vyskytujúce sa v jednotlivých dňoch.

K článkom sme potom pridali počet zákazníkov, ktorý sa v ten deň registrovali a hľadali sme koreláciu medzi vydaným článkom a počtom registrovaných užívateľov v konkrétny deň.

Graf bude doplněn

Bližšie sme sa pozreli na obdobie, kedy sa nám na grafe ukázal zhluk počtu vydaných článkov. Tieto dni sme potom porovnávali a vizualizovali sme k nim nové registrácie. V období, kedy vychádzalo najviac článkov (v mesiacoch február a marec) bol najvyšší počet registrovaných počas víkendu. Toto môže byť spôsobené vplyvom dlhodobého trendu, kedy počet registrovaných zákazníkov vzrastá najmä počas víkendu (piatok a sobota).

Graf bude doplněn

Podobne, ako sme hľadali prepojenie medzi vydanými článkami a registráciami, sme porovnali počet vydaných článkov a vytvorených objednávok v rámci rovnakého obdobia. Aj na tomto grafe prevláda trend, kedy sa najviac objednávok vytvorí ku koncu týždňa.

Graf bude doplněn

Bližšie sme sa pri porovnaní článkov a jázd pozreli na 2 obdobia, kde sme našli mierne rastúci trend v počte jázd. Jedným z nich bol február 2018, kedy bolo najviac vydaných článkov v prepočte na deň. Tieto články sa týkali najmä konkurencie. Druhým obdobím, ktoré sme bližšie vizualizovali, bol koniec septembra až koniec októbra, kedy sa pravidelnejšie vyskytovali články s témou Liftago. V týchto dvoch mesiacoch môžeme vidieť miernu závislosť, keďže počet jázd v tomto obdobi mierne vzrástol.

Graf bude doplněn

Témou nášho projektu bolo zistiť či majú zmienky v médiách vplyv na výkon a rast firmy Liftago. V kontexte nášho projektu za rast firmy považujeme:

  • registrácie nových zákazníkov
  • počty vytvorených jázd

Tieto dva ukazovatele sme analyzovali v závislosti k zmienke v médiách, čo v našom prípade boli vydané články získané od PR agentúry na tému Liftago, Uber a Taxify. Nepodarilo sa nám nájsť významnú koreláciu medzi vydanými článkami a rastom firmy. Identifikovali sme obdobia, ktoré sme hlbšie analyzovali a na ktoré by sa v budúcnosti Liftago mohlo v rámci ladenia svojej PR stratégie zamerať. Po konzultácii našich výsledkov o zmienke v médiách a jej vplyve na výkon a rast firmy s mentormi, sme prišli k záveru, že práca dátového analytika je občas aj o tom, že hypotéza sa nepotvrdí. :)

Záver

Jedným z dôvodov, prečo sme sa do Akadémie prihlásili bolo vyskúšať si prácu na projekte v oblasti dátovej analytiky a naučiť sa orientovať vo svete dát. Počas práce na projekte sme si vyskúšali prácu v programovacom jazyku Python, kde sme pracovali na RFM analýze. Čistenie dát sme robili pomocou SQL hlavne v Snowflake-u a používali sme Keboolu na ETL procesy a vytváranie nových tabuliek. Z vizualizačných nástrojov sme najviac využili Power BI a skúsili sme si aj prácu v Tableau.

Vďaka Akadémii sme sa toho veľa naučili a nahliadli do dátovej analytiky z teoretického aj praktického uhla. Zistili sme, čo obnáša práca dátového analytika, aká to je makačka :) a čo všetko sa ešte musíme doučiť. Najväčším prínosom pre nás bolo zistenie, ako vyzerá práca na konkrétnom biznisovom zadaní.

Na záver by sme chceli poďakovať mentorom z Liftaga za ich trpezlivosť, čas a cenné rady nielen na projekte, ale aj v oblasti dátovej analytiky.