Jak Spotify nakládá s našimi daty?

Adam Melničák
EDTECH KISK
Published in
6 min readJan 31, 2020

Spotify je považován za jeden z největších poskytovatelů v oblasti streamování hudby a podcastů od vybraných vydavatelů. Jeho uživatelskou základnu tvoří 248 milionu aktivních uživatelů za měsíc a jejich počet neustále přibývá. Spotify se od konkurence liší převážně svou možností customizace a rozšířením hudební znalosti nabízené uživatelům.

Unsplash

Se svými desítky miliony uživatelů, kteří si denně poslechnou svoji oblíbenou hudbu, Spotify každou vteřinou sesbírá neskutečný počet dat, se kterými náležitě dále pracuje. Tato data jsou například geografické umístění posluchačů, nejpoužívanější zařízení, hudební preference, data o oblíbené písničce/interpretovi a spousty dalších.

Tato všechna data se používají k vycvičení algoritmů.

Spotify má algoritmy na vytvoření personalizovaného obsahu pro uživatele na domovské stránce aplikace, u playlistů a vylepšení navrhovaných skladeb pro uživatele.

Jeden z příkladů práce algoritmu může být automatické pokračování playlistů, kdy algoritmus analyzuje písničku v daném playlistu a snaží se předpovědět hudbu, která by měla pokračovat. Tedy v případě, že necháme písničky hrát dále po tom, co dohraje náš playlist nebo album, hudba bude pokračovat dál ve stejném žánru, který jsme doposud poslouchali. Za tuto možnost je zodpovědný algoritmus, který kombinuje tři různé modely dohromady.

Collaborative Filtering

Collaborative filtering je model založený na zpětné vazbě od uživatelů a položek. Jedná se o explicitní feedback, kdy se na zpětné vazbě podílí samotný uživatel, který například ohodnotil film počtem hvězdiček nebo jednoduše interaguje s prostředím, ve kterém se daný film nachází. Collaborative filtering je považován za nejvíce používanou metodu při doporučování obsahu. Tenhle model doporučování obsahu začal jako první používat Netflix a poté jej začali využívat ostatní. Spotify však nepracuje s žádnými hvězdičkami, ale s implicitním feedbackem. Tento typ pracuje právě s položkami, u kterých neprobíhá žádná interakce. U Spotify se jedná například o počet streamování jednotlivých skladeb.

Collaborative Filtering analyzuje chování jak moje, tak ostatních lidí.

Zjednodušeně to tedy znamená, že umělá inteligence hledá playlisty, které jsou dost podobné uživatelovým playlistům a doporučí mu skladby, které jsou v těchto seznamech skladeb rozdílné. Spotify však při vytváření personalizovaného obsahu nebere v potaz jen činnost daného uživatele, ale i činnost celého světa. Porovnává playlisty a interprety podobné uživatelovu stylu hudby, které doposud ještě neslyšel, a přidává je k jeho obsahu.

Collaborative Filtering

Velkým problémem pro tuto metodu je takzvaný “cold-start problem”, kde v případě tvorby nového projektu tvůrce nemá k dispozici žádná uživatelská data a systém doporučování obsahu není schopný adekvátně pracovat. V tuto chvíli přicházejí na řadu další metody.

Natural Language Processing (NLP)

Zpracováním přirozeného jazyka v prostředí Spotify se rozumí detekování určitých klíčových slov nebo textů, které jsou následně kategorizovány a spojeny s tisíci dalšími termíny a převedeny do matematického vzorce. Umělá inteligence v tomto případě zkoumá metadata jednotlivých položek po celém internetu. Prohlíží si převážně písně, interprety, články o hudbě na internetu, diskusi a další texty spojené s hudbou.

Raw audio

Tento model využívá analyzování dat z raw audio nahrávky. Může být nápomocen při doporučování skladeb, které zatím nejsou tak známé. Zatímco collaborative filtering a NLP modely ve většině případu nezachytí a nedoporučí uživateli právě nově vydanou skladbu, která pasuje do jeho stylu, raw audio model tento problém napraví. Díky analyzování audio nahrávky bude ve spolupráci s kolaborativním filtrováním schopno rozpoznat skladbu a doporučit ji danému uživateli, který o ní ještě neslyšel.

BaRT

Tento model nazýván Bandits for Recommendations as Treatments je strojově učený algoritmus, který uživatelům spravuje hlavní stránku Spotify. Seřazuje písničky do určitých sloupců a řádků podle uživatelova vkusu a historii poslechu.

O jakých playlistech je tu vlastně řeč?

Discover Weekly

Discover Weekly je playlist, který se aktualizuje pravidelně každé pondělí. Hlavní pointa tohoto vytvořeného obsahu je, aby uživatel dostal každé pondělí třicet skladeb, o kterých doposud ještě neslyšel. Tyto skladby jsou šité na míru uživatelova vkusu, kdy díky umělé inteligenci je brána v potaz jeho historie poslechu, vlastní playlisty, aktivita dalších posluchačů a dokonce i to, jaké písničky má uživatel ve zvyku přeskakovat.

Tímto způsobem se totiž algoritmus učí i jaké písničky uživatel přehrávat nechce. Na základě toho, jaké písničky uživatel přeskočil hned v prvních třiceti vteřinách, co danou písničku slyšel, se algoritmus učí přizpůsobit jeho vkusu.

Discover Weekly

Discover Weekly dokáže pracovat i s takzvanou detekcí anomálií, kdy Spotify díky této technice dokáže rozlišit, zda doporučí uživateli danou skladbu do svého playlistu. Tato technika je obecně používána při detekování bankovních podvodů nebo chyb v textech.

U Spotify detekuje, zda uživatel při výběru skladeb projevuje normální vzorec chování, to znamená že při přehrání jednoho Baby Sharka algoritmus objeví danou anomálii a nezaplní hned playlist písničkami pro děti. Začaly by se tam objevovat až při pokračování ve stejném vzorku chování.

Hlavní ingrediencí jsou však jeho posluchači, kteří svými playlisty vytvářejí odraz vkusu hudby. Tento výběr lidí a jejich seskupení písní tvoří samotné jádro Discover Weekly doporučení a toho, jaký obsah daný uživatel v pondělí objeví ve svém seznamu.

Release Radar

Aby uživatel nepřišel o dávku nové hudby, umělá inteligence pro něj každý pátek aktualizuje playlist Release Radar, kde na základě uživatelova vkusu dostane až dvě hodiny nové hudby od jeho oblíbených interpretů, spojené s novými písněmi dle jeho vkusu.

Pro umělce vytvářející obsah na Spotify to znamená, že nová vydání jsou automaticky přidána do Release Radar každého sledujícího — tedy čím více sledovatelů daný tvůrce má, tím více posluchačů se dostane k jeho hudbě.

Daily Mix

Tyto playlisty jsou vytvářeny se skladbami vícero žánrů, které si posluchači v poslední době poslechli. Algoritmus pracuje s multižánrovostí posluchače, tedy čím více stylů uživatel poslouchá, tím více mixů umělá inteligence vytvoří. Uživatelům může být vygenerováno nanejvýš až šest různých mixů, přičemž každý z nich se liší různým žánrem. Čím častěji uživatel poslouchá daný Daily Mix, tím častěji se aktualizuje.

Unsplash

Spotify Wrapped a Taste Breaker

Spotify prostřednictvím těchto playlistů, které se aktualizují pouze jednou za rok, vytvoří pro uživatele seznam skladeb svých nejlepších 100 písní předešlého roku a seznam skladeb z žánrů, které uživatel skoro vůbec neposlouchal.

Spotify Wrapped shromažďuje veškerá uživatelova data, která následně analyzuje a vytváří každoroční přehled jeho vzorů při poslechu hudby. Díky této funkcionalitě má uživatel přehled o jeho nejoblíbenějším interpretovi, skladbě, žánru a počet minut strávených streamováním hudby.

Tento přehled představuje zřetelný příklad toho, jak pomocí shromažďování dat dokáže umělá inteligence zobrazit uživatelovu hudební identitu.

Umělá inteligence neudělá vše

Někteří začínající autoři takovou zkušenost s umělou inteligencí prozatím mít nebudou, kvůli své malé posluchačské základně. Proto se někteří uchylují k pochybným službám, které interpretům nabízejí měsíční posluchače, aby se daný autor dostal více do povědomí lidí.

Uživatelská základna je pro algoritmus velmi důležitá. Skladby se pohybují v playlistech nahoru a dolu podle jejich výkonu, který algoritmus bere v potaz. Jedná se o počet lidí, kteří si danou skladbu uloží do své knihovny, playlistu nebo do fronty puštěných písniček. Všechny tyto okolnosti podporují skladby v tom, stát se úspěšnějšími a virálnějšími, stejně jak je tomu i na YouTube.

Vynikající playlisty se bez velké sledovací základny daleko nedostanou.

Veškeré zásluhy nemůžeme tedy připisovat jen modelům, které si pomale žijí vlastním životem. V pozadí se toho děje ještě daleko více, od aktivního komunikování se svými uživateli přes různá fóra, sociální sítě až po propagování služeb. Všechny tyto lidské aktivity dokrmují umělou inteligence o další a další data, které může využít.

--

--