Dålig metadata kan allvarligt skada affären — så ska MittMedia lösa problemet

Det gäller att förstå innehållet användarna konsumerar om man skall förstå dem

För drygt ett år sedan lanserade vi i Mittmedia vår Plusstrategi för betalt innehåll.
Det betyder att det viktigaste vi säljer i dag är inte längre våra läsares uppmärksamhet till annonsörer utan vårt egna innehåll direkt till våra läsare. I dag har Mittmedia fler än 50 000 betalande digitala kunder och flera av våra titlar har haft ökande upplaga just tack vare vår digitala affär.
Men precis som alla andra bolag med en prenumerationsmodell har vi ett stort problem; churn, eller på svenska kunder som hoppar av.
Det finns många anledningar till att kunder lämnar oss men den kanske vanligast förekommande är att ”läsaren hittar inte lika mycket intressant innehåll som hen förväntar sig”.
Det är ju väldigt beklagligt och något vi vill åtgärda, men problemet är mer komplicerat än att det inte finns tillräckligt med innehåll. Bryter man ner den problemformuleringen i delproblem förstår man helheten bättre och kan till och med se flera möjligheter att förbättra situationen.

Läsaren hittar inte lika mycket intressant innehåll som hen förväntar sig”
Varje läsare är unik. Alltså, för att lösa det här problemet måste vi tillfredsställa de individuella läsarnas behov och hitta en lösning som anpassar sig lika bra efter en sportintresserad läsare, en nöjesintresserad läsare, en läsare som besökte oss i morse eller en läsare som besökte oss för tre dagar sedan. Det går inte att lösa problemet för en standardläsare och tro att vi löst problemet för alla läsare.

“Läsaren hittar inte lika mycket intressant innehåll som hen förväntar sig”
Vår utmaning här är att se till att minska på bruset för användarna och servera användarna det just de är intresserade av. Att strukturera och filtrera innehållet i till exempel menyer och pushnotiser är viktigt för att det skall kännas självklart att besöka oss för att hitta innehållet man söker.

“Läsaren hittar inte lika mycket intressant innehåll som hen förväntar sig
Och till sist har vi det den riktigt viktiga men ack så svåra frågan: vad är det för innehåll läsaren vill ha då? Vi kanske inte kan svara med en färdig artikel alla gånger men om vi kan få läsarna att ”tala” om det för oss, via vad de läst tidigare, så kan vi börja ge dem riktigt bra förslag som matchar förväntningen.

Vad vill vi använda metadata till?

Vi vill att vårt metadata ska svara på de viktigaste frågorna om en artikel. Vilken kategori är innehållet i artikeln? Är det någon särskild person eller organisation som gjort något? Var utspelar sig den här historien?
För att svara på de här frågorna utan att läsa igenom alla artiklar behöver alla artiklar metadata. Så fort du har metadata på artikeln kan du förstå det läsaren berättar med sitt användarbeteende i ett tydligt sammanhang. Du kan se läsaren i Ludvika berätta att de bryr sig mer om nyheter med lokal anknytning än läsaren i Falun, vilket säger en hel del om vad de förväntar sig i morgon.

Varför kan vi inte göra det vi vill?

Det korta svaret är att när metadataträdet vi har i dag lanserades fanns inte de här tankarna om hur vi ville använda det.
Det långa svaret är att när metadatat utvecklades så tänkte man främst på hur det skulle visas ut och användas på våra sajter och i våra appar. Det klaraste exemplet är kategorin Allmänt som används för att få artiklar synliga både på sin underavdelning och på avdelningen Nyheter. Det är vår vanligaste kategori, men säger egentligen ingenting om vad artikeln faktiskt handlar om.
Ett annat exempel är platser som vi behandlar på samma sätt som kategorier eftersom de också har en hierarkisk struktur: Alnö ligger i Sundsvall som ligger i Västernorrland vilket gör att vi kan gruppera nyheter enkelt i avdelningar också, med nyheter om Alnö snabbt inlagda i avdelningen för Sundsvall.

Idag sätts metadatat främst för att strukturera vårt innehåll i produkterna

Utöver kategorier jobbar vi idag med det vi kallar för ämnen (eller taggar), som saknar den hierarkiska strukturen som kategorier har och är all over the place. Om man ser ämnena Grundskola, Lärarbrist och Grov kvinnofridskränkning skulle du säga att två av de ämnena är nära relaterade till varandra? Varför? Är det Grundskola och Grov kvinnofridskränkning eftersom de båda börjar med “Gr”? En dator måste få anledningen till varför begrepp är relaterade förklarat för sig även om vi människor tycker det är uppenbart.
Det finns ett ordspråk som lyder “if it ain’t broke don’t fix it”. Och de ursprungliga syften som metadatat använts till har funkat okej, och i stora drag går det att använda vår förra metadatamodell till att beskriva innehållet våra läsare är intresserade av. Vi har testat att dra slutsatser baserat på metadata, med framsteg till och med. Så varför kan vi inte fortsätta med det vi har?
Ett ord: algoritmer. Det är dessa vi vill använda till att se till att rätt innehåll når rätt läsare och det finns två typer av algoritmer vi kan använda för det här: regelbaserade och inlärningsbaserade. Poängen i båda fallen är att du entydigt måste veta vad någonting är för att tillämpa en regel eller se ett mönster. En dator har inget omdöme, den har bara en modell av hur verkligheten fungerar och kan inte använda sin instinkt till att göra avsteg från den modellen.

Vi har just nu ganska dåligt träningsdata för att kunna bygga en inlärningsbaserad algoritm och har därför väldigt svårt för att bygga automatisk kategorisering eller personalisering av innehåll, till exempel.
Metadatasystemet vi använt har varit ”good enough” för att ta oss dit vi är i dag. Men för att kunna utveckla både vårt innehåll och våra produkter i den takt som kommer krävas i framtiden är vi tvungna att agera nu.
Hur jobbar vi med att ta fram en ny struktur för metadata?
Det första som gjordes var att specificera exakt vilka uppgifter vårt metadata ska ha. Vi kom fram till att det, i prioriterad ordning, måste

  1. Beskriva innehållet
  2. Beskriva relationer mellan innehåll
  3. Vara lättare att arbeta med än idag

Det var de utmaningarna vi hade framför oss när vi satte oss ner i grupp och började prata om vad vi skulle göra.
Vi bestämde oss tidigt för att vårt nya kategoriträd skulle utgå från IPTC:s internationella standard för nyheter. Den är väldigt djup och omfattar mycket av det som vi hittills kallat ämnen. När man tittar på huvudkategorierna bedömde vi att de var tillräckliga, att det skulle vara väldigt svårt att komma på en artikel som inte skulle passa in i någon av de huvudkategorierna. Plus att strukturen kändes logisk, som i att det tydligt framgår att en artikel med kategori Musikinstrument är närmare relaterad till en artikel med kategori Musikal än en artikel med kategori Skola.
Men vi såg även en del problem. Det var till exempel väldigt snedfördelat vad gäller underkategorier för olika ämnen. Det fanns för mycket fokus på idrott med alla viktklasser av judo representerade men väldigt sparsamt inom musik. Det var också väldigt fokuserat på USA med kategorier som Primärval men inget Kyrkoval. Dessutom fanns det kategorier som beskriver entiteter, till exempel Domare eller Myndighet men det är något vi vill använda en person- eller organisationstagg till.
Gruppen granskade alla kategorier, tog bort många, flyttade flera och introducerade också flera nya för att anpassa det till den typ av innehåll vi i huvudsak producerar. Det finns flera kategorier i det nya trädet som kan kännas smala, men tanken var att hellre fria än fälla. Kanske är det just den kategorin som vi friat som är ett nytt Plus-drag när vi börjar skriva om den.

Vilka nya lösningar hittade vi?

En av de första sakerna vi kom på var en ny metadatatyp: artikeltyper. Utöver en kategori så ska en artikel ha metadata på sig som beskriver vad det är för typ av artikel, om det är en insändare, recension eller en typ som används inom native. Vi hoppas att utöver att vi bryter ut begrepp som inte beskriver innehållet från kategoriträdet så kan vi använda det metadatat till att förbättra användarupplevelsen och förbättra personaliseringen av innehåll.
En annan lösning var att vi tar bort ämnen. Det var något vi såg att vi inte behöver i och med det nya, breda kategoriträdet för det var väldigt svårt att skilja på vad som är ett ämne och vad som passar in långt ner i vårt kategoriträd. Skola är ett exempel som hittills varit ett ämne, men som nu blir en kategori med ett antal underkategorier.
Den kanske viktigaste lösningen på det här problemet är också att vi måste sprida kunskapen om varför metadata är viktigt för vår framtida affär. Vi kommer behöva satsa hårt på att undersöka vilka kunskaper som finns, utbilda medarbetare, samt följa upp för att se att vi förflyttar oss i rätt riktning.

Vilka effekter vill vi se?

Det nya kategoriträdet gör grundsituationen mycket bättre och ger oss en bas att stå på. Vi tror att det berikar texterna med mer granulär metadata som kan hitta nya användarsegment i personaliseringsarbetet och nya, potentiella ämnen för Plus-satsningar.
Artikeltyperna ger oss ett sätt att beskriva innehåll utan att behöva kompromissa med vad som är ett ämne. Artikeltyper kan också ge oss möjligheten att bestämma hur vi skall visa upp artikeln för användaren om det visar sig att användarna läser de olika artikeltyperna på väsentligt olika sätt.

Vilket arbete ligger framför oss?

Det nya trädet är inte implementerat än. Först måste det in i vår dataplattform Soldr och testas att användas av våra produkter, alltså sajterna och apparna.
Det kommer kräva utbildningsinsatser och kontinuerlig uppföljning för våra journalister.
Jag nämnde ovan att vi har ett problem med att det gamla metadataträdet togs fram för att visa ut innehållet på ett särskilt sätt, det sättet har gett oss incitament att sätta metadata som inte beskriver artikelns innehåll.
Just nu pågår ett UX-arbete om hur materialet visas ut i produkterna utreds och hur en produkt som till stor del är personaliserad efter användarens beteende kan se ut. Tanken är att helt ta bort de här incitamenten och skapa en arbetsmodell där man helt kan fokusera på att sätta metadata av rätt anledning, nämligen att berätta något om innehållet.
Nu tar vi vara på det driv Mittmedia har när det gäller att analysera vårt innehåll och vi vågar ställa kravet att vi inte bara ska vara bra på det — vi skall försöka bli bland de bästa på det. Om magkänslan skall bort från journalistiken och ge plats åt att arbeta datadrivet kräver det att vi har datakvalité i världsklass, det här är ett viktigt steg på vägen dit. Snart kommer vi kunna titta på metadata på vilken artikel som helst och ha en bra uppfattning om varför ett visst läsarkluster gillar den, vi är många som knappt kan vänta tills den tiden kommer.