Das können wir empfehlen

Recommender Systeme und wie sie funktionieren

Carsten Sandtner
Sep 13 · 4 min read

Mit einer Analyse der Vergangenheit, dem Verhalten der Nutzer und ein paar KI-Zaubereien passgenaue Empfehlungen für weiteren Inhalt, Artikel oder was-auch-immer finden. So oder so ähnlich werden Recommender Systeme — auf Deutsch: Empfehlungssysteme — überspitzt definiert.

So weit die Theorie. Jeder, der sich im Internet bewegt, hat bereits mehr oder weniger passgenaue Empfehlungen auf dem Bildschirm erleben dürfen.

Wir werden täglich mit diesen Systemen konfrontiert. Ob E-Commerce, Filme, Musik oder Artikel, überall wird versucht, passende Inhalte auf Basis unserer bisherigen Vorlieben zu empfehlen. Ziel ist die Reduzierung von Unsicherheiten bei Entscheidungen. Das können Kaufentscheidungen, Entscheidungen bei komplexen Konfigurationen oder Leseempfehlungen sein.

Manchmal funktioniert das gut, manchmal weniger. So schlägt Amazon nach einem Kühlschrankkauf oft einen weiteren Kühlschrank vor. Ganz anders bei Netflix. Die vorgeschlagenen Filme passen zumeist gut zum bisherigen Konsum. Instagram schafft es ebenfalls relativ gut, neue Accounts vorzuschlagen, die wir abonnieren sollten. Und dann gibt es die Timeline von Twitter, Facebook oder YouTube — mal so, mal so …

Aber wie funktioniert das? Was macht ein Recommender System mit den vorliegenden Daten, um einen passenden Vorschlag zu ermitteln? In diesem Artikel wird die grundlegende Funktionsweise erläutert, ohne in die Feinheiten der technischen Umsetzung zu gehen.

Ein Recommender System wird grob in zwei Methoden unterteilt:

  1. die kollaborative Methode
  2. die inhaltsbasierte Methode

Kollaborative Methode

Bei der kollaborativen Methode wird die Interaktionen zwischen Benutzer und Artikeln analysiert. Einfachstes Beispiel: „Andere Nutzer haben noch folgendes gekauft“. Dazu eignet sich eine einfache Matrix.

Benutzer <> Artikel Interaktions-Matrix
Kollaborative Empfehlungsmethode: Beteiligte Komponenten

Inhaltbasierte Methode

Bei der inhaltsbasierten Methode werden mehrere Parameter berücksichtigt, wie z. B. Alter, Geschlecht, Wohnort, Uhrzeit etc. und wie diese mit den Artikeln interagieren. Damit wird ein Modell erstellt respektive trainiert, das beschreibt, warum Benutzer:innen mit den Artikeln interagieren. Anhand dieser Information können weitere Artikel vorgeschlagen werden, die ein ähnliches Verhalten zeigen.

Inhaltsbasierte Modelle versagen am Anfang stärker, da beinahe willkürlich vorgeschlagen wird; es fehlen einfach die initialen Daten. Im Laufe der Zeit werden weitere Daten gesammelt und das Modell kann immer weiter trainiert werden. Sind genug Daten vorhanden (gesammelt, gekauft etc.), wird das inhaltsbasierte Modell langfristig besser abschneiden als das Kollaborative. Gerade in Bezug auf persönliche Empfehlungen ist das nicht verwunderlich, da weitere Parameter berücksichtigt werden, als nur der Kauf eines Produktes.

Benutzer <> Artikel Interaktions-Matrix

Daher ist es schwierig, mit einer inhaltsbasierten Methode von null zu beginnen. So sind personenbezogene Daten noch ungenügend vorhanden, um eine persönliche Empfehlung zu ermitteln.

Das Sammeln und Auswerten der Daten ist nicht unproblematisch und wird immer kontroverser diskutiert. Hier gilt es, einen guten Mittelweg zu finden und bei der Sammlung von Daten nicht den Fokus zu verlieren.

In der Praxis kommt meistens ein Mix der beiden oben genannten Methoden zum Einsatz. Einerseits kann es hilfreich sein, wenn Benutzer:innen auf weitere Artikel hingewiesen werden, beispielsweise basierend auf einem Warenkorb. Andererseits können dadurch auch seltsam anmutende Vorschläge generiert werden, wenn die Datenlage dünn ist oder die Daten bereits Vorbehalte (Bias) enthalten. Wie immer gilt: Je mehr Daten vorliegen, umso besser sind die Empfehlungen.

Im weiteren Verlauf können zusätzliche Daten erfasst werden und Warenkörbe etwa demografischen Daten zugeordnet und die Artikeleigenschaften mit in die Empfehlung einbezogen werden. Anhand eines trainierten Modells werden weitere Produkte ermittelt, die Benutzer:innen potenziell interessieren könnten.

Inhaltsbasierte Empfehlung: Beteiligte Komponenten

Denkbar ist weiterhin, den persönlichen Weg zu dem Produkt/Artikel zu analysieren. Welche Seiten wurden vorher frequentiert, welches Video wurde geschaut etc. Die Grenze setzt hierbei der Datenschutz.

Der Vorteil einer Kombination beider Modelle ist, dass von Anfang an passende Empfehlungen erstellt werden können, deren Qualität im Verlauf besser wird. Durch Vorkonfiguration einer kollaborativen Methode können bereits ab Start des Projektes passende Empfehlungen ermittelt werden.

Zum Beispiel kann bei einem Fahrzeugkonfigurator eine Empfehlung basierend auf den aktuellen Verkaufszahlen vorkonfiguriert werden. Die Empfehlungen werden immer weiter mit den neu anfallenden Daten verbessert und die inhaltsbasierte Methode übernimmt nach und nach die Empfehlungen. Durch Analyse der vorher besuchten Seiten kann ein Direkteinstieg auf das wahrscheinlich gewünschte Modell realisiert werden. Hierbei greifen Personalisierung und Empfehlungen ineinander.

Im Prinzip ermitteln Recommender Systeme durch statistische Betrachtungen von Transaktionen eine Empfehlung. Je mehr Datenpunkte einbezogen werden, desto komplexer ist das zu betrachtende Modell. Eine Interaktions-Matrix kann durch einfache statistische Funktionen bereits Empfehlungen ermitteln. Mit modernen Machine Learning Algorithmen können in großen Datenmengen mit vielen Datenpunkten Muster erkannt werden, die durch herkömmliche statistische Methode ggf. nicht auffallen. Wichtig ist, dass die Datenlage aus ethischen Gesichtspunkten weitestgehend vorbehaltlos ist und insbesondere Herkunft, Hautfarbe oder Geschlecht bei Empfehlungen nicht dominieren und zu einseitigen, bis hin zu diskriminierenden Empfehlungen führen.

Data & Smart Services

Collection of data driven articles and cases

Data & Smart Services

Collection of data driven articles and cases

Carsten Sandtner

Written by

Data Relations at mediaman GmbH. Conference speaker and Data Science enthusiast. Life is too short for bad visualizations. Love traveling with my camper van,

Data & Smart Services

Collection of data driven articles and cases