More than Buzzwords: Machine Learning, Deep Learning und Artificial Intelligence

Ein Bericht über die Konferenz „Knowledge Discovery and Data Mining” in der „AI Hauptstadt Europas”

Im Exhibition Centre London (ExCeL) fand die diesjährige Konferenz statt

Vorletzte Woche war ich auf der Konferenz “Knowledge Discovery and Data Mining (KDD) in London. Wie der Name schon vermuten lässt, drehte sich hier alles um Methodiken rund ums Thema Wissensgewinnung aus (großen) Datenmengen. Während die ersten beiden Tage dieses Jahr hauptsächlich mit Workshops und Tutorien belegt waren, folgten an den letzten drei Tagen neben Hands-On Übungen die Vorstellung aktueller Forschungspapiere. Begleitet wurde die Konferenz mit Keynotes von Jeanette Wing (Columbia University), Alvin E. Roth (Stanford University), Yee Whye Teh (University of Oxford) und David Hand (Imperial College, London). Der Anteil an Beiträgen aus der Forschung war insgesamt sehr hoch, es gab aber auch den Sprung in die Wirtschaft. Unternehmen wie Facebook, Google, Tesla und AirBnB waren vertreten und neben Informationsständen präsentierten Mitarbeiter praktische Anwendungen oder leiteten die Hands-On Übungen.

Nicht nur Buzzwörter

Machine Learning, Deep Learning, Artificial Intelligence — Was wie eine Aneinanderreihung von Buzzwörtern klingt, wurde auf der Konferenz mit Leben gefüllt. Längst sind Produkte in unseren Alltag integriert, die die neuesten Entwicklungen auf diesen Gebieten nutzen. Neben smarten Lautsprechern wie Google Home oder Alexa und selbstfahrenden Autos sind sie manchmal nur nicht so offensichtlich zu erkennen. Insbesondere auf dem Gebiet der Empfehlungssysteme werden wir praktisch täglich mit ihnen konfrontiert. Sei es für Filmempfehlungen bei Netflix, Suchergebnissen bei Google oder personalisierten Shopping Assistenten wie Stitch Fix — Neuronale Netzwerke spielen mittlerweile eine immer größere Rolle. Wegweisend war hier unter anderem das Forschungspapier „Wide & Deep Learning for Recommender Systems” von Google.

Neuronale Netzwerke zum selber machen

Daher ist es auch nicht verwunderlich, dass Neuronale Netzwerke auf der Konferenz eine große Rolle spielten. Bis vor einigen Jahren waren diese eher Forschern vorbehalten oder waren Themen von Doktorarbeiten. Aktuelle Frameworks bieten mittlerweile Hilfestellungen, indem sie die mathematischen Details abstrahieren.

You can still learn to use neural networks and Gluon without a PhD.
A 60 minutes Gluon crash course

An den letzten drei Tagen wurde jeweils ein Framework zur Erstellung von Neuronalen Netzwerken anhand praktischer Beispiele vorgestellt. Den Anfang machten Alex Smola (Amazon) und Mu Li (Amazon) mit MXNet/Gluon und stellten insbesondere die nahezu lineare Skalierbarkeit heraus. Mit einem Fokus auf Natural Language Processing (NLP), also der Verarbeitung von natürlicher Sprache, stellten diese das Deep Learning Framework der Wahl der Amazon Web Services (AWS) vor. Mit Hilfe vortrainierter Long Short Term Memory (LSTM) Netzwerke und gelernter Embeddings wurden so Anwendungen unter anderem der Übersetzung und Stimmungsanalyse von Texten vorgestellt.

Being able to go from idea to result with the least possible delay is key to doing good research.
keras.io

Am zweiten Tag folgte Anjali Sridhar (Google) mit Keras, welches insbesondere für das schnelle Experimentieren geeignet ist. Besonderheit von Keras ist die Kompatibilität zu den Machine Learning Frameworks TensorFlow, Theano und CNTK. Damit stellt es eher eine Schnittstelle zu diesen dar und macht das Erstellen von Modellen sehr intuitiv und nutzerfreundlich. Neben relativ einfach aufgebauten Netzwerken wie dem AlexNet lassen sich so auch komplexere Modelle wie das GoogLeNet (Codename Inception) bzw. beliebige Architekturen erstellen. Keras eignet sich aber nicht nur zum Experimentieren, mittels der Estimator API von TensorFlow lassen sich Modelle auch skalierbar für Produktivsysteme exportieren. Neben der Einordnung von Nachrichten in verschiedene Themen und der Bewertung von Filmkritiken in positiv und negativ wurde hier auch die Klassifikation von Bildern vorgeführt. Mittels eines Convolutional Neural Networks (CNN) ließen sich so mit hoher Genauigkeit unterschiedliche Tierarten auf Bildern erkennen.

PyTorch is a deep learning framework for fast, flexible experimentation.
pytorch.org

Am letzten Tag der Konferenz folgte dann mit PyTorch das dritte Deep Learning Framework. Geleitet wurde das Hands-On Tutorial von Chris Moody (Stitch Fix), der seinen PhD in Astrophysik und Supercomputing gemacht hat. PyTorch wirbt ebenfalls damit, dass das schnelle Experimentieren im Fokus des Frameworks liegt. Mir persönlich liegt die Erstellung von Modellen mit Keras näher, jedoch hat auch PyTorch seine Vorteile: Anders als bei Ersterem wird hier nicht nur zunächst der Graph des Netzwerks erstellt und erst beim Kompilieren die mathematischen Berechnungen angestellt. Stattdessen lassen sich die Berechnungen Schritt für Schritt verfolgen. Gerade bei komplexen Netzwerken kann das die Fehlerfindung erheblich vereinfachen. Thematisch lag der Fokus des Tutorials auf dem Gebiet der Produktempfehlung, angelehnt an die praktische Anwendung bei Stitch Fix.

Modelle sind nicht alles

Wie schon geschrieben ist allen Frameworks die Abstraktion der mathematischen Details gemein. Das macht die Erstellung komplexester Netzwerk Architekturen sehr einfach. Jedoch ist das Erstellen und Trainieren (wenn auch unter Umständen sehr zeitintensiv) von Modellen nur ein relativ kleiner Teil in einem Machine Learning Projekt. Bevor überhaupt an das Modell gedacht wird, muss zunächst einmal ein Problem identifiziert werden, welches mit Hilfe von Daten gelöst werden kann. Danach folgt die Evaluierung, ob die benötigten Daten bereits vorhanden sind oder erfasst werden können. In aller Regel sind die Daten nicht ohne Weiteres als Input geeignet und müssen daher im nächsten Schritt erst mal bereinigt werden. Nach dem Experimentieren und Trainieren des Modells stellt letztendlich ebenfalls die Bereitstellung des Produkts eine Hürde dar. Nicht zuletzt hier kommt es durchaus zum Scheitern eines Projekts, wenn beispielsweise die Latenz des Netzwerks nicht ausreichend gering ist, um Echtzeit-Vorhersagen zu liefern. Darüber hinaus sollte man getreu dem Motto „Wenn du einen Hammer hast sieht alles aus wie ein Nagel” immer fragen, ob ein Neuronales Netzwerk das geeignete Modell ist.

Aus der Research Track Session RT12, “xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems”, präsentiert von Jianxun Lian

Fazit

Auch wenn echte Künstliche Intelligenz 50 Jahre nach HAL immer noch Science Fiction ist, seine Vorläufer sprechen schon zu uns in Form von Google Home oder Alexa. Möglich wurde dies neben gestiegener Rechnerleistungen und dem Vorhandensein von großen Datenmengen auch durch die Fortführung der Forschung seit den 70er/80er Jahren. Die KDD 2018 bot dabei einen ausgezeichneten Einblick in die aktuelle Forschung rund um die Themen Machine Learning, Deep Learning und Artificial Intelligence. Darüber hinaus gab es auch reichlich Möglichkeiten zum Kontakt knüpfen mit Gleichgesinnten aus der ganzen Welt. Nicht zuletzt deswegen wird mir die Konferenz in sehr guter Erinnerung bleiben.