Was dem Erfolg von Conversational User Interfaces noch im Weg steht

Published in

Create & Code

5 min readOct 16, 2019

Conversational User Interfaces (CUI) sind in aller Munde. Ob Alexa, Siri oder in Erscheinung eines Chatbots — die sprachbasierten Anwendungen verbreiten sich schnell. Viele unerfahrene Nutzer stehen der Verwendung von CUIs jedoch mit Unsicherheit gegenüber. Ein Grund dafür ist die Diskrepanz zwischen den Erwartungen an eine Konversation in menschlicher Sprache und den Fähigkeiten, die die meisten CUIs tatsächlich haben. Ist diese zu groß, sind Szenen wie die folgende vorprogrammiert.

Meine Eltern sind beide Anfang 60. Auch wenn sie technisch nicht komplett unerfahren sind, stellt doch alles, was über Mails schreiben, im Internet surfen oder Onlineshopping hinaus geht, eine gewisse Herausforderung dar. Deshalb bin ich in meiner Familie für die Wartung und Einrichtung sämtlicher technischen Geräte zuständig. Aus pädagogischen Gründen gebe ich meinen Eltern dabei aber immer das Heft selbst in die Hand und greife nur ein, wenn sie nicht mehr weiterwissen.

Nach einem unglücklichen Kaffee-Vorfall war meine Mutter vor Kurzem gezwungen, einen neuen Laptop einzurichten. Also Gerät aufgeklappt und rein ins Abenteuer. Da der Laptop über Windows 10 verfügt, meldet sich zur Überraschung meiner Mutter sogleich die Stimme von Cortana, um bei der Konfiguration zu assistieren. Ist die bloße Einrichtung des Laptops für meine Mutter schon eine Herausforderung, führt das plötzliche Sprechen des Gerätes zu einer zusätzlichen Irritation. Dass Cortana lediglich die Einrichtungsanweisungen vorliest, die sowieso in Textform auf dem Bildschirm erscheinen, macht die Situation nicht besser.

Seit meine Mutter gesehen hat, wie meine Schwester mit Siri umgeht, hat sie eine grobe Vorstellung davon, dass man mittlerweile mit technischen Geräten in einen verbalen Dialog treten kann. Der Annahme folgend, dass ein sprechendes Gerät auch ein hörendes Gerät ist, bittet sie Cortana höflich, still zu sein. Zur Verunsicherung meiner Mutter reagiert die Computerstimme jedoch nicht. Statt zu antworten, liest Cortana weiterhin die unnützen Informationen vor. Meine Mutter ist zusehends genervt, die Aufforderung zu schweigen erfolgt nun im Befehlston. Doch auch davon lässt sich Cortana nicht einschüchtern. So sehr mich die Situation auch amüsiert, greife ich nach einiger Zeit ein, bevor es zu weiteren verbalen und tätlichen Ausfällen kommen kann — und stelle einfach den Ton ab. Das Einrichten des Laptops kann ohne weitere Zwischenfälle fortgesetzt werden.

Diese kurze Szene macht die Kluft zwischen der Anmutung der virtuellen Assistenten und ihren tatsächlichen Fähigkeiten deutlich. Natürlich ist meiner Mutter vollkommen bewusst, dass es sich bei Cortana nicht um eine reelle Person handelt. Dennoch erscheint sie im ersten Moment so menschlich, dass ihre Fähigkeiten vollkommen überschätzt werden und den Nutzer frustriert zurücklassen. Um die Lücke zwischen Erwartung und Erfahrung zu schließen, sind offensichtlich noch einige Herausforderungen bei der Gestaltung von CUIs zu bewältigen.

Diese Herausforderungen basieren zum einen auf der technischen Grundlage von CUIs. Des Weiteren stellt die Komplexität der menschlichen Sprache eine enorme Herausforderung für Maschinen dar. Eine weitere Hürde ist die Notwendigkeit eines mentalen Modells, das Nutzer von einem CUI entwickeln müssen, um mit ihm in eine zielführende Interaktion treten zu können.

Ein Blick in den Maschinenraum

Die technische Grundlage von Conversational User Interfaces lässt sich in zwei Gruppen aufteilen: Retrieval-based- und Generative-based-Modelle.

Retrieval-Based-Modelle — das riesige Expertensystem

Bei Retrieval-Based-Modellen werden die Antworten des CUI auf Grundlage des bisherigen Konversationstextes aus einem Pool an festgelegten Antwortmöglichkeiten ausgewählt. Das System selbst ist nicht in der Lage, neue Antworten zu generieren. Seine Intelligenz ist lediglich simuliert. Die Herausforderung besteht somit zum einen darin, die Eingaben des Nutzers vorherzusagen und zum anderen für diese eine komplexe Datenbank mit möglichst vielen Antwortmöglichkeiten anzulegen. Für einfache Anwendungsfälle ist ein Retrieval-Based-Modell für die Entwicklung eines Conversational User Interfaces ausreichend. Steigt jedoch der Komplexitätsgrad der Anwendung, liefert dieses Modell kaum noch zielführende Antworten.

Generative-Based-Modelle — der lernende Algorithmus

Generative-Based-Modelle basieren auf der Verarbeitung umfangreicher Übungsdaten mittels Cloud Computing und Machine Learning. Das System ist lernfähig, da es eine Form von künstlicher Intelligenz besitzt. So ist es dem CUI möglich, auf die Nutzereingaben eine eigene Antwort zu generieren und flexibel auf den Nutzer zu reagieren. Diese Flexibilität ist jedoch an einen enorm hohen Entwicklungs- und Trainingsaufwand gekoppelt. Darüber hinaus hängt das Antwortverhalten unmittelbar von der Qualität der Trainingsdaten ab. Besonders schmerzlich musste dies Microsoft erleben, dessen Twitter-Bot „Tay“ nach kurzer Zeit Hassbotschaften und diskriminierende Äußerungen von sich gab, die er in der Konversation mit Nutzern gelernt hatte.

Mehr als nur Worte

Die menschliche Sprache ist hochkomplex und außerordentlich situations- und kontextabhängig. Selbst bei der Kommunikation zwischen zwei Menschen kommt es regelmäßig zu Missverständnissen, was u.a. Friedemann Schulz von Thun in seinem bekannten Vier-Ohren-Modell darstellt. Im Laufe unseres Spracherwerbs lernen wir implizite, kontextabhängige Regeln, wie das Gesagte unseres Gegenübers zu verstehen ist. Diese sind jedoch kaum zu kodieren und dementsprechend zu programmieren. Auch ein autonom lernendes System kann dabei nur mit Wahrscheinlichkeiten arbeiten. Dieses intuitive Gespür technisch nachzubauen und dadurch Missverständnisse möglichst zu vermeiden, ist eine der größten Herausforderungen bei der Entwicklung funktionierender CUIs.

Verständnis für CUIs entwickeln

Trotz ihres menschlichen Anscheins bleiben CUIs doch Maschinen — mit all ihren Beschränkungen und Eigenarten. Für den erfolgreichen Umgang mit CUIs müssen Nutzer somit ein mentales Modell entwickeln, das die Möglichkeiten, Grenzen und Reaktionsweisen der Systeme enthält.

Um das zu verstehen, lohnt sich ein Blick auf Graphical User Interfaces (GUI), die bisherige Norm bei der Bedienung von Computern. Auch sie sind nur eine Art Krücke, mit deren Hilfe die Funktionalität eines technischen Gerätes in visuellen Metaphern abgebildet wird. Die Struktur und Eingabelogik eines technischen Gerätes verständlich und erwartungskonform abzubilden, erforderte einen langen Entwicklungsprozess für Designer und IT-Entwickler sowie einen Lernprozess für Nutzer, die ein mentales Modell der Anwendungen entwickeln mussten. Vor der gleichen Herausforderung stehen wir nun bei Conversational User Interfaces.

Ein weiterer Schritt in Richtung Nutzer

Betrachtet man die Bedeutung der menschlichen Sprache, ist die Idee, mit technischen Geräten direkt zu sprechen, nicht überraschend. In seinem Buch „Eine kurze Geschichte der Menschheit“ verdeutlicht Yuval Noah Harari, dass erst die Entwicklung der komplexen menschlichen Sprache den Austausch über drohende Gefahren oder entdeckte Nahrungsquellen sowie über andere Gruppenmitglieder erlaubte und so Zusammenarbeit und komplexe Interaktionsformen möglich machte. Sprache ist die Grundlage des menschlichen Zusammenlebens in unseren heutigen Gesellschaften.

Auch die Idee virtueller Assistenten und Chatbots ist nicht neu. Die meisten erinnern sich bestimmt an „Karl Klammer“, der Office-Nutzer unterstützen sollte. Oder an „Anna“ des Möbelhauses IKEA, an die sich Kunden hilfesuchend wenden konnten. Dass beide Anwendungen wieder verschwunden sind, liegt daran, dass die Technik dahinter der Komplexität unserer Sprache nicht gewachsen war. Seitdem haben sich die technischen Voraussetzungen enorm weiterentwickelt und lassen das Erscheinen wirklich intelligenter und damit nützlicher Conversational User Interfaces in greifbare Nähe rücken.

Für Designer und IT-Entwickler, die nutzerzentriert denken, sind CUIs ein Glücksfall. Gleichzeitig liegen noch viele spannende Entwicklungen vor uns. Aber wer weiß: vielleicht kann auch bald meine Mutter das Kriegsbeil begraben und eine versöhnliche Aussprache mit Cortana führen.

Wie mediaman Sie unterstützen kann

mediaman beschäftigt sich schon seit einiger Zeit mit der Entwicklung von Conversational User Interfaces. Von der strategischen Beratung über Konzeption und Design bis hin zur technischen Umsetzung unterstützen unsere CUI-Experten Sie dabei, Ihre Marke zum Sprechen zu bringen.

Zögern Sie nicht, mit uns in Kontakt zu treten und mit uns zu erörtern, wie ein Conversational User Interface Ihr Business unterstützen kann

Sources: PWC, randomhouse, Spiegel, brandung