Hello from the other side: Wie Maschinen besser sprechen lernen

Maximilian Vogel
8 min readAug 9, 2022

--

Der Artikel basiert auf meinem Vortrag bei der 5. Internationale Jahrestagung CURPAS für Autonome Systeme im Zentrum für Luft- und Raumfahrt (ZLR) in Wildau.

A networked world of the Internet of Things

Wir bevölkern unsere Welt mit komplexen Maschinen. Und kommunizieren mit diesen Geräten: Schon jetzt können wir mit unseren Telefonen, Rechnern, Smart Speakern, Uhren und Autos sprechen. Und klar: In Zukunft werden uns immer neue autonome und komplexe Maschinen umgeben: Von Lieferdrohnen über Smart Wearables, Reinigungsrobotern, Altenpflegeassistenten und Weinberatungs-Robotern bis zu Überwachungsdroiden — der Kontakt zu den Maschinen nimmt zu.

Mailbox Notes
Was muss jetzt genau wohin?

Wie interagieren wir mit der Machine-Sphäre?

Die Frage ist: Wie steuern wir diese Geräte? Wie interagieren wir mit ihnen? Wie kommunizieren wir mit Ihnen? Weiß die Lieferdrohne, dass sie Pakete im Kiosk abgeben muss? Schreibt sie Zettel und klebt sie an Wohnungstüren wie die menschlichen Paketboten?

Post Lieferschein Nachricht
Wird eine Lieferdrohne jemals mit soviel Herzblut zustellen und kommunizieren?

Viele autonome System, z.B. der Bus, der ohne Fahrer durch Tegel fährt oder die Pizzalieferdrohne — haben aktuell noch eine menschliche Betreuungsperson dabei, die eingreift, wenn etwas schief geht. Diese Person kann antworten, wenn Fahrgäste fragen: Hält der Bus auch am Hauptbahnhof oder reagieren, wenn jemand die Drohne bittet, Platz für den Doppelkinderwagen auf dem Gehsteig zu machen.

Für den Moment und für den Proof of Concept ist so eine Begleitung prima. Langfristig muss das Gerät allerdings in der Lage sein, sich selbst zu erklären. Wir können keine komplexen Geräte herumfahren lassen, wenn sie nicht mit der Umwelt interagieren können.

Wie kann so ein User-Interface aussehen?

Wie interagieren wir mit Maschinen?

Wenn wir uns die wichtigsten Kontaktpunkte mit Maschinen ansehen, sehen wir, dass mit der Bandbreite der Interaktion die Einfachheit der Steuerungsmethoden zurückgeht, die Kommunikation schwieriger wird: Mit einem einfachen Schalter kann ich ein Gerät an- und ausschalten — sehr viel mehr aber auch nicht. Ich kann keine komplexen Handlungen triggern, wie etwa die Aufforderung „Fahr mich nach Hamburg“. Steuerungsmöglichkeiten wie Emotion Detection, Gesten, Controller, Metaverse oder Programmierung erlauben eine immer größere Spanne an Interaktion. Diese Fertigkeiten befinden sich aber immer weniger im Repertoire von zufälligen und gelegentlichen Nutzern.

Einen Sweet-Spot sehen wir dagegen bei der Nutzung von Sprache: Damit lassen sich tatsächlich viele Interaktionen auslösen, zum Beispiel kann ich einen Gegenstand kaufen, ein Ziel angeben, einen Service-Grund spezifizieren. Gleichzeitig ist diese Art der Kommunikation für die meisten Menschen ganz einfach und natürlich anzuwenden.

Warum hat sich Sprachsteuerung bislang also noch nicht so richtig durchgesetzt?

Ganz einfach: Viele der Sprachinterfaces sind qualitativ nicht gut genug und haben eine schreckliche User Experience. Das Verständnis der gesprochenen Sprache ist zwar bei den marktführenden Systemen inzwischen ganz okay. Aber die Maschinen tun sich immer noch schwer, die Wünsche der Nutzer zu erkennen. Bei Intent und Kontext liegen sie häufig noch ziemlich daneben. Die Steuerung einer Entität über Sprache fühlt sich oft an, wie ein grafisches User-Interface blind zu bedienen: Ich weiß nicht, was das Ding kann und muss es meist über die harte Tour lernen: Ich bekomme frustrierend oft gesagt, dass es mich nicht versteht.

Development of voice interfaces of voice assistants
Sprachinterface Maschine vs. Person

Wie das kommt? Erste kommerzielle Sprachanwendungen wurden wie ein graphisches User-Interface konzipiert: Die Systeme haben genau die Tasks erfüllt, die im Service- oder Produktportfolio hinterlegt waren. Inzwischen sind die Anbieter dazu übergegangen, ihre Sprachassistenten sehr viel breiter anzulegen: Die Maschinen lassen sich allgemeiner ansprechen. Ich kann mich in der Interaktion auf Äußerungen beziehen, die im Gespräch vorher schon vorgekommen sind. Und die Maschine ist auch in der Lage, den Kontext — also z.B. die Gesprächshistorie mit einzubeziehen.

Die Folge? Inzwischen kann Alexa mir antworten, wenn ich ihr sage, dass ich sie liebe. Mein BMW kann einen Witz erzählen. Siri reagiert einigermaßen vernünftig auf: „Wie geht’s?“ oder „Endlich Feierabend!“ Und die Tools können auch erklären, wer sie sind und was sie können. Sprachassistenten entwickeln sich also von Voice Automaten zu Machine Beings.

Development of speech interfaces of natural language voice assistants
Maschine vs. Person Sprachliche Interaktion

Warum modellieren wir eine Maschine zu einer menschenähnlichen Person?

Wenn eine Maschine natürliche Sprache versteht und sich auch jenseits ihrer unmittelbaren Portfolio-Skills unterhalten kann, verringert sich die Unsicherheit in der Kommunikation dramatisch: Für das Gegenüber ist die Maschine jetzt kein unbekanntes Ding mehr, sondern ein Exemplar einer vertrauten Kategorie: Ich kann mit ihr sprechen wie mit einem Menschen.

Ich frage mich nicht mehr, wie ich das Gerät dazu bekomme, etwas zu tun. Ich muss keine Babysprache verwenden oder irgendwelche Codes. Wenn ich wissen will, was die Maschine kann, frage ich sie einfach. Und muss dabei auch keine Angst haben, dass irgendetwas Schlimmes passiert. Denn es herrscht jetzt die grundlegende Übereinkunft: Mein Gesprächspartner ist eine Art Person und es gelten die üblichen Regeln des Dialogs.

Xiaoice, eine Ausgründung von Microsoft China hat ein Sprachsystem implementiert, das einerseits Tasks wie die Bestellung eines Bahntickets abwickeln kann, sich andererseits auch völlig frei mit Usern über Urlaubsziele, Liebe, Musikpräferenzen oder persönliche Stimmungen unterhalten kann. Als Avatar hat das System den Charakter eines jungen Mädchens bekommen. In China, Japan und Indonesien, wo das System bislang ausgerollt wurde, ist das die Personengruppe, mit der Menschen dieses Kulturraums — egal ob männlich oder weiblich — am ungezwungensten kommunizieren. Ich kann diesen Avatar einfach frei anreden. Und das passiert tatsächlich: Viele Leute quatschen stundenlang mit der Software. Sie hat mehr als 40 Millionen Nutzer, wird derzeit in Personal Devices eingesetzt und soll in Zukunft auch in Haushaltsgeräten und mobilen Geräten Verwendung finden. Das System beruht auf Large Language Models.

Was sind diese Large Language Models?

Difference between rule-based systems and large language models
Von regelbasiert zu Large Language Models

Standard in den meisten Applikationen und sprachbasierten Systemen sind derzeit regelbasierte Systeme. Sie funktionieren nach dem Prinzip: Wenn der Nutzer X sagt, antwortet das System Y. Die Maschine kann also nur exakt vordefinierte Tasks erfüllen. Für ein Sprachsystem ist dieses Vorgehen problematisch, weil es Billionen möglicher Utterances gibt. Ein solches System funktioniert nur mit einer harten Beschränkung des Service- und Kommunikations-Portfolios. Und lernen kann die Maschine auch nicht.

Klassische Machine Learning Systeme dagegen lassen sich mit einem Hund vergleichen. Sie lernen durchaus, aber langsam. Ich muss die Software mit einer großen Menge an Inputs und Outputs füttern, um sie für einen Case zu trainieren. Wie bei einem Hund, dem ich nicht einfach „Platz“ befehlen kann, damit er sich hinlegt. Stattdessen muss ich das mit einem Hund erst hundertmal üben bis es funktioniert.

Large Language Models (LLM) sind anders. Hier wird das System bereits mit mehreren Terabytes an Internet-Texten vortrainiert. Auf dieser Basis ist das Modell schon in der Lage, natürlichsprachlich zu sprechen und Sach- und Logikfragen zu beantworten. Ich unterhalte mich mit jemand, der die Wikipedia gelesen. Vollständig. Und in allen Sprachen. Mit einem spezifischen Training kann ich es dann noch für eine bestimmte Aufgabe tweaken.

Vergleichen lässt sich dieses System vielleicht am ehesten mit einem Trainee, der gerade die Schule verlässt. Der Trainee kann lesen und schreiben, er kann schlußfolgern, kennt die physikalischen Gesetze.

Dialogue example for Large Language Models

So können die Modelle einfache Wissens- und Logikfragen Out of the box und ohne zusätzliches Training beantworten. Und sie wissen mehr als jeder Mensch.

Am besten funktionieren Large Language Models auf Englisch. Das liegt daran, dass die LLMs mit Internetdaten gefüttert werden und das meiste Material im Netz auf Englisch vorliegt. Wir Deutschsprachigen produzieren auch verrückt viele Wikipedia-Inhalte, die die LLM als Trainingsmaterial nutzen. Deswegen ist bei einigen System die zweitbeste Sprache Deutsch.

Auf Basis dieses Wissens, kann ich dem Trainee ohne Schwierigkeiten weitere Fähigkeiten beibringen: Er kann neue Tasks auf Anhieb lernen. Und wird in der Lage sein, auch Edge Cases zu behandeln.

Dialogue example for an autonomous driving bus with Large Language Models

Hier habe ich ein spezifisches Training für einen autonomen Bus dargestellt.

Basierend auf dem Vortraining, speise ich spezifische Trainingsdaten in das System ein, zum Beispiel Marketing- und Kommunikationsmaterial sowie Datenbankinhalte über Haltestationen oder Verkehrszeiten.

Auf Basis dessen kann der Bot eine Menge Fragen beantworten, die in diesem Material behandelt werden.

Das System ist auch in der Lage, das Trainingsmaterial so zu übersetzen, dass es in der ersten Person antwortet. Es beantwortet Fragen aus der Perspektive des Kiezbusses. Es macht also ein Rollenspiel.

Die Frage „Wo schläfst Du?“ kann das System nicht ganz so einfach beantworten, denn die Antwort steht nicht im Trainingsmaterial. Es muss die Frage abgleichen und übertragen auf das, was es weiß (… nachts ist er abgestellt …). Und macht das gut.

„Kannst Du auch fliegen?“ ist eine Frage, die auch nicht ansatzweise im Trainingsmaterial beantwortet wird. Das System bringt hier sein Wissen, dass es ein Bus ist und das Wissen (aus dem Vortraing) über allgemeine Fähigkeiten von Bussen zusammen (zum Beispiel, dass Busse auf dem Boden verkehren und nicht in der Luft). Und kann die Frage damit richtig beantworten.

Dialogue example for two autonomous systems with Large Language Models

In meinem letzten Beispiel denken wir noch weiter in die Zukunft. Wir statten zwei autonome Systeme mit Sprachfähigkeiten aus und lassen sie aufeinander los:

Die Lieferdrohne “Darren” möchte einen Brief mit Empfangsbestätigung abgeben, der Concierge-Robot verwaltet den Terminkalender des Briefempfängers. Die beiden Maschinen müssen jetzt einen gemeinsamen Zeit-Slot auf Basis ihrer Terminkalendereinträge finden. Die Sprachsysteme beider Maschinen sind jeweils spezifisch für ihren Job trainiert, zwei LLM-Instanzen kommunizieren jetzt also miteinander.

Die Verhandlungen sind nicht superschnell, aber die Maschinen sind in der Lage einen Terminslot zu vereinbaren, der für beide passt.

Durch die Verbindung der beiden Geräte jeweils mit einem Large Language Model benötigen sie untereinander keine spezifizierte Schnittstelle mehr. Jede Maschine kann ihre Funktionalitäten in Sprache übersetzen und die Inputs des Gegenübers wieder in Business-Daten für das eigene System.

Zwei kluge Menschen hätten diesen Task vielleicht in der Hälfte der Zeit hinbekommen. Aber für zwei Maschinen ohne definierte Schnittstelle ist das Ergebnis schon ziemlich bemerkenswert.

Fun-Fact: Wenn ich die Maschinen nicht hart (per scripting) stoppe, führen sie die Unterhaltung auch nach Erreichen des Ziels fort, sie quatschen einfach weiter über andere Dinge oder diskutieren den Termin nochmal.

Was daraus folgt?

Mein Anliegen ist: Wenn wir die Welt in Zukunft mit immer mehr autonomen Systemen in unseren öffentlichen und privaten Sphären ausstatten, dann sollten wir dafür sorgen, dass die neuen Entitäten unseren Alltag bereichern. Als verständliche, angenehme, spannende Gesprächspartner. Anstatt unser Leben noch schwieriger, anstrengender oder bedrohlicher zu machen.

Vielen Dank an die CURPAS-Veranstalter, Prof. Dr. Uwe Meinberg und Dr. Christina Eisenberg für den wunderbaren Event und die Einladung!

Ganz lieben Dank auch an Max Heintze, Kirsten Küppers und Hoa Le-van Lessen für Inspirationen und Support bei der Präsentation und Text.

--

--

Maximilian Vogel

Machine learning, large language models, NLP enthusiast and speaker. Co-founder BIG PICTURE.