Prof. Dr. David Schlangen: »Sprache ist immer mehrdeutig!«

Published in

Mac Life

8 min readJul 19, 2016

Sprachassistenten wie Siri, Ok Google und Cortana sind im Alltag angekommen. Doch wie intelligent sind sie wirklich? Und werden sie eines Tages vollwertige Kommunikationspartner sein? Mac-Life-CvD Thomas Raukamp unterhielt sich mit zwei Experten von der Universität Bielefeld: dem Computerlinguisten Professor Dr. David Schlangen sowie dem Seniorprofessor für Künstliche Intelligenz Professor Dr. Ipke Wachsmuth.

Den Anfang macht das Gespräch mit Prof. Dr. Schlangen. Das Interview mit Prof. Dr. Wachsmuth finden Sie hier.

Herr Professor Dr. Schlangen, was ist Computerlinguistik und warum betreibt man sie?

Wenn man es genau betrachtet, ist es ein großes Wunder, dass wir nur durch Sprechen, also das Bewegen von Luft, so viel erreichen: Wir können andere Menschen über etwas informieren, wir können sie überzeugen, etwas zu tun, wir können uns verabreden, gemeinsam etwas zu tun und vieles mehr. Das ist eine Fähigkeit, die in dieser Komplexität nur Menschen besitzen. Die Linguistik versucht, die strukturellen Eigenschaften dieser Fähigkeit freizulegen — die Computerlinguistik versucht, diese Strukturen präzise zu beschreiben und — in der angewandten Computerlinguistik — so umzusetzen, dass auch Computer sich sprachlich verhalten können. Computerlinguistik ist ein ideales Studienfach für alle, die diese Fähigkeit verstehen möchten.

Professor Dr. David Schlangen studierte in Bonn und Edinburgh Computerlinguistik, Informatik und Philosophie. Er arbeitet als Professor für angewandte Computerlinguistik an der Universität in Bielefeld. Sein Hauptforschungsinteresse gilt der Sprachverwendung und der sprachlichen Interaktion.

In welchen Anwendungsfeldern forschen Sie?

Ich forsche zu Dialogsystemen, also künstlichen Systemen, mit denen man über gesprochene Sprache interagieren kann — wie eben Apples Siri. Insbesondere interessiert uns, wie gemeinsames Verständnis erzeugt wird. Dazu reicht es nicht, nur den „Inhalt“ des Gesagten zu verstehen, vielmehr muss man das Verständnis auch signalisieren. In der freien Interaktion sind die Signale, mit denen solch ein Verständnis sichergestellt wird — wie etwa ein kurzes Kopfnicken, ein fragender Blick — viel flexibler, als wir das bisher in Systemen wie Siri kennen. Außerdem beruht ein Verständnis des Gesagten oft auf einem Verständnis des nicht Gesagten, sondern nur Vorausgesetzten. Die Beschreibung dieses Hintergrundwissens und die Erkennung von Situationen ist ein weiterer Schwerpunkt unserer Arbeit.

»In der freien Interaktion sind die Signale, mit denen solch ein Verständnis sichergestellt wird — wie etwa ein kurzes Kopfnicken, ein fragender Blick — viel flexibler, als wir das bisher in Systemen wie Siri kennen. Außerdem beruht ein Verständnis des Gesagten oft auf einem Verständnis des nicht Gesagten, sondern nur Vorausgesetzten.«

Ist die Computerlinguistik Ihrer Ansicht nach in erster Linie eine geisteswissenschaftliche oder eine informatische Disziplin?

Sie sitzt auf der Grenze zwischen beidem, was sie gerade so spannend macht. Man muss sicher ein Gefühl für und Interesse an Sprache mitbringen, aber auch ein sehr gutes Verständnis mathematischer und technischer Methoden.

Wie funktioniert die intelligente Verarbeitung sprachlicher Daten?

Ganz grob gesprochen muss die Bedeutung der sprachlichen Daten erfasst und so repräsentiert werden, dass die gewünschten Fragen („Was ist passiert?“ bei der Verarbeitung von Zeitungstexten beziehungsweise „Wie soll ich antworten?“ in Dialogsystemen) beantwortet werden können. Dazu gibt es — von der Abarbeitung von Regeln hin zum „Training“ von Computersystemen durch die Präsentation einer großen Menge von Daten mit den gewünschten Antworten — eine Vielzahl von Methoden. In kommerziellen Systemen wird ein Mischung aus diesen Methoden eingesetzt.

Wo liegen aktuell die Grenzen beim Einsatz sprachbasierter Technologie?

Sprache ist immer mehrdeutig. „Es ist kalt“ kann eine Feststellung über das Wetter oder über die Temperatur eines Gegenstands sein — oder die Aufforderung, die Heizung anzuschalten. Um zu erkennen, welches davon in einer konkreten Situation das Gemeinte ist, muss man eben die Gesamtsituation erkennen. Das können aktuelle Systeme nicht. Diese müssen sich immer in eng gesteckten Grenzen bewegen — also einem Kommando beziehungsweise einer Frage.

In Anlehnung an die Klasse von „harten“ Problem in der Informatik, die man „NP-vollständig“ nennt, wird die wirklich tiefe Verarbeitung von Sprache auch „KI-vollständig“ genannt — um sie zu erreichen, muss die Gesamtheit der menschlichen Intelligenz modelliert und somit eine Künstliche Intelligenz geschaffen werden.

Computer in klassischen Science-Fiction-Filmen wie „Raumschiff Enterprise“ sprechen schon lange mit ihren Nutzern. Wie weit sind wir Ihrer Ansicht nach von diesem Ziel entfernt?

In Science-Fiction-Filmen klingen sprechende Computer wie Blechkisten, aber sie verstehen kleinste Anspielungen und geben intelligente, hilfsbereite Antworten. In der Realität klingen sprechende Computer fast perfekt, aber was sie sagen, passt oft nicht. Um zu einer wirklich freien Interaktion zu kommen, müssen Computer die gesamte menschliche Lebenswelt verstehen. Davon sind wir noch weit entfernt.

Welche Rolle spielt Apples Siri in dieser Entwicklung?

Siri hat es mir jedenfalls sehr viel leichter gemacht, auf Partys zu erklären, was ich mache. Früher musste ich immer mühsam beschreiben, was Sprachdialogsysteme sind, heute haben die meisten solche Systeme zumindest schon einmal ausprobiert.

»Siri hat es mir jedenfalls sehr viel leichter gemacht, auf Partys zu erklären, was ich mache.«

Für die Industrie und unser Forschungsfeld war die Einführung von Siri ein wichtiges Ereignis. Nach einer langen, eher ruhigen Zeit ist Sprachtechnologie für viele Firmen jetzt zur Priorität geworden. Das ist gut für unsere Studierenden und Doktoranden, weil sie gut bezahlte Positionen außerhalb der Unis finden — und für das Forschungsfeld, weil gute Ideen zurückfließen.

Diese Diskussion ist allerdings komplexer: Mit den Gehältern, die Google, Apple und Microsoft zahlen, können öffentliche Institutionen nicht konkurrieren. Momentan scheinen die Unternehmen es noch als vorteilhaft zu betrachten, ihre Ergebnisse zu teilen. Das muss nicht so bleiben.

Die Akzeptanz sprachgesteuerter Systeme ist noch nicht allzu hoch. Zwar geben 98 Prozent aller iOS-Nutzer an, Siri bereits mindestens einmal ausprobiert zu haben, nur 3 Prozent sprechen jedoch in der Öffentlichkeit mit ihr. Warum diese Zurückhaltung?

Mit Siri führt man ja keine Unterhaltungen, sondern will einzelne Informationsbedürfnisse befriedigt sehen. Diese anderen zu offenbaren ist vielleicht ein wenig peinlich. Hinzu kommt, dass immer noch zu viele Interaktionen nicht erfolgreich sind und man sich bei mehrfacher Wiederholung in der Öffentlichkeit vielleicht etwas blöd vorkommt. Wenn man allerdings sieht, mit welcher Freude manche Leute in öffentlichen Verkehrsmitteln auch intimste Telefongespräche führen, kann es vielleicht sein, dass man bald auch mehr Menschen Systeme wie Siri benutzen sieht.

»Wenn man allerdings sieht, mit welcher Freude manche Leute in öffentlichen Verkehrsmitteln auch intimste Telefongespräche führen, kann es vielleicht sein, dass man bald auch mehr Menschen Systeme wie Siri benutzen sieht.«

Und wann werden sprachgesteuerte Systeme endgültig in der Mitte der Gesellschaft angekommen sein?

Wenn sie einen echten Mehrwert bieten. Die Schwachstelle ist inzwischen nicht mehr so sehr das Verstehen einfacher Befehle, sondern die Intelligenz hinter den Antworten. Einem menschlichen Assistenten würde eine Managerin ja auch nicht sagen: „Lies mir meine E-Mails vor!“. Vielmehr würde sie sagen: „Beantworte meine Mails!“

Wie wichtig ist die Gestaltung der Oberfläche für die Akzeptanz einer Sprachsoftware?

Dass die Möglichkeit der Verwendung von natürlicher Sprache vorhanden ist, muss sich natürlich vermitteln. In gewisser Weise ist die „Oberfläche“ eines Systems wie Siri aber seine „Persönlichkeit“, die es durch die Antworten transportiert. Hier hat Apple sehr Interessantes geleistet und eine klar positionierte Persönlichkeit geschaffen.

Ist es so, dass die Hemmschwelle, mit einem Computer zu sprechen fällt, sobald die Anzahl erkennbarer Interfaces verringert wird? Viele meiner US-amerikanischen Bekannten scheinen keine Probleme zu haben, mit Amazons „Alexa“ zu plaudern — Siri anzusprechen scheint vielen hingegen außerhalb des Autos nicht sonderlich attraktiv …

Mit Alexa wird ja nur innerhalb der eigenen Wohnung geredet, also ohne Publikum. Amazon hat hier einige Nischen gefunden, wie etwa Steuerung von Smart-Home-Geräten, die Apple offen gelassen hat.

Wie sehen Sie in diesem Zusammenhang Apples Vorstoß, Siri nun auch auf dem Mac einzusetzen — also auf einem „echten“ Computer? Ist Sprache überhaupt die richtige Eingabeform für ein primäres Arbeitsgerät?

Wenn es nur für die Eingabe von etwas genutzt wird, dass ich auch auf andere Weise hätte eingeben können, ist der Nutzen sicherlich beschränkt. Sobald ich aber sagen kann: „Was stand nochmal in dem Bericht von dem Müller von vor zwei Wochen?“, wird sich auch das Arbeiten mit dem „echten“ Computer verändern.

Wie zufrieden sind Sie eigentlich mit der Entwicklung von Siri, seit das System 2011 das Licht der Welt erblickte? Und wo enttäuscht es Sie?

Ich benutze Siri häufig — aber dies auch erst, seitdem ich sie über die Apple Watch aufrufen kann. Ich bin immer noch beeindruckt davon, wie gut die Spracherkennung — also die Umsetzung der gesprochenen in geschriebene Sprache—funktioniert. Hier gab es einen unfassbaren Qualitätssprung in den letzten fünf Jahren. Aber ich bin gelegentlich enttäuscht davon, dass das doch eigentlich richtig Erkannte dann nicht richtig umgesetzt wird.

Siri plaudert bisher am liebsten Englisch und weiß hier auch wesentlich mehr Dinge. Zum Beispiel die Ergebnisse der deutschen Fußballnationalmannschaft. Ist das eine reine Fleißfrage seitens Apple oder eignen sich einige Sprachen besser für die Verarbeitung durch den Computer?

Das ist eine reine Fleißfrage. Alle Sprachen sind von ähnlicher Komplexität. Wenn ein Bereich der Grammatik in der einen Sprache einfacher aussieht, ist ein anderer dafür komplexer.

Apple pflegt Siri scheinbar vornehmlich „per Hand“, während Googles Spracherkennung auf die Autovervollständigung seiner Suchmaschine zugreift — das vielversprechendere Konzept?

Bei der Spracherkennung verwenden beide sicherlich ähnliche Methoden. Man vermutet, dass Google im Bereich des maschinellen Lernens von Antwortstrategien einen Vorsprung hat — aber wie sich das auswirkt, ist schwer zu sagen. Auffällig ist sicherlich, dass sich von allen großen Firmen nur Apple nahezu komplett aus der akademischen Forschung heraushält. Es kann durchaus sein, dass ihnen das noch einmal schaden wird, weil sie ihre eigenen Sachen nicht in der nötigen Geschwindigkeit verbessern können und ihre Leute nicht auf dem Stand der Kunst bleiben.

»Auffällig ist, dass sich von allen großen Firmen nur Apple nahezu komplett aus der akademischen Forschung heraushält. Es kann durchaus sein, dass ihnen das noch einmal schaden wird«

Siri gegen Ok Google gegen Cortana: Wer hat Ihrer Ansicht nach die Nase vorn?

Einen wirklich uneinholbaren Durchbruch hat von diesen bisher keiner gemacht. Siri hat schon länger keine auffälligeren neuen Features mehr erhalten — das erzeugt vielleicht den Eindruck, dass sich dort wenig tut.

Zum Schluss ein persönliche Frage: Wie sieht für Sie die Welt im Jahr 2036 aus — gerade in Bezug auf den Austausch mit Maschinen?

Computer werden sicherlich weiterhin die menschliche Intelligenz unterstützen und verstärken. Ich kann mir vorstellen, dass aus Mobiltelefonen sogenannte Companions werden, die ihren Besitzer durch deren Leben begleiten und durch eine — immer noch begrenzte — Situationserkennung sich von selbst nützliche Informationen merken beziehungsweise diese wiedergeben, wenn sie gebraucht wird. Also: „Du wolltest doch die Tasche mitnehmen”, wenn man aus dem Haus geht, oder „Dein Frühstück hatte 400 Kalorien, du kannst dir also ruhig einen Burger gönnen.“

Ich kann mir vorstellen, dass die Arbeit mit Computern eher eine Zusammenarbeit werden wird, bei der man komplexere Anweisungen geben kann: „Was ist denn die Meinung von Firma X?“ anstatt „Öffne Dokument ,Report.pdf’“.

»Ich gehe jedenfalls nicht davon aus, dass es in zwanzig Jahren super intelligente Roboter gibt, für die wir störende Einfaltspinsel sind.«

Wahrscheinlich wird es Hausroboter geben, die Hausarbeiten übernehmen können — also den Tische decken und die Wäsche waschen, aufhängen und falten. Ich vermute, dass diese Geräte das eher still machen und es ein Zeichen ihrer Intelligenz sein wird, dass man mit ihnen nicht sprechen muss, sondern dass sie einfach funktionieren. Und dass man sie auch nicht Roboter nennen wird — schließlich bezeichnet man eine Spülmaschine ja auch nicht als Abwaschroboter. Ich gehe jedenfalls nicht davon aus, dass es in zwanzig Jahren super intelligente Roboter gibt, für die wir störende Einfaltspinsel sind.

Den vollständige Artikel zum Thema Siri, Computerlinguistik und Künstliche Intelligenz finden Sie in der Printausgabe der Mac Life 09/2016, die ab dem 01. August 2016 im Handel ist.