Advanced User Assistance System

Transformationsprozesse zur konversationsgesteuerten Mensch-Maschine-Interaktion aus technologischem Blickwinkel.

Robert Leonard Mayer
7 min readNov 7, 2019
Abb.1 Star Trek — Computer Core, Abb.2 Issac Asimov -I Robot– Gesetze der Robotik, Abb.3 HAL — A Space Odyssey

Ausgehend von der grundlegenden Bedeutung der Sprache für soziale Kommunikation ist es nicht verwunderlich, dass die Faszination für eine Konversation zwischen Menschen und Maschine weit in die Geschichte zurückreicht. Das Science-Fiction-Genre ist angefüllt mit künstlichen intelligenten Maschinen, welche in gleicher Weise kommunizieren, wie es in der direkten zwischenmenschlichen Konversation üblich ist, also über Sprache. Bordcomputer von Raumschiffen (Abb.1), autonome soziale Roboter (Abb.2) oder Mischwesen aus lebendem Organismus und Maschine, sogenannte Cyborgs, agieren in den Utopien und Dystopien von Issac Asimov bis Stanley Kubrick und George Lucas (Abb.3). In der Fantasie der Autoren ist den technologischen Möglichkeiten intelligenter Sprachsysteme keine Grenze gesetzt.[1]

Wie aber sieht ihre tatsächliche Entwicklung seit dem Beginn der Computerrevolution im Jahr 1950 bis zur Gegenwart aus, welche Stufen können dabei beschrieben werden und ist es möglich eine Zukunftsprognose zu erstellen?

Command and Control Systeme

Zu Beginn der Computer-Ära galt die technologische Umsetzung eines „natural language processing (NLP)“ Systems noch als vergleichbar einfaches Problem. Doch die ersten Versuche verdeutlichten eine ungeahnte Komplexität in der Übersetzung der menschlichen Konversation in ein Binärsystem. Selbst Kleinkinder sind komplexen Systemen überlegen, denn insbesondere das semantische und pragmatische Verständnis von Sprache mit all seinen Zweideutigkeiten und variierenden Details lässt sich kaum in mathematische Regeln fassen. Daher lagen die ersten Erfolge im Bereich der „Automated Speech Recognition (ASR)“. Gesprochene Wörter werden vom Computersystem in ihre Textform übersetzt und zur Befehlseingabe genutzt. Daraus entstehen die ersten Command and Control Systeme, welche einzelne Schlüsselwörter erkennen und vorprogrammierte Tätigkeiten ausführen können. [2]

Diktiersysteme

Mit der schrittweisen Verbesserung von ASR Systemen gelangen zunehmend Produkte in Form von Diktiersystemen auf den Endverbrauchermarkt. Diese Systeme sind in ihrer Funktion noch stark limitiert und hinken in ihrer Effizienz der Tastatureingabe weit hinterher.[3] Das Potential eines konversationsfähigen Interfaces wurde allerdings offensichtlich, als das Unternehmen Apple 1987 das Zukunftsprojekt „Knowledge Navigator“ vorstellte. Ein virtuell verkörperter Assistent unterstützte den Nutzer in seinen Zielen und konnte sogar proaktiv Problemen vorbeugen.[4]

Interaktive Voice Response (IVR) Systeme

Anfang 2000 repräsentieren interaktive Sprach-Antwort-Systeme die ersten wirklich nutzbaren Produkte auf dem Markt. IVR Systeme sind in der Lage, Schlüsselwörter über das Telefon zu verstehen und im Anschluss Aufgaben auszuführen. Sie revolutionieren den Kundenservice, indem Anrufer sofort an die zuständigen Experten für ihr Problem weitergeleitet werden können. Repetitive Aufgaben, wie die Angabe der Kundennummer oder die Bereichszuordnung eines Problems, werden von den Computersystemen übernommen. Weitere Aufgabenfelder von IVR-Systemen sind die Ausgabe von Informationen, beispielsweise zur Wettervorhersage, Verkehrslage oder zum Börsenstand und der Ablauf einfacher Transaktionen, wie das Buchen eines Flugtickets oder der Geldtransfer.[5]

Voice User Interface Systeme (VUIs)

Die Verbreitung von Cloud-Systemen, Deep-Learning-Prozessen und mit dem Internet vernetzten Produkten (Internet of Things), leitet seit 2010 die zweite Ära von Sprachsystemen ein, die bis heute anhält. Sprechende und zuhörende Interfaces verbreiten sich in Computern, Automobilassistenten, Call Centern und Haushaltsgeräten. Es entstehen mobile Apps in Form von Chatbots und Sprach-Assistenten sowie sogenannte Smart-Speakers, welche allein über Voice-User-Interfaces agieren. [6]

»We are in the infancy of the next stage of VUI Systems.« Cathy Pearl [7]

Stand heute

Die letzten Jahre sind durch eine signifikante technologische Verbesserung der VUIs und in Zusammenhang damit auch durch ihre zunehmende Verbreitung geprägt. Durch den Einsatz von Deep-Learning-Algorithmen, lernt das System auf Grundlage großer Datensätze aus seinen eigenen Fehlern und kann so adaptiv auf unbekannte Situationen reagieren. Beispielsweise stellte das Unternehmen Google auf seiner Entwickler-Konferenz (Google-IO) 2018 und 2019 das AI-System Google Duplex vor. Dieses zeigt die ersten Ansätze einer weiterentwickelten Sprachassistenz, die in der Lage ist, komplexe Satzkonstruktionen zu verstehen, wiederholt auftretende Irrtümer zu korrigieren und sich an individuelle Anforderungen zu adaptieren. Auf der Basis von Training in realen Situationen, automatisiert Google Duplex Termine und Buchungsverfahren von Anfang bis Ende. Dazu ruft es sogar aktiv bei Unternehmen an und vereinbart für den Nutzer beispielsweise einen Friseurtermin oder eine Tischreservierung.[8]

Was bringen die nächsten 10 Jahren?

Die zunehmende technische Verbesserung und rasche Verbreitung von Sprachsystemen kann nicht über zahlreiche ungelöste Herausforderungen und Probleme hinwegtäuschen (siehe Kapitel 3), die Erstellung einer belastbaren Prognose für die kommenden 10 Jahre bleibt daher schwierig . Das Institut Karlsruhe hat im Jahr 2016 ein Framework für „Advanced User Assistant Systems (AUAS)“ definiert. Die derzeitigen Systeme werden als „Basic User Assistance Systems“ deklariert und können sich demnach in zwei Richtungen weiterentwickeln. Dies betrifft den Grad ihrer Intelligenz und ihrer Interaktivität. Daraus entstehen drei Unterscheidungskriterien für AUAS: Intelligent, interaktiv und antizipativ (Abb.4).

Abb.4 Klassifizierung von Advanced User Assistance Systems

Andere Frameworks beschreiben die gleiche Basis, fokussieren sich allerdings in ihrer Definition der antizipativen AUAS auf andere Aspekte der Entwicklung:

  • Die Companion Technologie setzt ihren Fokus auf den Assistenten als Begleiter.[10]
  • Die Conversational Plattform konzentriert sich auf die Definition eines übergreifenden Systems, welches sich in konstantem Austausch mit anderen Systemen befindet, diese steuert und auf die Vorlieben des Nutzers eingeht.[11]
  • Embodied Conversational Agent bringt den Aspekt einer sowohl physischen als auch digitalen Verkörperung in das System.[12]
Abb.5 Ausschnitte einer Experten-Befragung im Bereich Spoken Language Processing (2015). Jahresangabe berechnet sich aus dem Durchnitt der Befragten (n=61)

Was kommt in den nächsten 20 Jahren?

„Ich denke, dass es weltweit einen Markt für vielleicht fünf Computer gibt”, prognostizierte Thomas Watson, Chairman von IBM, im Kriegsjahr 1943 und zeigt damit auf, dass Langzeitprognosen auch von Experten häufig kritisch betrachtet werden müssen. Mit jedem Jahr, das einer Entwicklungsprognose hinzugefügt wird, erhöhen sich auch dessen unbekannten Faktoren. Für die Entwicklung der nächsten 20–30 Jahre werden deshalb lediglich interessante Fakten aufgezeigt, welche die Entwicklung von Advanced User Assistant Systems (AUAS) beeinflussen können (Abb.5).

Robert J Moore spricht von der nächsten Stufe als Autonomes Soziales Agentensystem. Grad der Intelligenz und Interaktion sind weit angestiegen und ermöglichen dem Agentensystem eigene, unabhängige Entscheidungen für das Wohl des Nutzers zu treffen.[13] Zudem wird es der physischen Komponente, im Zuge der Verbesserungen im Bereich der Robotik, möglich sein, immer mehr praktische Tätigkeiten des Menschen zu übernehmen. Der soziale Roboter übernimmt die Hausarbeit, Einkäufe und andere unbequeme Tätigkeiten.

Noch weiter in der Zukunft finden sich durch Steigerung des Intelligenzgrades Systeme, die die Grenze zur Artficial General Intelligence (AGI) überschritten haben. AGI beschreibt die Fähigkeit, kognitive Aufgaben mindestens genauso gut, eventuell sogar besser zu bewältigen als der Mensch. Anders als in vielen Science-Fiction-Darstellungen wird an dieser Stelle jedoch nicht das Bewusstsein der Maschinen zum Problem, sondern Fehlberechnungen in ihrer Zielsetzung.[14]

— — —

Diese Story ist Teil der Publikation meiner Masterthesis 2029 — Am Menschen orientierte Gestaltung konversationsfähiger Assistenzsysteme”. Die Erkenntnisse der drei “Blickwinkel-Artikel”(Der Mensch als…, Advanced User Assistance System und Natural conversational User Interface) sind:

  • Die technologische Entwicklung zur konversationsgesteuerten Mensch-Maschine-Interaktion findet seine Entsprechung auf gesellschaftlicher Ebene im Konzept der Secondary Orality (nach Walter J. Ong).
  • Sprachassistenten besitzen das Potenzial, sich in den kommenden Jahren zu digitalen Begleitern zu entwickeln die konversationsfähig und adaptiv in übergreifenden Internet of Things (IoT)-Plattformen agieren.
  • Das Voice-User-Interface wird das Graphical-User-Interface nicht ersetzen. Das Mensch-Maschine-Interface wird stattdessen um neue Kommunikationswege erweitert und dadurch natürlicher, konversationsfähiger und multimodaler.
  • Aufgabe des Gestalters ist die Entwicklung übergreifender, konversationsfähiger und am Menschen orientierter Assistenzsysteme.

Das Gestaltungsergebnis der Publikation ist die Design Fiction “Willkommen bei den Andersons”Hier gehts zum Projekt

— — —

Literaturquellen

[1] Pearl Cathy. Designing Voice User Interfaces: Principles of Conversational Experiences. OReilly, 2017, s.xi-xiii.
[2] Pearl Cathy. Designing Voice User Interfaces: Principles of Conversational Experiences. OReilly, 2017, s.1.
[3] Bulling M. Esther, Kerbel Anita, Lutter K Simon. A concept for a future multimodal voice user interface. BA, Hochschule für Gestaltung, WS18/19.
[4] Press Gill. The Knowledge Navigator. Online im internet:https://infostory.com/2017/12/21/the-knowledge-navigator/ [Stand: 24.06.2019].
[5] Hall Erika. Conversational Design. A Book Apart, 2018,s. 26
[6] Mehrere Autoren. Conversational User Interface. Online im internet:https://en.wikipedia.org/wiki/Conversational_user_interfaces [Stand: 24.06.2019].
[7] Pearl Cathy. Designing Voice User Interfaces: Principles of Conversational Experiences. OReilly, 2017, s.2.
[8] Leviathan Yaniv. Google Duplex: An AI System for Accomplishing Real-World Tasks Over the Phone. Online im internet: https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html [Stand: 24.06.2019].
[9] Maedche Alexander. Advanced User Assistance Systems. Business & Information Systems Engineering, vol. 58, no. 5, 2016, pp. 367–370.
[10] Biundu Stephan Susanne. Companion Technologie. Online im internet:https://opencast.uni-ulm.de/paella/ui/watch.html?id=3c3a4617-3b6b-4ae3-b0bf-604df0293a4c [Stand: 24.06.2019].
[11] Kasey P Susanne. 5 Trends Emerge in the Gartner Hype Cycle for Emerging Technologies, 2018. Online im internet:https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/ [Stand: 24.06.2019].
[12] Moore K. Roger. Spoken Language Processing: Are We Nearly There Yet? Prof. Roger K. Moore, UK Speech Conference 2018. Online im internet: https://www.youtube.com/watch?v=7xa1oDLK9x0&t=2112s [Stand: 24.06.2019].
[13] Moore K. Roger . Is Spoken Language All-or-Nothing? Implications for Future Speech-Based Human-Machine Interaction.Lecture Notes in Electrical Engineering Dialogues with Social Robots, 2016, pp. 281–291.
[14] Tegmark Max. Life 3.0: Being Human in the Age of Artificial Intelligence. Penguin Books, 2018, s. 64

Bildquellen

[Abb.1] Issac Asimov -I Robot– Gesetze. Online im Internet: https://www.pinterest.de/pin/505458758177402398/?lp=true [Stand: 01.07.2019]. d
[Abb.2] Star Trek — Computer Core. Online im Internet: https://memory-alpha.fandom.com/wiki/Computer_core [Stand: 01.07.2019].
[Abb.3] HAL — Space Odyssey. Online im Internet: https://www.youtube.com/watch?v=I1iRWKARwTY [Stand: 01.07.2019].[Abb.4] Maedche Alexander. Advanced User Assistance Systems. Business & Information Systems Engineering, vol. 58, no. 5, 2016, pp. 367–370.
[Abb.5] Moore K. Roger, Li Hui, Liao Shih-Hao. Progress and Prospects for Spoken Language Technology: What Ordinary People Think. Interspeech 2016.

--

--

Robert Leonard Mayer

I’m an interdisciplinary designer and UX researcher. My project deal with the interactions between people, technology and information.(robertleonardmayer.com)