A robotok tudnak beszélni? Paranoid hang a társalgási felhasználói felületeken

Szilvi Német
Feb 18 · 6 min read

A User és az Interface rétegek összeolvadnak: az Interface elkezd úgy viselkedni, mintha maga is egy másik User lenne.

“Four Sail. Bay be choose. Never worn.”

I.

A felhasználói felületek tervezése már egy ideje elrugaszkodott a feliratos gombok kattintásával való navigálástól az olyan perszónák megidézése felé, akikkel írásban vagy szóban beszélgetünk és egyezkedünk a teendők elvégzéséről.

Ezek a perszónák, robotok (programozott interakciókat végző ágensek) sokféle álcában és hanggal érkeztek meg közénk. Néhányuk egyáltalán nem beszél, mások viszont egész sikeresek ezen a területen is. A robotok többsége számtalan robot egyszerre, az emberi felhasználók számára mégis egyként jelennek meg (lásd Siri, Alexa vagy Cortona). Megint más robotok, amelyek lent a mélyben, az internet „csatornáiban” mint Morlockok dolgoznak, nincs hangjuk; legalábbis olyan nincs, amit az emberek többsége meghallhatna. Ők az egyszerű parancsok néma kreatúrái. Azért fejlődhettek ki, hogy alárendelődjenek és alsóbb rendűek maradjanak (és néhány esetben egyfajta virtuális rabszolgaságra is emlékeztessenek). Sok esetben a CUI (conversational user interface — szerk.) perszónák tervezése öntudatlanul is követi a korábbi, hierarchikus felépítésű társadalmi kapcsolatok hagyományát. A társalgási robotoknak nem hangjuk nincs, hanem csak hangjuk van. Ha a vokalitás az egyetlen megjelenési formájuk, ez egyben a sorsuk és börtönük is?

A botok nem pusztán egy érintkezési felület membránját alkotják, ami összeköti az embereket a számítógépekkel, hanem a szoftveres alkalmazások egy olyan műfajának a részei is, amelyek segítik megszervezni annak a módját, ahogy a bolygó méretű komputáció magába gyűri és internalizálja az emberi társadalmat. A botok egy nagyobb infrastrukturális tájkép rétegei, amelyek kifejezik a rendszer megjelenését felénk és fordítva. A User és az Interface rétegek hasonlatossá válásának képmásai: az Interface úgy működik, mintha maga is egy másik User lenne. Nem hasonlítanak egy eszközre vagy egy diagramra, sokkal inkább egy rokonszenves munkatárs ábrázatát veszik fel, akivel rövidebb vagy hosszabb távú kompozit tevékenységbe lépünk: mobilon beszélgetünk vagy mint testetlen ambient létezőkkel ki-ki szólunk hozzájuk a térbe.

Benjamin Bratton: The Stack. On Software and Sovereignty, MIT Press, 2016

Amikor ezekről az összetett cselekvőkről beszélünk, nem világos, mi alapján különböztethetjük meg a kellemeset a kétes értékűtől. Sokféle furcsaságba ütközünk, amikor azt vizsgáljuk, miért szeretnek az emberek bizonyos robotokat és másokat miért nem. Találkozhatunk robot állatokkal, amelyek idős embereket segítenek a bénító demencia csillapításában, robot szex babákkal, amelyek kiállják a magányosok szerelmi teljesítményének próbáját, robot porszívókkal, amelyek véletlen öngyilkosságot követnek el az izzó kályhák tisztításakor a gondnok távollétében, rovarszerű robotokkal, amelyeket gladiátorküzdelembe kényszerítenek fiatalkorú hobbista gazdáik, és mindannyian hálásan fogyasztunk mindent, amit a robot rabszolgák állítanak össze számunkra üzemeinkben. Mindazonáltal ezek nem a robotjainkról, hanem a humanizmus örökségének visszamaradó patológiáiról árulkodnak. Előttünk áll a feladat, hogy értelmet adjunk a még létező és a majd eljövendő robotok és emberek egyenlőtlen mezőjének és annak a tehernek, amit ezek a szintetikus személyiségek viselnek a mi megbízásunkból.

A szimbolikus interakciókra épített új médium sorsa forog kockán, amely számára az empatikus „humanizálás” nemcsak romboló, hanem veszélyes is lehet. A “Stack” egészével való kommunikáció tanulása közben mi magunk is új beszédmódokra teszünk szert: új hangunk lesz. Ahogy beszélni tanulunk robotjainkkal az alapján, ahogy egymással beszélünk, idővel talán más emberekkel is úgy beszélünk majd, ahogy ezekkel a mesterséges személyekkel való beszélgetés során tanultuk. Ahogy az egyik beszélgetés alakul a másikhoz, millió módja van annak, hogy valami bizarr módon rosszul süljön el (vagy éppen bizarr módon jól alakuljon).

Az egyik első figyelmeztető jel, amit a botokkal való érintkezésünk „paranoid stílusának” is nevezhetünk, az az emberszerű mesterséges intelligencia szentimentális humanizálása miatt és nem annak ellenére jelent meg. Az emberszerűség talán a belépési pontnál egy kezdeti felismerést, azonosítást, empátiát vagy kényelmet jelent, előbb-utóbb azonban elkerülhetetlen az új karakter indítékainak vagy szándékainak felismerése. Milyen drámát és cselekményt rejt ez az új ismeretlen? Milyen tervei vannak velünk? A robot komputációs infrastruktúrával való valós kapcsolatáról könnyen elfeledkezünk a szórakoztató konspirációk érdekében. A „felhasználó központú” etosz pedig, hogy a számítástechnika belesimul és eltűnik az ismerős környezetben az a felismert oka, nem pedig a megoldása ennek az egyre terjeszkedő problémahalmaznak. Végül arra a következtetésre juthatunk, hogy jobb módja is lehet a robotok megjelenésének vagy a világgal való találkozásuknak, mint az emberi álca vagy a szolgalelkűség.

II.

Mit jelent interface-t használni a parancsok kiadására? Számít, hogy kódként írjuk le, vagy hangként mondjuk ki? A testet öltött tudat bármilyen formája több mint egy csatorna, amin keresztül az ember gondolkodik. Idővel azzá a móddá válik, ahogy az ember gondolkodik.

III.

Mit jelent a hang mint interface és hogyan működik? Azon hangszerek kivételével, amelyek az énekhangot idézik meg (mint a rebab vagy a viola da gamba), a szintetikus hangok története legalább a 18. századig nyúlik vissza, gondoljunk csak Christian Kratzenstein magánhangzó zengő barlangjaira. Mióta a 20. század közepére lehetővé vált az elektronikus hang szintetizálása, az emberi hang utánzása vált az elsődleges célkitűzéssé, ahogy a Daisy Bell (Bicikli két személyre) című dal is bizonyítja, amelyet Max Mathews, John Kelly szerzett és játszott el a Bell Labs-ben 1961-ben. Ezek mind a beszélő számítógépek családfájához tartoznak, de azok a számítógépek, amelyek értelmezni is képesek az emberi beszédet, már egy másik problémát és projektet jelentenek a komputációs nyelvészet számára. Az 1960-as évek végére, az olyan prediktív technológiák mint a rejtett Markov modellek, majd később ezeknek a mesterséges neurális hálókkal összetett együttese sikeresen értelmezte a hangzó beszédet azáltal, hogy különböző forrásokat kombinált (szintaktikus, akusztikus, nyelvtani és így tovább) a szavak vagy kifejezések legvalószínűbb jelentésének sztochasztikus modelljeibe.

Az emberek számára a világ természetes manipulálása és a gépi logika közötti interfész fordítás megértése egy meredek vagy egy lapos tanulási görbe. Hogy minél szorosabb ellenőrzés alatt tartsa a felhasználó, hogy milyen típusú komputáció lépjen életbe, a programozónak denaturalizálnia kell a kommunikáció ösztönös folyamatait, hogy gondolkodása az algoritmikus írás logikájához közelítsen. Amennyiben a felhasználó elégedett azzal, hogy a dolgok nem úgy jelennek meg, ahogy valójában működnek, hanem ahogy mutatják, hogy működnek, akkor a naturalisztikus és intuitív interfészek (mint a CUI botok többsége) ebben segítenenek. A könnyű olvashatóság az ára a rendszer meg nem értésének.

A konverzációs UI megjelenésével ahelyett, hogy az emberek jobbak lennének a programozásban, mint ahogy a kódolás egy alapvetően készséggé kezdett válni, egy ellentétes folyamat játszódik le: a szoftver lett képes egyre jobban elsajátítani, amit az emberek értenek mókás főemlős hangjainkon. Míg a felhasználónak csak azt kell megtanulnia, hogyan használja a hangalapú vezérlést és hogyan ismerje fel a gép korlátait az élő beszélgetőpartnerrel való összevetésben, a feladat nagy részét, ahhoz, hogy a két irányú interakció működjön, az AI végzi el: megtanulja megérteni (és megtanulja, hogyan tanulja meg megérteni), mit szándékozik tudatosan és tudattalanul közölni vele a felhasználó. Persze még mindig az emberi felhasználók és programozók tanítják meg erre (vagy még pontosabban, megtanítják hogyan tanítsa magát).

Az interface fejlődésének időbeli egymásutánisága miatt, amely során a parancssor helyébe lép a grafikus interfész, amelyet a konverzációs interfész vált fel (nyilvánvalóan az egyszerűség, képesség és számítási terhelés okán), arra csábulunk, hogy egy szükségszerű láncolatnak is lássuk azt a fejlődést, amelyben eljutunk a szöveg- és számsortól, a kattintható ikonok és vizuális szimbólumokon át egészen a hang láthatatlan közvetítő médiumáig. Ha így van, az információs médiumok evolúciójának íve azt bizonyítja, hogy az ábécét és számokat lényegileg a képek és ikonok reprezentálják, amelyeket viszont a hang jelenít meg esszenciálisan. De úgy is értelmezhetjük ezt a történeti folyamatot, hogy épp az ellenkezőjét adja ki: a hang a gondolkodás és az akaratlagos kifejezés elsőrendű formája, az ikonok és képek a hang első rendű absztrakciói, a szövegek és számok pedig ezeknek a képeknek és ikonoknak a másod-rendű absztrakciói.

A fordítás részlet Benjamin Bratton: Can the Bot Speak? The Paranoid Voice in Conversational UI című esszéjéből