Parole, parole, parole… Le interfacce vocali hanno bisogno di dialogo

Carlo Frinolli
nois3 journal
Published in
6 min readJun 26, 2017

È un’occasione di cui vado particolarmente fiero: un meetup specifico per chi vuole sradicare i silos tra dipartimenti che spesso non si parlano e che invece devono collaborare. Ho usato tanta enfasi sul devono perché credo che è nell’interesse di tutti portare a casa prodotti, progetti o servizi di qualità maggiore, ove qualità significa anche un processo di sviluppo o consegna soddisfacenti per tutti gli attori in gioco.

Siamo alla quarta puntata, dicevo, e siamo cresciuti un bel po’. Siamo arrivati anche a 65 partecipanti. Non male per un meetup nato poco più di 3 mesi fa.

Il tema della quarta puntata… Le interfacce vocali

Le interfacce vocali stanno cominciando a essere ovunque. Da Siri a Google Now, a Google Assistant, fino a Alexa, senza dimenticarsi Cortana. Ma che significa progettare per le interfacce vocali? Di quali ingredienti abbiamo bisogno? E soprattutto non si tratta solamente di interfacce con cui interagire con la voce, ma si tratta di un tema più ampio che è quello legato alla interazione conversazionale tra l’uomo e la macchina. Per questo il 13 giugno scorso con Giulio Calvani, sceneggiatore freelance, amico e socio in The Land, abbiamo tenuto una presentazione su questi argomenti.

Hey Siri… Tell Alexa that is Ok, Google.

Ecco gli ultimi grandi eventi di presentazione dei big player della tecnologia, segnatamente in ordine alfabetico Amazon, Apple, Google e Microsoft, hanno avuto una componente legata a qualche annuncio o miglioramento dei servizi legati all’interazione uomo macchina attraverso la voce.

Alexa, Siri, Google Assistant e Cortana in un modo o nell’altro sono tra gli strumenti che abbiamo usato almeno una volta, per lo meno uno di essi. E questo non è certamente un tema nuovo nella fantasia degli esseri umani.

Da HAL 9000 a Samantha

Da 2001 A Space Odyssey in poi, cinematograficamente parlando si sono susseguiti molti esempi di interazioni uomo macchina attraverso la conversazione. In alcuni casi la situazione sfugge piuttosto facilmente di mano, per precipitare nei meandri in cui l’artificial intelligence diventa maligna e cerca di sopraffare l’essere umano. Un espediente di sceneggiatura è spesso efficace ma che nasconde alcuni dei temi che vorrei trattare qui.

HAL 9000 - A Space Odissey

HAL 9000 — A Space Odyssey

Nell’imperdibile War Games il computer che è anche in grado di controllare il sistema di lancio missilistico dell’arsenale nucleare americano si trova stimolato da un ragazzino a giocare a un gioco programmato con il Dr. Falken e quasi rischia di far scoppiare l’olocausto atomico.

War Games

War Games

Samantha è invece la voce che fa innamorare Theodore in HER. Un po’ perché la voce di Scarlett Johansson è oggettivamente una delle più sexy che si possano ascoltare oggi giorno, e vabbè, un po’ perché con questo stratagemma si introduce più o meno consapevolmente un concetto noto a molti pubblicitari, in senso letterale: il Tone Of Voice. Ma su questo ci torno in un post più avanti.

JOAQUIN PHOENIX as Theodore in the romantic drama "HER," directed by Spike Jonze, a Warner Bros. Pictures release.

JOAQUIN PHOENIX as Theodore in the romantic drama “HER,” directed by Spike Jonze, a Warner Bros. Pictures release.

La sfida progettuale

Al netto del fatto che i tipi di interazioni vocali sono stati codificati come pressoché 4 (di comando/imperativo, di dettato, con un’agente/assistente o di identificazione vocale), quelli che stanno andando per la maggiore — e senza dimenticare i chatbot protagonisti indiscussi delle ultime hackathon a cui ho assistito, sono senz’altro gli assistenti vocali.

Comfort zone… not here

Un primo problemino che ha un designer che progetta per questo tipo di interazioni è che a differenza del classico processo di Design Digitale a cui possiamo essere abituati, il medium su cui si progetta non è il medium su cui si sperimenta e testa.

Pare ovvio a sentirselo dire, ma progettare per un flusso di dialogo implica fare un diagramma di flusso. Il test dello stesso diagramma di flusso dovrà essere fatto tramite la voce (o l’interazione scritta — ma per la macchina è indifferente, lei sempre bit scrive, tuttalpiù aggiunge una fase di sintesi vocale dell’output elaborato).

schermata-2017-06-25-alle-16-51-39

Basta un nerd per progettare allora?

Sì ma deve anche saper scrivere. È per questo che per progettare un flusso dialogico che funziona avere per le mani uno sceneggiatore aiuta. Se ci pensate un secondo — e ci sono alcuni post su Medium che lo teorizzano anche — si tratta di rispondere non solo all’esigenza dell’utente, ma anche a far capire che dall’altro lato c’è un assistente che può essere divertente.

La difficoltà aggiuntiva per uno sceneggiatore però, che scrive la sua sceneggiatura e quando la consegna è fatta e finita e conclusa, è che ci troviamo di fronte a una logica a libro-game. Una di quelle per cui bisogna cercare di prevedere tutte le N possibilità di interazione e necessità degli umani rispetto alla loro interazione con l’assistente computerizzato.

Barare per soddisfare esigenze

Al momento Siri, Google Assistant o Alexa spesso barano. Sono in grado di riconoscere alcune parole chiave, fanno ricerche molto velocemente su internet e la bravura dei progettisti è stata soprattutto quella di esser stati in grado di raggruppare esigenze simili in cluster di risposte affini, così da sembrare soddisfacenti. Un lavoro certosino di Information Architecture, che spesso funziona.

Spesso, mica sempre. Infatti come conferma un articolo che ho letto oggi tornando dal concerto di Eddie Vedder — epico ma non c’entra ora :P — il problema è che gli esseri umani sono capaci e abituati a cosa che le macchine al momento non sono ancora in grado di fare. E allo stesso modo gli umani sono in grado di adattarsi velocemente a contesti più favorevoli e familiari.

Ma una cosa per volta. Torniamo a cosa significa progettare un dialogo e magari prima diciamoci due parole su cos’è un dialogo che funziona.

Il dialogo è un duello

Come ci spiegava Giulio durante la presentazione, un dialogo che funziona è un dialogo che vede due punti di vista magari in contrapposizione che si sfidano e che rendono serrata la conversazione a cui si assiste. Un celeberrimo dialogo da Some like it hot recita:

JERRY (firmly)
Oh, no you don’t! Look, Osgood — I’m going to level with you.
We can’t get married at all.

OSGOOD
Why not?

JERRY
Well, to begin with, I’m not a natural blonde.

OSGOOD (tolerantly)
It doesn’t matter.

JERRY
And I smoke. I smoke all the time.

OSGOOD
I don’t care.

JERRY
And I have a terrible past. For three years now, I’ve been living with a saxophone player.

OSGOOD
I forgive you.

JERRY (with growing desperation)
And I can never have children.

OSGOOD
We’ll adopt some.

JERRY
But you don’t understand! (he rips off his wig; in a male voice) I’m a MAN!

E poi c’è la chiusura. La punch-line.

OSGOOD (oblivious)
Well — nobody’s perfect.

Con questa battuta Osgood vince tutto.

Ma se torniamo un attimo ai nostri assistenti vocali. Se trovate un assistente vocale così brillante è ovvio che comincerete a considerarlo un interlocutore naturale. Quindi tenderete a fare quel che fate con le persone: cambiare discorso, contesto, tipo di informazioni. L’assistente ci prova eh, ma mica ci riesce sempre. Capire il contesto è un’attività tipicamente umana e per niente banale di far capire a una macchina.

La promessa mancata

Quando proverete a chiedere cose più sfidanti all’assistente vocale, sia che lo facciate perché avete bisogno di informazioni in quel momento, sia perché tentate di metterlo in difficoltà, proverete frustrazione nel vedere che non sempre ce la farà.

Fintantoché si tratta di un gioco non sarà un problema, quando invece vi servirà un’informazione torneremo sempre a uno dei miei più ricorrenti mantra: never overpromise, overdeliver.

C’è ancora molta strada da fare per la Artificial Intelligence anche se con gli algoritmi di Deep Learning sono stati fatti molti passi avanti, verso un’interazione più naturale e umana. Non c’è dubbio però che è un tema su cui tutti i player maggiori stanno investendo molto. Non ho citato Facebook perché ha puntato apparentemente più sui BOT di Messenger al momento — con FAIR e soprattutto con Facebook M stanno comunque sperimentando — ma anche loro fanno parte del gioco. Di questo approfondirò in un post successivo, vi ho annoiato abbastanza fino qui.

Se però volete iscrivervi a DEED siete più che benvenuti!

Originally published at Carlo Frinolli.

--

--