Progettare per la Voce

Quali sono i principi che permettono di creare un’interfaccia vocale senza alcun supporto visivo?

Davide Giovanni Steccanella
UX Tales
8 min readMar 20, 2018

--

Apparsa nel 2012, Siri è diventata sinonimo di assistente vocale.
Col tempo, ogni smartphone se n’è dotato fino ad arrivare al 2018, dove l’assistente vocale è diventato il cuore pulsante di hardware a sé stanti.

Amazon Echo e Alexa, Google Home e HomePod sono quelli più conosciuti, ma di oggetti connessi a internet comandati solo dalla voce ne esistono diversi — secondo le previsioni, il business crescerà.

Nel futuro prossimo, sempre più persone adotteranno smart objects e sempre più questi strumenti saranno comandati dalla nostra voce.

Una previsione sull’uso di assistenti vocali nel prossimo anno — fonte: https://www.emarketer.com/Article/Alexa-Say-What-Voice-Enabled-Speaker-Usage-Grow-Nearly-130-This-Year/1015812

Nel mondo del digital design siamo stati sempre abituati a progettare principalmente per il sistema visivo, creando GUI e UX strettamente legate al mondo della percezione visiva.

Conosciamo le leggi della Gestalt, i movimenti oculari, come direzionare il focus attentivo grazie a input visivi e i principali UX e UI patterns si basano su come muoviamo gli occhi e su come la nostra corteccia visiva elabora gli stimoli luminosi.

Nel caso di oggetti a comando vocale, può capitare che non ci sia alcuna interfaccia grafica.

Il mondo dell’IoT, dunque, tiene in serbo per sé la sfida di capire come progettare una Voice User interface.

Parlare e Comunicare

Le interfacce vocali si basano sulla voce e trovano nella linguistica, pragmatica e semantica l’ambito d’azione come le interfacce grafiche lo trovano nel mondo della visione e della semiotica.

Se non si prova a capire come gli esseri umani conversano e parlano, costruire una VUI è come struttura una GUI senza alcuna base di Gestalt e percezione visiva.

Le massime di Grice

Uno dei principali teorici della comunicazione e del significato, Paul Herbert Grice, ha fissato quattro regole fondamentali alla conversazione fra individui:

1. Massima della Qualità

Dire solo la verità e mai il falso.

2. Massima della Quantità

Dire solo quanto è richiesto senza dire troppo o troppo poco.

3. Massima della Relazione

Essere pertinenti all’argomento di cui si parla.

4. La massima del modo

Parlare in modo chiaro e non ambiguo.

Tutte e quattro le massime si basano sul principio di cooperazione:

Conforma il tuo contributo conversazionale a quanto è richiesto, nel momento in cui avviene, dall’intento comune accettato o dalla direzione dello scambio verbale in cui sei impegnato

La struttura della conversazione

Le massime sono principi simili a quelli gestaltici – sono il fondamento cognitivo su cui si basa la nostra capacità di comunicare e interpretare una conversazione.

Le massime possono anche essere usate in modi particolari – si può decidere deliberatamente di non rispettarne alcune e ottenere effetti comunicativi alternativi come quando, seguendo le regole gestaltiche, il nostro cervello viene illuso con illusioni ottiche.

A esempio, se dico «Sei un leone» tradisco la massima di qualità (dal momento che nessuno di noi è un felino) ma la frase ha comunque significato: o è metafora o è ironia.

La comunicazione, poi, non fa uso solo delle massime – un discorso acquisisce senso e contenuto anche grazie ad altri elementi:

  • Il contesto, ovvero l’ambiente in cui è immersa la conversazione, che è culturale, sociale, psicologico e fisico
  • Il rumore di fondo, che può inquinare il messaggio sia a livello fisico (come il brusio della folla) che a livello psicologico (lo stato d’animo del ricevente può far interpretare lo stesso messaggio in modi molto diversi) e culturale (una certa espressione significa qualcosa in una cultura ma qualcosa d’altro in un’altra).
  • I correlati del parlato, quali la comunicazione non verbale, come il gesticolare, e paraverbale come il tono di voce e l’inflessione.

VUI e GUI

Da bravi designer visual-oriented che siamo, non possiamo frenarci dal paragonare le interfacce vocali alle loro sorelle grafiche.

Ci sono infatti alcuni punti di contatto come anche notevoli differenze:

1. Flow rettilineo

Le GUI sono il regno della ripetizione – le schermate possono essere disposte in strutture alberate e ramificate di varia complessità e l’utente è libero e capace di muoversi da uno schermo all’altro.

L’utente può navigare ed esplorare come come un navigatore una mappa, seguire indicazioni a vista e visualizzare stati e processi in modo autonomo: la struttura in cui si trova ha una disposizione gerarchica e si possono presentare più contenuti contemporaneamente.

Nelle interfacce vocali, spesso i supporti visivi scarseggiano e ci si basa sulla conversazione per esprimere stati e processi o per navigare nel sistema.

Per tale motivo, uno user flow in una VUI è lineare e step-by-step:

L’utente passa da uno stato all’altro solo grazie a un gioco continuo di trigger manipolati dalla VUI, che è l’unica in grado di accedere direttamente a tutto il sistema con i suoi applicativi.

2. Assenza di schermate

Entrambi i tipi di interfaccia si pongono come intermediari tra un utente e un sistema tecnologico, come il volante di una macchina permette di manovrare complessi meccanismi facendo uso di qualcosa di semplice.

Le GUI presentano i trigger in modo visivo, in forma di bottoni, form, schede o testo e possono essere attivate interagendo direttamente con il materiale grafico su schermo tramite mouse o tocco.

Le VUI, invece, hanno come unico componente manipolabile l’intermediario vocale, un applicativo che ascolta il parlato e abbina a un determinato input un certo tipo di output che poi verrà presentato, sempre vocalmente, allo user e sul quale lo user potrà agire con la voce.

3. Espressione e intenzione

Le componenti dell’interfaccia vocale sono impalpabili e non si possono vedere.

Quelli che potrebbero essere labels, bottoni, icone e form sono frasi che l’utente deve elaborare sul momento coadiuvato dalla sua memoria a breve termine.

E anche gli input che l’utente fornisce sono molto variabili: mentre per avviare una canzone su Spotify basta premere il pulsante “play”, uguale per chiunque, una persona potrebbe dire a Siri “Cantami…” o “Suona…” o anche “Fai partire questo brano” — diversi modi di esprimere la stessa intenzione.

4. Euristiche di Nielsen

Sia per le GUI che per le VUI, tutto quanto definito da Nielsen nelle sue dieci euristiche per una buona usabilità del sistema rimane valido, soprattutto in assenza di supporto visivo.

10 parametri per progettare una VUI

Avere chiare le differenze tra le GUI e le VUI e le loro somiglianze permette di individuare una serie di parametri che possono essere applicati per costruire una voice interface con una buona user experience:

  • Enunciazione
    Il sistema dovrebbe rendere conto del suo stato enunciandolo, per rendere conto all’utente del processo all’interno del quale si trova, della funzione in corso e di cosa può fare o non fare il sistema.
In questo esempio, Google Assistant esplicita l’azione che sta compiendo.
  • Contestualizzazione
    In rispetto della massima di relazione, il sistema dovrebbe enunciare solo le funzionalità che servono, evitando l’effetto call center (mai provata l’odiosa sensazione di ascoltarsi per intero il classico messaggio “premi uno se…”?).
    Siri, a esempio, esplicita quello che le si può chiedere solo dopo un lungo periodo di silenzio all’attivazione o quando le viene chiesto.
  • Feedback di Ascolto
    Tramite comunicazione para-verbale (i classici versi che facciamo mentre uno parla) o, se presenti, feedback visivi, il sistema dovrebbe far capire all’utente che lo sta ascoltando.
Il logo di Google pulsa quando ascolta ed elabora una risposta
  • Escape
    In qualunque momento, l’utente dovrebbe poter annullare un processo o tornare sui propri passi e, in tal caso, il sistema dovrebbe fornire feedback comunicativi di conferma.
  • Errori
    Il sistema dovrebbe prevedere messaggi in caso di a) incomprensione del parlato da parte del sistema, b) di richieste al di fuori delle possibilità o c) di errori del sistema stesso.
    Il sistema dovrebbe fornire anche possibilità di agire sull’errore o alternative d’azione.
  • CTA Ridotte
    Le call-to-action in una VUI sono rappresentate come richieste che il sistema fa all’utente — verranno elaborate in memoria a breve termine, quindi non dovrebbero essere eccessivamente numerose (tre o quattro).
  • Tono di Voce
    Il modo in cui parla il sistema dovrebbe rispettare l’utenza di riferimento sia a livello sociale che culturale per evitare la creazione e proliferazione di rumore di fondo che potrebbe inquinare il messaggio.
  • Lessico Parlato
    In relazione alla massima di modo, il sistema dovrebbe parlare evitando jargon e tecnicismi per rispettare la forma naturale e spontanea del parlato, assieme a forme chiare e non ambigue.
Google Assistant ha un tono amichevole ma principalmente neutro
  • Riassunto e personalizzazione
    Le VUI non permettono una presentazione di tutti i contenuti dal momento che possono presentarli in serie — grazie al machine learning e alla sempre maggiore potenza di calcolo, il sistema può fornire le opzioni come riassunto, personalizzandole in base alle preferenze dell’utente e al contesto di utilizzo.

Conclusioni

Le VUI si stanno diffondendo anche grazie al potenziamento delle tecnologie che ci stanno dietro, della potenza di calcolo e delle AI e del Machine Learning, capaci di comprendere conversazioni e sintetizzare il parlato.

Già oggi, le piattaforme di Amazon e Google permettono ai developers di creare azioni e programmi costumizzatiActions per Google e Skills per Alexa.

Nel futuro prossimo, esisteranno designer che progetteranno le voci per generare diverse sensazioni ed emozioni costruendo percorsi vocali e di discorso diversi, usando toni e inflessioni particolari, come tecnici del suono user-oriented.

Forse, esisteranno UI e UX patterns definiti anche per questo mondo, con librerie standard da usare e VUI toolkit da riutilizzare e reiterare assieme a tool pensati specificatamente per progettare e prototipare interfacce vocali.

Forse, un giorno, Siri smetterà di prendersela se la chiameremo Cortana.

Storie di design, esseri umani e interazioni

Sharing is caring:

Se hai trovato questo articolo interessante, lasciaci qualche applauso o un commento, oppure condividilo con qualcuno! 😉👏

UX Tales è una pubblicazione aperta: se vuoi proporre un tuo articolo, scrivici su Twitter o su Facebook

--

--