Facciamo chiarezza su Google Duplex

Il Google I/O svoltosi quest’anno tra l’8 ed il 10 maggio è stato un successo straordinario, ha avuto una risonanza incredibile non solo tra gli addetti ai lavori ma anche tra il normale pubblico. Al keynote sono state presentate una miriade di novità che per giorni sono saltate agli occhi di chiunque sul web. Ma ciò che ha stupito più di tutti è stato Google Duplex. Duplex è un’estensione del Google Assistant che permette all’assistente digitale di portare avanti conversazioni telefoniche con un linguaggio naturale il più fluente possibile in modo totalmente autonomo. Per ora, come visto durante il Keynote, serve solo per prendere prenotazioni o riservarsi un tavolo al ristorante ma le applicazioni future sono potenzialmente infinite e potrebbero veramente cambiare il modo in cui comunichiamo e interagiamo con le aziende.

L’estratto del Keynote in cui si è parlato di Duplex

Duplex è basato sul Machine Learning (Apprendimento Automatico) ed è sviluppato dal team di ricerca Google Brain attivo da una decina di anni nella missione di rendere le macchine intelligenti in modo da migliorare la vita delle persone. Lo stesso giorno del Keynote è stato postato un articolo sul blog di Google dedicato all’IA che spiega bene il funzionamento di questa tecnologia. Al centro di Duplex c’è una complessa rete neurale sviluppata a partire da TensorFlow Extended, una libreria Open Source di Google per il Machine Learning.

Come sottolineato da Google stessa, condurre conversazioni naturali non è semplice, ci sono vari ostacoli da superare a partire dalla comprensione del linguaggio e la sua interpretazione in modo corretto, alla generazione rapida (consideriamo la bassissima latenza tra una risposta e l’altra nelle nostre conversazioni quotidiane) di risposte che possano suonare il più naturali e fluenti possibile. Oltretutto le chiamate possono avere rumore di fondo e quindi non essere sempre chiare. L’evoluzione delle tecnologie del Voice Command e dell’ASR (Automatic Speech Recognition) ha permesso gran parte di questo.

Per rendere così preciso Duplex l’IA è stata allenata per ogni singolo compito tramite una grande quantità di conversazioni telefoniche precedentemente rese anonime. Questi dati sono stati processati insieme a dati di contesto dalla rete neurale che ha imparato sotto stretto controllo degli ingegneri che intervenivano in tempo reale fino a rendere l’IA capace di rispondere sempre in meno di 100ms. È bene però ricordare che, come già detto e come sottolineato più volte anche da Google stessa, Duplex è (per ora) capace di interagire, comprendere e svolgere compiti autonomamente solo in determinati contesti in cui è stata allenata non risultando quindi un oratore generale capace di pensare ma più uno strumento in grado di svolgere mansioni senza intervento umano.

Le risposte vengono poi generate e riprodotte utilizzando una combinazione di tecnologie di TTS Engine, cioè, sistemi di sintesi vocale che, a partire dal normale testo sintetizzano una voce che può essere più o meno realistica. Uno di questi è WaveNet, sviluppato dal team interno DeepMind (acquisito da Google nel 2014 e parte ormai fondamentale del gruppo Alphabet) che, con le ultime versioni, sta sperimentando l’introduzione di una simulazione del respiro e dei suoni delle labbra che potrebbero rendere, in futuro, Duplex ancora più naturale. Già ora però il sistema è decisamente realistico tant’è che è riuscito ad ingannare più persone ed ha suscitato non poco scalpore tra il pubblico durante e nelle ore successive alla presentazione; ma ne parleremo successivamente. Oltre ad un buon lessico e l’esatta intonazione, Duplex è stata resa ancora più convincente tramite l’utilizzo di pause e disfluenze verbali come hmm, uh o ah ah che imitano il linguaggio umano. Ma non solo, il loro utilizzo è efficace anche nel momento in cui l’IA abbia bisogno di più tempo per generare le risposte. Nei casi limite laddove per motivi più disparati l’IA non riesca in alcun modo a risolvere da sé è già stato annunciato che la chiamata verrà trasferita ad un operatore umano che risolverà la situazione svolgendo il compito.

Durante la presentazione sono state mostrate un paio di esempi decisamente interessanti. Il primo esempio porta Duplex alle prese con il fissare un appuntamento per un taglio di capelli, il secondo per prenotare un tavolo in un ristorante. È fantastico osservare come all’uso delle prime disfluenze il pubblico presente vada in visibilio per via dell’impressionante realisticità della chiamata che poteva essere scambiata tranquillamente per una chiamata tra due persone reali.

Come già detto, questo ha suscitato non poco scalpore scatenando allo stesso tempo anche tutta una miriade di interrogativi etici e morali che il pubblico si è posto. A partire da chi si è chiesto se sia giusto che un IA possa utilizzare linguaggio così naturale e fluente da ingannare il suo interlocutore. Google ha prontamente ha risposto che Duplex si presenterà all’inizio di ogni chiamata dandone anche la possibilità di rifiuto. Dopotutto, questa IA è, fondamentalmente, ancora solo uno strumento che non è veramente capace di pensare bensì è stato più volte ripetuto che è capace di interagire in una situazione solo se viene prima allenata con una grande quantità di dati legati a quel determinato contesto, non facendogli passare quindi il test di Turing ma raggiungendo comunque uno step superiore nell’interazione uomo-macchina.

L’utilizzo degli assistenti vocali si sta sempre più radicando nelle nostre vite, basti pensare a tutti i dispositivi dedicati alle IA per la casa come Amazon Alexa o lo stesso Google Home. Però ancora molto spesso capita che questi assistenti non riescano a capirci o che fraintendano ciò che chiediamo. Un utilizzo così efficiente del linguaggio naturale può portare in futuri miglioramenti anche agli assistenti stessi che potranno risponderci con voci sempre meno impostate e sempre più fluide, volendo anche piacevoli da ascoltare, a differenza delle attuali ed inconfondibili voci robotiche.

A mio avviso, in questi mesi, ci si è soffermati troppo spesso su argomenti sollevati da paure verso le nuove tecnologie andando invece a scansare quelli che sono i punti che possono migliorare le vite di ognuno. Ne può beneficiare, ad esempio, chi ha difficoltà nel parlare, chi ha problemi legati all’udito o ancora un qualcuno che si trova in un posto in cui non si parla la sua stessa lingua; ma anche la più semplice delle situazioni ovvero quando ci si trova magari in un momento in cui non ci si può mettere al telefono ma si ha comunque bisogno di prendere un appuntamento obbligatoriamente via telefonica.

Il secondo esempio di chiamata portato al Keynote è altresì interessante perché porta una situazione in cui l’IA non può svolgere il suo compito in quanto al ristorante in cui chiama non si accettano prenotazioni per tavoli da meno di 5 persone. Qui Duplex si approccia alla conversazione e svolge comunque in modo eccellente il suo compito interpretando le parole della ristoratrice meglio della ristoratrice stessa che invece stenta a capire.

Lentamente Google ha iniziato a testare sulla massa Duplex rilasciandolo come aggiornamento per un piccolo gruppo di proprietari di Pixel 3 e 3 XL. Inoltre, è stato annunciato che il test è inizialmente circoscritto ad alcune città degli USA e che si espanderà col tempo.

Alcune testate giornalistiche hanno potuto provare con mano il funzionamento di Duplex con risultati più che soddisfacenti stupendo in un certo senso anche i più scettici che credevano che la presentazione fosse solo una demo montata e che il risultato finale non sarebbe mai stato anche solo lontanamente come quello del Keynote. Tra questi è molto interessante l’articolo di The Verge, che ha potuto provare il servizio tramite device personali dello staff editoriale, evidenziando come il tutto funzioni incredibilmente bene, ma che fondamentalmente non si sa ancora bene come funziona in quanto Google non sta rilasciando nessuna registrazione né trascrizione delle chiamate di Duplex.

Spesso neanche ci accorgiamo quando e quanto le IA già interagiscono con noi, la ricerca di Google e la maggior parte dei suoi servizi ne fanno uso come Translate, gran parte degli smartphone degli ultimi mesi ne fanno un ottimo utilizzo per scattare foto migliori. Tutti i meccanismi di raccomandazione da quello di YouTube a quello di Amazon fanno utilizzo di queste tecnologie. Stando qui potremmo tirarne fuori a centinaia di esempi. E siamo fondamentalmente solo all’inizio, ma da una parte già ad un buon punto per tecnologie che possono veramente semplificarci e migliorare le nostre vite. Ovviamente non è tutto rose e fiori, i problemi etici e morali derivati dall’utilizzo delle IA sono molteplici soprattutto quando le IA interagisco con noi umani e quando si interpongono tra umani stessi; se funzionano bisogna però sfruttare queste tecnologie. Potenzialmente ogni tecnologia è distruttiva se usata in malo modo ma allo stesso tempo può portare grandi benefici se usata bene. C’è sempre stata diffidenza per le novità tecnologiche alla loro nascita facendo sempre prevalere, fortunatamente solo all’inizio, quel sentimento romantico e quella diffidenza che non portano a nulla se non a pentirci successivamente di quella iniziale diffidenza. La tecnologia non è nostra nemica ma può essere nostra amica; la tecnologia può anche lavorare con noi e non solo contro di noi.

--

--