La Voz: la nueva Interfaz para consumir servicios digitales.

JaviPc
Ciencia y Datos
Published in
4 min readJan 14, 2019

Asistentes Virtuales y Altavoces Inteligentes. WaveNet: conseguir que las máquinas tengan voz humana.

La voz es la forma natual e inherente de comunicación del ser humano y se siente más cómodo hablando en lenguaje natural, con su forma de expresarse y su propio léxico, que haciendo ‘clic’ en una pantalla. Con los Asistentes Virtuales y los Altavoces Inteligentes se le va a educar a consumir e interactuar ‘servicios digitales’ mediante su voz. WaveNet (Google) pretender conseguir reproducir la voz humana y conversaciones naturales entre el cliente y el Asistente Virtual.

Google, Amazon, Apple o Facebook, están apostando por la ‘voz’ para que a través de ella, sus clientes puedan interactuar y consumir los servicios digitales que ofrecen. La voz es el medio natural e inherente de comunicación del ser humano y ‘hablando’ se siente más cómodo que haciendo ‘clic’ en una pantalla de ordenador o móvil.

Tanto es así, que ya es habitual en nuestro día a día utilizar, desde el ordenador o el móvil, asistentes virtuales como Siri (Apple), Google Assistant (Google), Alexa (Amazon) o Cortana (Microsoft) y próximamente Aloha en el caso de Facebook. Éstos son los más representativos, pero cada vez más empresas ofrecen sus asistentes virtuales para hacer más cómoda la interacción con sus usuarios; por ejemplo, Movistar ofrece Aurea para que sus clientes interactúen de forma más ágil con sus servicios.

Un Asistente Virtual es una aplicación basada en Inteligencia Artificial capaz de reconocer, entender y aprender aquello que el usuario le solicita con su voz. Agregar una cita al calendario, enviar un mensaje, consultar la climatología de una ciudad o iniciar una llamada telefónica, son algunas de las tareas que permite realizar un Asistente Virtual de ámbito general.

Hay estudios que vislumbran que la ‘voz’ supondrá una revolución mucho mayor que la que provocó el móvil en su momento. Las grandes empresas tecnológicas han decidido apostar por ella, desarrollando sus Asistentes Virtuales para que puedan ser consumidos por cualquiera de los siguientes canales:

Ordenador

Móvil

Tableta

Altavoz Inteligente

De todos estos canales, el más interesante para el usuario o cliente es el Altavoz Inteligente ya que sin necesidad de encender el ordenador o utilizar su teléfono móvil, simplemente con su voz, pueda consumir servicios digitales.

La potencia de estos Asistentes Virtuales no radica en ofrecer servicios de ámbito general, como consultar la temperatura, encender una luz o programar una alarma para una hora concreta, sino ofrecer los mismos servicios personalizados de su web o app móvil, una vez que está identificado y que los pueda consumir con la voz.

Por ejemplo, el sector bancario, siempre a la vanguardia de la tecnología, está comenzando a ofrecer servicios financieros personalizados para el cliente mediante su Asistente Virtual a travéz de un Altavoz Inteligente. Están desarrollando servicios para que los clientes de la entidad financiera, mediante su voz, puedan preguntar:

¿ Cuál es mi saldo ?

¿ He cobrado ya mi nómina ?

¿ Cuál es el pin de mi tarjeta ?

¿ Cuánto gastaré en moda en el periodo de rebajas ?

En el siguiente vídeo se muestra un ejemplo de un Asistente Virtual de una entidad financiera y cómo un cliente interactúa con él para consumir servicios personalizados:

Además, también se puede puede añadir la funcionalidad de enviar WhatsApp a clientes simplemente con la voz, sin hacer ‘clic’ en la pantalla del móvil; enviar WhatsApp en modo ‘manos libres

Google está desarrollando el producto WaveNet que pretende reproducir una voz bastante parecida a la humana y no sólo por el tono, sino que sea capaz de entender e interpretar cuándo el cliente está preguntando, exclamando o incluso si se utiliza un tono sarcástico o la ironía. Para conseguir este resultado satisfactorio, Google utiliza una red neuronal que imita el funcionamiento del cerebro humano y se analizan las ondas para modelar patrones de probabilidad.

El nuevo sistema de Google permite a su motor de Inteligencia Artificial modificar en tiempo real la conversación, aprende de su propia experiencia y entiende el sarcasmo o la ironía, al analizar el tono con el que le habla su interlocutor.

Por el momento, WaveNet aún no está disponible de forma masiva y Google admite que el producto tardará tiempo en ofrecer esa voz humana de forma simultánea en una conversación con el Asistente Virtual. El motivo es porque para conseguirlo, necesita analizar en tiempo real 16.000 muestras de formas de onda por segundo para reproducir una conversación con un tono natural entre el cliente y el Asistente Virtual.

--

--

JaviPc
Ciencia y Datos

Expert in Artificial Intelligence, Machine Learning, Deep Learning and Big Data. Pillars: Voice, Personalization and Collaboration