8 tips para diseñar para voz y sus limitaciones

Martina Gentile
Blog de Interactius UX
6 min readJan 20, 2020

Diseñar para pantallas parece fácil si nos enfrentamos a diseñar para voz.

A la hora de diseñar las interfaces de usuario de voz, no podemos crear posibilidades visuales y los usuarios no tendrán indicaciones claras de lo que la interfaz puede hacer o cuáles son sus opciones. Al mismo tiempo, los usuarios no estarán seguros de lo que pueden esperar de la interacción de voz, porque normalmente asociamos la voz con la comunicación con otras personas en lugar de con la tecnología.

“El gran mito de nuestro tiempo es que la tecnología es comunicación”.
Libby Larsen, compositor estadounidense.

Los ordenadores simples estaban basados en texto. Luego tuvimos interfaces gráficas de usuario y llegamos al mouse. Los siguientes fueron el touchpad y los pellizcos/zooms del iPhone de Apple. Y ahora, ¿Qué nos espera? ¿Nos estamos moviendo hacia la era de la voz?

La forma en que los usuarios interactúan con las interfaces de usuario de voz es muy diferente de cómo interactúan con las gráficas. En las interfaces de usuario de voz, se utiliza el lenguaje natural y este se convierte en un comando, es necesario expresar intenciones para que el sistema entienda lo que el usuario quiere.

Ya podemos hablar con Apple Siri, Google Home, Microsoft Cortana y Amazon Alexa, incluso con coches y domótica en casa. Tenemos que aprender las limitaciones que tienen y qué cuidados hay que tener para diseñar para estos dispositivos.

Una de las limitaciones más importantes que las interfaces de voz tienen es que no son aptas para entornos ruidosos. Además, la voz aún puede ser lenta. ¿No será más rápido hablar que interactuar con una web o una app? Depende, si el dispositivo te entiende a la primera y no necesita tu interacción, si.

Un ejemplo: “Hey Siri, llama a Ana.” Y su respuesta: “He encontrado 4 contactos con este nombre, puedes darme más información? Y nos obliga a interactuar con la pantalla y seleccionar el contacto deseado. O ¿habéis configurado vuestro Alexa con algún enchufe inteligente? “Alexa, enciende salón” “No encuentro ningun dispositivo llamado melón”. “He dicho salón!!!”. Pero Alexa ya no nos está escuchando. En fin, tardamos menos en hacer estas tareas manualmente. Sería interesante que implementaran un sistema de escucha constante, separado por dos palabras clave, para permitir al usuario de hacer un discurso fluido y natural sin que el dispositivo se desconecte. Empezar un discurso con “Alexa” y finalizarlo con “gracias” podría ser una opción, seguido por el típico sonido de cierre. De esta manera el dispositivo nos seguiría en nuestro discurso sin tener que invocarle cada vez para cada consulta o volver a empezar el discurso desde cero, sin comprometer nuestra privacidad.

Pero veamos lo que hace que las interfaces de voz sean interesantes:

  • La casa inteligente: los casos típicos de uso doméstico, saber la hora del día, poner alarmas, configurar la temperatura y controlar las luces son tareas habituales, fáciles de administrar mediante simples comandos de voz. Y la verdad es que tener una casa domótica da la sensación de estar a la última. Facilitan algunas tareas cuando por ejemplo vuelves a casa cargado con la compra. Ayudan, pero todavía no son necesarias.
  • El vehículo inteligente: cuando conducimos un coche, la interfaz de voz es muy cómoda ya que el conductor tiene acceso manos libres a la información que necesita, preservando la seguridad, lo que le permite concentrarse en la carretera. Configurar el navegador, contestar a una llamada o cambiar la música son las tareas más utilizadas.
  • Las discapacidades: en todo los caso de discapacidad leve o grave de visión ayudan muchísimo a los usuarios que en el día a día necesitan utilizar la tecnología, dándole la posibilidad de utilizar muchas de funciones de un asistente virtual, incluso escribir: “Hey Siri, envía un mensaje a Ana y dile que llego en 20 minutos”.
  • Informaciones y consultas: cualquier pregunta (o casi) tendrá su respuesta inmediata gracias a nuestro asistente virtual. La inteligencia artificial en la que se basan estos dispositivos a través de internet, es una fuente infinita de sabiduría muy útil a la hora de buscar respuestas rápidas a preguntas más o menos complicadas. “Hey Siri, ¿en qué año nació Picasso? “Picasso nació en el 1881” o “Alexa, ¿cuánto es 10 elevado a 308?” Preguntad gente, ¡preguntad! XD
  • Compras online: algunos dispositivos ya permiten compras online. Amazon Alexa por ejemplo te da la opción de añadir a tu carrito de compra todos los productos que necesitas. “Alexa, necesito pasta de dientes”. Escucharás una breve descripción del producto, obviamente Amazon choice, para más información o para cambiar de producto tendrás que consultar la web/app de Amazon. Eso sí, podrás cursar el pedido de inmediato en el caso de que te fiaras de su elección.

8 tips para diseñar para voz:

  1. Ser conciso y simple a la hora de configurar los comandos para que la máquina pueda reconocer las peticiones de los usuarios a la primera.
  2. Involucrar al servicio de atención al cliente si la interacción hombre-máquina no funciona correctamente, que exista una forma rápida de ayudar al usuario con su problema.
  3. Mostrar el estado del sistema, en caso de errores e información perdida, asegúrate de decir qué información se ha entendido y qué información se ha perdido. Agregar información de ayuda cuando el usuario comete el mismo error dos veces y ofrecer información voluntaria, especialmente sobre funciones que los usuarios nunca han usado antes. Ayuda a los usuarios a reconocer, diagnosticar y recuperarse de los errores. Los errores no se pueden evitar por completo, por lo que los diseñadores deben desarrollar una buena estrategia para manejarlos.
  4. Conversar. Utilizando comandos de voz fijos y palabras clave, permitir al usuario interactuar de forma libre. Los expertos recomiendan aprender de la comunicación interpersonal para diseñar las interacciones de la manera más natural e intuitiva posible. Los jóvenes de hoy ya lo tienen claro, parecen estar más acostumbrados a esta nueva era y son los que consiguen ser más naturales a la hora de interactuar con dispositivos de voz. Los adultos suelen ser menos flexibles y de momento utilizan comandos vocales simples y muy poco naturales, pensando que de esta forma el sistema los entenderá mejor: “Hey Siri, tiempo, domingo, Barcelona”.
  5. Maximizar el control y la libertad del usuario. Los teclados tienen un fuerte enlace intencional con el usuario porque cada pulsación de tecla da como resultado una letra en la pantalla. Cada acción del usuario corresponde a una respuesta instantánea (acción/reacción). Las interfaces de usuario de voz tienden a responder más lentamente y esto hace que los usuarios perciban menos control sobre el sistema. “Pulse 1 para…, pulse 2 para…, …., pulse 12 para…” Resultado: frustración para el usuario que solo quiere lograr un objetivo simple. Mejor preguntar al usuario directamente qué quiere hacer y ahorrar tiempo.
  6. Flexibilidad. Consigue poder dar el mismo comando de distintas maneras. Cada persona se expresa de manera diferente, pero no por este motivo una es más correcta de otra.
  7. Atención con los idiomas, es aconsejable empezar siempre a diseñar con el inglés, que no tiene acentos ni caracteres especiales.
  8. Guionizar. Crea una historia que se va construyendo en base a las necesidades del usuario. Paso por paso, no esperes que el usuario recuerde comandos de voz, la interacción por voz aumenta la carga cognitiva. No proporciones al usuario toda la información de una vez, enseña solo la información más relevante y luego confirma con el usuario qué parte elaborar y así sucesivamente. Será fundamental diseñar unos workflows detallados de los procesos y de las opciones disponibles.

Todavía no tenemos una idea clara de si las interfaces de voz reemplazarán a las interfaces tradicionales gráficas, táctiles o basadas en texto, pero las encontraremos cada día en más dispositivos para ayudar a los usuarios a ser más productivos y ágiles a la hora de realizar tareas. Son la evolución de UX más completas, centradas en el usuario a través de flujos de pregunta/respuesta que establecen un camino que el usuario va creando progresivamente.

En unos años el producto digital tradicional se quedará corto a la hora de interactuar con los usuarios. Los comando de voz acercarán aún más las personas a la tecnología.

La clave: ser claros, directos y resolutivos, teniendo muy en cuenta las limitaciones de las interfaces de voz que hoy en día siguen siendo muchas.

“El lenguaje es el medio fundamental de la comunicación humana.”
Humana… todavía.

--

--