50 conceptos básicos de Voice User Interface (VUI)

#UXperience por IronHack y Webedia

Carmen Fernández Martínez
6 min readJan 12, 2019

¿Quiénes fueron los ponentes?

  • Javier Martínez, Sales Engineering Manager, Google Cloud
  • Germán Viscuso, Technical Evangelist en Amazon.
  • Helen Creeger, experta en VUX y VUI
German Viscuso del equipo técnico de Amazon Alexa

Gracias a los avances de la tecnología, los diseñadores tenemos más oportunidades para facilitarle la vida al usuario.

Los avances, desde que se empezó a hablar sobre esto en 1950, han sido enormes — sobre todo en los últimos cinco años — siempre buscando ser lo más útiles posible para el usuario en el contexto en el que se encuentre, adaptando el contenido de manera lo menos intrusiva posible.

Está claro que no todo es apto para la voz, pero Voice User Interface es algo con un gran potencial, que requiere un gran desarrollo y que todavía cuesta saber monetizar.

Como diseñadores, tenemos el deber de aprender a adecuar la acción (GUI o VUI) según el dispositivo que necesitemos.

50 conceptos básicos para empezar a entender VUI:

La importancia de la lingüística en VUI
  1. Empecemos por lo más básico: las interfaces de usuario de voz (VUI) permiten al usuario interactuar con un sistema a través de comandos de voz. Los asistentes virtuales, como Siri, Google Assistant y Alexa, son ejemplos de VUIs. La principal ventaja de una VUI es que permite que los usuarios puedan interactuar con un producto con las manos libres y los ojos libres, al mismo tiempo que centran su atención en otro lugar.
  2. Los VUIs surgieron por el auge del machine learning ajustado a voz y el big data; porque el Cloud computing lleva a procesamientos más rápidos y por la evolución de la interfaz de usuario. Lo más natural y que más años llevamos haciendo los seres humanos es hablar.
  3. El teléfono móvil nos aportó mobilidad, pero la mobilidad final nos la está prestando ahora el propio habla. La interfaz ahora se adapta a nosotros. Permite mayor accesibilidad.
  4. Automatic Speech Recognition es la tecnología que permite a los seres humanos utilizar su voz para hablar con una interfaz de ordenador que se asemeja a una conversación humana normal.
  5. Dialogflow es la herramienta de Google que usa machine learning para entender lo que los usuarios dicen.
  6. Con esta Dialogflow, puedes proporcionar ejemplos de lo que un usuario podría decir al interactuar con tu producto o servicio. Se adapta al lenguaje natural, analiza y entiende la intención del usuario para responder de la manera más útil.
  7. Intent: lo que el usuario quiere que haga el asistente cuando se activa por una determinada petición. Ej. Quiero reservar.
  8. Se suelen necesitar unas 20/40 frases de entrenamiento para el dispositivo de machile learning que estás utilizando.
  9. Entities: el mecanismo (de Dialogflow) para identificar y extraer datos útiles de las entradas de lenguaje natural. Por ejemplo: el dónde o el cuándo.
  10. Context: representan el estado actual de la solicitud de un usuario y permiten a su agente llevar información de una intención a otra. Hay dos tipos de contexto que le permiten activar y desactivar contextos y pueden controlar el flujo de su conversación: de entrada (reserva) y de salida (ciudad).
  11. Fulfillment: código que se implementa como un webhook que permite a su agente Dialogflow llamar a la lógica de negocio de forma intencionada. Durante una conversación, el fulfillment le permite utilizar la información extraída por el procesamiento del lenguaje natural de Dialogflow para generar respuestas dinámicas o desencadenar acciones en su back-end. Ej. Adiós, gracias.
  12. Un dato: Alexa ya tiene más de 50.000 skills (voice apps)
  13. Alexa funciona con un proceso formado por los siguientes elementos: ASR (audio transformado en texto), Machine Learning, Natural Language Understanding (Contexto), back-end, Text to Speech (TTS) y SSML (streaming audio).
  14. Wake word: palabra que activa la interfaz en un dispositivo, normalmente el asistente de voz de una casa inteligente, para escuchar los comandos o consultas del usuario.
  15. Launch: verbo o acción que provoca que una skill haga algo. Ej. Alexa, compra leche.
  16. Invocation name: palabra para abrir el skill. Elige bien el invocation name.
  17. Utterance: Alexa debe comprender muchas peticiones.
  18. Slot: Variables de esas peticiones. Ej. Mercurio es un slot dentro de la utterance: planetas.
  19. Build-it intents es una biblioteca de categorías facilitada por Amazon para el desarrollo de skills.
  20. Las skills son las funcionalidades o voice-apps que permiten que cada usuario se personalice su VUI como quiera.
  21. Los skills deben tener un propósito claro.
  22. Los skills deben evolucionar a lo largo del tiempo y sorprender al usuario.
  23. El usuario debe poder hablar forma natural al skill.
  24. El VUI debe responder como una persona.
  25. Los VUI no deben responder siempre de la misma manera o el usuario se cansará.
  26. Debe saber arreglárselas tanto con exceso de información como con la falta de información a través de diálogos.
  27. Alexa, al igual que nuestra manera de entender las cosas, funciona de forma progresiva, irá haciendo preguntas a través de diálogos, poco a poco para conseguir la información y llegar a su meta.
  28. Test de 1 respiro. El dispositivo debe confirmar que ha entendido las peticiones con respuestas rápidas.
  29. El dispositivo debe presentar opciones definitivas, recomendable que sean dos. Ej. Tenemos X o Y, ¿Cuál prefieres?.
  30. Se debe aplicar la memoria a los dispositivos para que nunca pregunten dos veces por lo mismo.
  31. Los niños ya son VUI Native. Habrá que adaptarse a ellos, ¿no?
  32. Los dispositivos deben adaptarse a la cultura, idioma e incluso los acentos.
  33. No solo los diseñadores de estos dispositivos estamos aprendiendo, los usuarios también, tengamoslo en cuenta.
  34. Usar la voz como interfaz no siempre es lo mejor. Es para acciones cortas, limitadas. Hay muchas funcionalidades que no sirven para VUI. Tiene capacidades limitadas, para acciones que se puedan conseguir sin un apoyo visual, para micro-interacciones y casos de uso muy concretos.
  35. Si se va a complicar la acción o información requerida, habrá que plantear un apoyo con GUI (Graphical User Interface).
  36. Deberíamos tener muy en cuenta el VUI para aplicarlo a la accesibilidad de ciegos o personas con movilidad reducida, por ejemplo.
  37. Para diseñar VUI, hay que tener en cuenta quién, dónde, cuándo y por qué.
  38. Place-Ona es un concepto de Bill Buxton que define realmente bien cuándo se debe y cuándo no se debe usar VUI. Tenemos manos, ojos, voz y oídos. ¿Qué no tenemos libre para usar en… una biblioteca con cascos? Voz y oídos. ¿Qué no tenemos libre para usar… cocinando? Manos. ¿Qué no tenemos libre para usar en… una discoteca? Voz y Orejas. ¿Qué no tenemos libre para usar… conduciendo? Manos y ojos. ¿Dónde usaremos VUI? Está claro, cocinando o conduciendo.
  39. Debemos pensar que VUI no tiene por qué funcionar solo, puede encajar con otros tipos de interfaz como la GUI.
  40. En un mundo en el que se diseñe Voice-First, las expectativas deben estar claras desde el principio y los prompts bien diseñados. Hay que orientar de forma clara y ayudar al usuario a cumplir su objetivo.
  41. Los wireframes en VUI son, sencillamente, conversaciones de prueba, probando diferentes roles hasta dar con “todas” las posibilidades.
  42. Hay que diseñar pensando en las posibles interrupciones que puede tener alguien que está hablando con su dispositivo, al igual que diseñamos en GUI para personas multitasking que tienen 20 ventanas abiertas.
  43. El asistente debe ser paciente, dejar retomar las acciones — y facilitárselas — cuando quiera el usuario.
  44. Hay que testear con todo tipo de usuarios cuanto antes. Te darás cuenta de todas las respuestas y preguntas “absurdas” que le pueden hacer al dispositivo.
  45. Como usuarios, tenemos memoria limitada cuando escuchamos, tengamoslo en cuenta a la hora de diseñar respuestas. Pocas opciones y concisas, por favor.
  46. El contexto es clave. ¿Acaso “Hacia” y “Asia” dicho por un venezolano no son lo mismo? ;)
  47. El contenido debe adaptarse a la voz, no vale con “transcribir” las webs de nuestros negocios ni los chatbots.
  48. Deja claro que se requiere una respuesta por parte del usuario.
  49. No asumas que el usuario sabe qué hacer.
  50. Sigue los siguientes recursos: puedes seguir a Javier Martínez de Google en su blog; German Viscuso de Amazon recomienda la Guía de Diseño de Amazon Alexa y sigue a Helen Creeger en su LinkedIn para leer sobre VUI desde el punto de vista de una diseñadora.

--

--

Carmen Fernández Martínez

Diseñadora UX / UI volcada en el mundo del emprendimiento y el diseño de producto. UX Consultant en @redbility carmenfernandezmartinez.works