Perfiles de la Voz: Verónica Alfaro Cabado

Published in

Diseñando para la Voz

8 min readFeb 3, 2019

Desde no entenderse con su Spectrum Sinclair, pasando por Dragon, a dotar de personalidad a soluciones basadas en IVRs en proyectos de transformación digital de las IVRs clásicas a las conversacionales con vistas a las omnicanal. Con un muy temprano interés en la interacción humano-máquina utilizando la voz, nos deja ver su perspectiva sobre la evolución de la tecnología y la utilización de los datos para ofrecer mejores experiencias conversacionales, cosa que apunta como clave para lograr el primer puesto en el mercado durante los próximos 5 años.

En Diseñando para la Voz queremos destacar los perfiles de esas personas que no pueden vivir en paz con el rol de mero espectador, y que de una u otra manera buscan la forma de aprender, hacer, enseñar y conectar con una comunidad que comparte el entusiasmo por el futuro de la comunicación entre los seres humanos y los ordenadores.

Este es el primero de una serie especial de artículos con el motivo del lanzamiento oficial de la comunidad Women in Voice en Español. Se llevará a cabo el día 06/02/2019 en las instalaciones del Campus Madrid. Más información aquí.

Háblanos un poco sobre ti. ¿Dónde trabajas? ¿Dónde vives actualmente? ¿Profesión?

Verónica: Vivo en Móstoles, Madrid. En 2011 entré a formar parte de FONETIC como Speech Scientist para proyectos IVR (Interactive Voice Response). Mi primer contacto con el mundo IVR fue en 2007 trabajando para Prosodie Ibérica (ahora Prosodie Campgemeni). En cuanto a mi formación soy Licenciada en Lingüística y Técnica Superior en Desarrollo de Aplicaciones Informáticas. Durante los últimos años, he trabajado principalmente diseñando e implementando modelos de Procesamiento de Lenguaje Natural y conversaciones que optimicen el proceso comunicativo humano-máquina. Gracias a mi formación y trayectoria profesional, he adquirido un perfil transversal que me permite participar en diseño y desarrollo de soluciones técnicas, desde las primeras fases — toma de requisitos, pruebas de concepto, innovación — hasta la puesta en producción.

¿Cuándo escuchaste por primera vez sobre la relación entre la tecnología y la voz? ¿Cómo ha sido tu experiencia hasta ahora con estas plataformas?

Desde siempre me ha generado curiosidad e inquietud el poder hacer que las máquinas entiendan el lenguaje humano, porque me parece la manera más natural que tenemos de comunicarnos, probablemente la culpa de todo la tiene mi Spectrum Sinclair de 128k, no conseguíamos entendernos. Mis primeros contactos con la tecnología de voz se produjeron en la universidad y también como usuaria de Dragon NaturallySpeaking, desarrollado por Nuance Communications, allá por los 90; precisamente ha sido con software de Nuance con el que más he trabajado, ya que se integra fácilmente con plataformas IVR. He vivido los avances en IVR desde la interacción por tonos (DTMF), pasando por reconocer sólo algunos comandos de voz ofrecidos en menús de opciones, hasta el punto en el que nos encontramos hoy en día en el que es posible que la máquina pregunte algo como “¿en qué puedo ayudarte?” abriendo la posibilidad a que la respuesta sea totalmente natural, tal como haríamos cualquiera si la pregunta nos la formulara una persona. En los sistemas telefónicos automatizados, ya sea para recibir o realizar llamadas de manera automática, las bases tecnológicas, en lo que a reconocimiento de voz e interpretación del lenguaje se refiere, son prácticamente las mismas que podemos encontrar en chatbots y asistentes virtuales/conversacionales, tan de moda hoy en día, por ello tengo un especial cariño a los sistemas IVR que desde la década de los 80 han ido sobreviviendo y renovándose, evolucionando en cada época.

¿Participas actualmente o tienes en mente desarrollar algún proyecto relacionado con la voz?

Mi carácter es curioso, inquieto y algo aventurero, por lo que me gusta embarcarme en nuevos proyectos, ya sea como parte de mi jornada laboral o fuera de ella. Me encanta mi profesión y quiero seguir avanzando en este campo, del que me queda tanto por aprender. Actualmente formo parte de un equipo Agile para la Transformación Digital IVR con el que dotamos de personalidad a la “máquina”, la hacemos más humana, comprensible, confiable, empática; le proporcionamos inteligencia (analizando a los usuarios e intentando predecir sus necesidades, incluso antes de que ellos sepan que las tienen) y diseñamos diálogos al estilo humano, haciendo referencias a que sigue siendo una máquina, porque el fin no es que el usuario se sienta engañado o confuso, si no que se sienta comprendido y consiga resolver su consulta. La manera de hacer las cosas, el trabajo de todo el equipo… todo está dando muy buenos resultados, lo vemos cada vez que ponemos en producción algo nuevo, porque la satisfacción de los usuarios se materializa en el incremento del indicador NPS (+80% respecto a los valores iniciales). Además, este nuevo asistente virtual IVR sigue cumpliendo su función de automatizar procesos repetitivos y clasificar llamadas, para que al agente humano lleguen las llamadas que tienen que llegar y puedan ocuparse de las tareas realmente importantes. También participo en otros proyectos para canales distintos al IVR, en los que trabajamos con herramientas como Microsoft Bot Framework y Google Dialogflow.

¿Cuál consideras que es el área en la cual se puede aprovechar más esta tecnología? ¿Por qué?

Creo que las tecnologías de voz pueden ser útiles en cualquier área en la que empleamos la voz como medio para comunicarnos. Todo lo que podamos imaginar hoy probablemente se quede corto en el futuro. Ya son realidades las aplicaciones en domótica, educación, ocio, relación con cliente, finanzas… Creo que hay posibilidad de aplicar tecnología de voz en múltiples áreas. Destacaría cualquier área que mejore la calidad de vida. Por mencionar un ejemplo de apoyo a personas con diversidad funcional, pienso en los avances en síntesis de habla ultra realista, prácticamente indistinguible de la voz humana; voces robóticas que alguien puede emplear como su propia voz cuando carece de ella — me viene a la cabeza Stephen Hawking (recomiendo este vídeo sobre su sistema de comunicación). La razón es que para las personas que afortunadamente pueden hacer uso de la voz, es esta la herramienta más práctica para el desempeño de sus actividades cotidianas y, además, nos capacita como seres multitarea (cocinar y hablar, dibujar y hablar, estar en una intervención quirúrgica y hablar…).

En definitiva, manejar con la voz y dar voz a quien no la tiene.

En cuanto a las empresas que se encuentran impulsando las plataformas de la voz. ¿Cuál te parece que destaca y por qué? ¿Cuál crees que será el impacto en el mercado Español en los próximos 5 años?

En el panorama actual, tenemos a Amazon, Google, Microsoft, también Apple y Samsung, todos están haciendo una labor extraordinaria poniendo al alcance de todos, gracias a dispositivos para el hogar, las tecnologías del habla. En cuanto a asistentes virtuales inteligentes orientados a negocio, mencionaría Nina de Nuance Communications, IBM Watson y Amelia de IPSoft. La clave para un buen producto son los datos, porque si hablamos de Machine Learning, sin duda, son estos los que marcan la diferencia. Gracias al acceso a ingente cantidad de información, han podido popularizar una tecnología muy costosa, hasta no hace demasiado, y cuyo uso se lo podían permitir sólo unos pocos; algo similar a lo que sucedió con los primeros móviles y ahora todos tenemos uno en el bolsillo. En los próximos 5 años creo que veremos un gran avance, el que tenga más datos y los sepa manejar mejor será el que destaque sobre los demás. Puede que algunos dispositivos se queden formando parte de nuestro día a día y otros sean una moda pasajera, pero los avances tecnológicos se quedarán. Animados por esta tendencia, están floreciendo startups (ChatBots, UX, Design Thinking, Inteligencia Artificial…) y empresas consolidadas se sumergen en procesos de transformación digital. Todos sabemos que hay que estar, de una u otra manera, tenemos que participar. Invitar a Alexa o a Google Home a nuestras casas, siguen recogiendo datos, el avance parece imparable y es difícil imaginar hasta dónde llegaremos, no creo que haya límites más allá de los que pueda imponer la ética y el sentido común. Todo acompañado de un evidente cambio en el estilo de vida, empezando por el modo de trabajar en empresas tecnológicas, en las que el concepto “remoto” suena con más fuerza, y donde los sistemas de voz seguramente también van a desempeñar un importante rol (i.e. Alexa for Business) con su aplicación a multitud de herramientas que favorecerán la productividad. La cantidad de cosas que puedes hacer mientras hablas, frente a la cantidad de cosas que dejas de hacer si no puedes hablar. En el campo IVR, es necesaria la transformación de IVR clásicas hacia las IVR conversacionales, más inteligentes, también avanzamos hacia los sistemas IVR Cloud, IVR Visual, la realidad omnicanal está en camino… Nuevos canales en los que el servicio de atención al cliente sea un entorno en el que se puedan gestionar gran parte de las consultas mediante sistemas automáticos que soporten reconocimiento de voz en lenguaje natural, consolidando asistentes virtuales que atiendan las necesidades de los usuarios de manera proactiva e inteligente, liberar de tareas rutinarias y repetitivas a los agentes humanos para que puedan dedicarse a lo realmente importante. Me pregunto si habrá empresas, o sectores, que puedan resistirse a adoptar tecnologías de voz en alguna de sus formas.

¿Tienes alguna herramienta o recurso en línea favorito que te haya sido útil y que recomiendes a quien se quiere adentrar en el mundo de las plataformas de voz?

Partiendo de la hipótesis “Google lo sabe todo”, es en este buscador donde encuentro lo que necesito, pero eso es demasiado evidente… Comentaré algunos de mis recursos de cabecera. Empiezo destacando un par de plataformas de formación online: Coursera y Amazon WS Training. Suelo consultar en GitHub proyectos NLP y NLU, me sirve mucho ver cómo distintos profesionales resuelven el mismo problema con diferente enfoque. Para dudas de implementación y resolución de bugs, recurro frecuentemente a Stackoverflow. NLTK, Scikit Learn, y Pandas librerías de Python muy útiles. Recientemente descubrí Cheat Sheets for AI, Neural Networks, Machine Learning, Deep Learning & Big Data y me parece una buena colección para tener a mano. También recomiendo HTK Toolkit y Standford CoreNLP para los que quieran aventurarse a trastear y experimentar. Como referentes bibliográficos sugiero: Speech and Language Processing (Daniel Jurafsky and James Martin), Foundations of Statistical Natural Language Processing (Christopher Manning and Hinrich Schütze), Natural Language Processing with Python (Steven Bird, Ewan Klein and Edward Loper) y Voice User Interface Design (Michael H. Cohen, James P. Giangola and Jennifer Balogh). Y para finalizar, estar siempre al día con quienes están liderando el auge de los interfaces conversacionales: Microsoft, Google y Amazon.

¿Organizas algún evento o participas en talleres/meetups? ¿Cómo te mantienes al día con las novedades y en contacto con la comunidad local?

En esta profesión hay que estar al día, te tienes que sentir confortable con la célebre frase “Sólo sé que no sé nada” (Sócrates) y tener una mentalidad abierta para recibir conocimiento desde cualquier medio. Me gusta frecuentar meetups, aunque no puedo ir a tantos como me gustaría, me encanta el aprendizaje basado en las experiencias de otros profesionales y en estos eventos se conoce gente y proyectos súper interesantes; como Voice Interfaces Madrid, donde conocí a Nieves Ábalos y a Iñigo Aguirre (ambos entrevistados en este blog), Inteligencia Artificial Madrid (Paradigma) y Python Madrid (Paradigma). También me aventuro a formar parte de comunidades que ofrecen espacio para la voz de las mujeres en el mundo de la tecnología, como es el caso de la comunidad Women In Voice en Español, liderada en España por Nieves Ábalos (con matriz en Women In Voice fundado por Joan Palmiter Bajorek), puedes conocer más esta iniciativa aquí. También me gusta asistir a conferencias, en 2018 he estado en Peopleware and Agile Management (#PAM) y Commit Conf. Este año, ya tengo en el calendario T3chFest 2019, que será en marzo. Para mantenerme actualizada de manera no presencial suelo apuntarme a webinars y cursos online. Y siempre mantengo la mente abierta a lo que pueda surgir.

¿Cómo puede contactarte la gente?

A través de:

Diseñando para la Voz es una iniciativa personal de Juan González Ponce que trae contenido relacionado al mundo del desarrollo de Alexa Skills para el servicio de Amazon, en Castellano, con la finalidad de compartir ideas y lecciones aprendidas en el camino.

Perfiles de la Voz: Verónica Alfaro Cabado

Written by Francisco Rivas