Голосовые технологии и интерфейсы. Разработка. Часть II

Published in

Дизайн-кабак

12 min readSep 28, 2020

Голосовые технологии и интерфейсы. Разработка. Часть II

Быстрое распространение возможностей голосового поиска в наших гаджетах порождает важные вопросы у любого дизайнера, чья работа связана с удовлетворением потребностей клиентов в сфере VUI. Становится ясно, что голосовое взаимодействие скоро станет альтернативой или даже полной заменой традиционным визуальным интерфейсам.

Прежде чем мы углубимся в конкретные последствия использования голоса для VUI, важно понять некоторые аспекты, которые способствуют быстрому внедрению этой новой среды взаимодействия.

а) Говорить естественнее, чем печатать

Таким образом, наличие приложения, работающего по голосовой команде, упростит жизнь пользователям.

б) Способствует распространению технологий

Хотите открыть дверь гаража, записаться на прием, заказать доставку еды или даже завести машину — все возможно с помощью вашего голоса. Разве вам не понравится такой постоянный помощник с вами?

в) Закон Мура

Проще говоря, закон Мура гласит, что каждые два года способность наших компьютеров что-то делать увеличивается, что также снижает их стоимость. По этому закону рост идет по экспоненте. Голосовые технологии изначально были всего лишь экспериментом, но теперь они стали одной из новых технологий, которые вскоре будут приняты во всем мире.

г) Более практично для людей с ограниченными возможностями

Голосовые технологии — не что иное, как благо для слабовидящих пользователей, которые теперь могут использовать свои устройства и приложения должным образом по сравнению с проблемами, с которыми они столкнулись при использовании визуальных пользовательских интерфейсов.

Как дизайнеры, мы также должны адаптироваться и вводить новшества, чтобы справиться с некоторыми из ограничений, присущих этой новой среде. Нет изображений, которые мы могли бы использовать для более четкого описания процессов. Мы не можем использовать анимацию для более простой передачи сложных концепций. Указание пользователю «Щелкните здесь» больше не имеет смысла в применении к невидимому интерфейсу голоса, поэтому нам нужно разработать целый новый лексикон общепринятых и интуитивно понятных подсказок для действий пользователя. Подумайте об этом на секунду: самый фундаментальный элемент веб-дизайна, интерактивная ссылка, больше не имеет места в будущем стандарте дизайна интерфейсов. Лишь недавно среди дизайнеров UX началось движение к отказу от использования текста-заполнителя lorem ipsum в дизайне визуальных интерфейсов. С ростом голосового взаимодействия, теперь, как никогда, наш выбор слов будет влиять на то, как люди воспринимают клиентский опыт, который мы разрабатываем для них, потому что нет сопровождающих визуальных подсказок, которые могли бы служить ориентиром.

Что характеризует голосовой интерфейс и в чем его отличия от привычного визуального? Специалисты из Nielsen Norman Group выделили пять базовых технологий голосового пользовательского интерфейса:

Голосовой ввод: запросы произносятся голосом, а не вводятся посредством клавиатуры или графических элементов экранного интерфейса.
Естественный язык: пользователи не должны ограничиваться использованием определенного, оптимизированного для компьютера словаря или синтаксиса, но могут структурировать ввод любыми способами, как если бы это был разговор с человеком.
Голосовой вывод: информация произносится голосом, а не выводится на экране.
Интеллектуальная интерпретация: для настоящего понимания запросов пользователя ГИ должен использовать дополнительную информацию, такую как контекст использования или действия, которые пользователь совершал ранее.
Содействие: ГИ совершает действия необходимые для выполнения задачи пользователя, которые пользователь не запрашивал.

Ниже перечислено, как помощники справились с каждым критерием голосового интерфейса и что возможно будет исправлено в будущем.

Большинство пользователей, участвовавших в исследовании голосовых помощников, отметили, что используют их в основном в двух ситуациях:

Когда заняты руки, например, во время вождения или готовки;
Когда им кажется, что задать вопрос голосом будет быстрее, чем вводить его с клавиатуры и прочитать ответ.

Как проектировать голосовые интерфейсы

Чтобы разработать приложение голосового пользовательского интерфейса, нам сначала нужно определить требования пользователей. Помимо создания карты пути клиента и проведения анализа конкурентов, могут быть полезны и другие исследовательские мероприятия, такие как интервью и пользовательское тестирование .

Если вы прочитаете онлайн-обзоры домашних динамиков, вы заметите, что некоторые люди образуют тесную связь со своим динамиком таким образом, что это больше похоже на животное, чем на продукт.

ComScore заявила, что более половины пользователей, у которых есть умная колонка, используют свои устройства для того, чтобы задавать общие вопросы.

**Использование умных динамиков в США по данным ComScore.**

1. Изучить аудиторию

В этом процессе разработки VUI вам необходимо использовать дизайн, ориентированный на пользователя, точно так же, как и при разработке других цифровых продуктов. Основная цель здесь — собрать информацию и понять поведение и потребности пользователей, поскольку эта информация составляет основу требований к продукту. Вы должны собрать информацию о языке пользователей — о том, как они разговаривают, и о фразах, которые они используют во время разговора. Это поможет вам разработать систему для различных высказываний.

2 . Определить цели

На этом этапе нужно определить возможности и сформировать цель. Также вам необходимо разработать сценарии, имеющие большое значение для ваших пользователей.

Иногда бывает сложно понять, какие сценарии важны, а какие можно игнорировать. Для этой цели вы можете использовать матрицу вариантов использования для оценки каждого из них.

Убедитесь, что эти сценарии работают с голосом

Среди многих можно выделить несколько случаев:

A. когда пользователи заняты заранее и не могут использовать визуальный интерфейс пользователя

B. когда они хотят что-то сделать быстро.

То есть, команда VUI « Включи музыку » занимает гораздо меньше времени, чем делать это вручную.

Три фактора — намерение, высказывание, слот

Давайте разберемся с этими двумя на вышеупомянутом примере « Включи музыку ».

Намерение — в основном отражает более широкую цель голосовой команды. Есть два типа намерений -

A. Высокая полезность (очень конкретная и прямая команда, т. Е. «Включить свет в гостиной»)

B. Низкая полезность (неопределенная и трудная для расшифровки).

В нашем случае это взаимодействие с высокой полезностью. В нашем случае альтернативой « Включи музыку » может быть что угодно, от « Я хочу послушать музыку » до « Ты можешь сыграть песню? » И так далее. Все UI / UX-дизайнеры VUI должны учитывать вариации.

Слоты — когда намерения недостаточно, вступают в действие слоты. Они относятся к дополнительной информации, необходимой для получения наилучших результатов по запросу. Они могут быть необязательными и обязательными. В нашем примере это слот не является обязательным, поскольку категория музыки не определяется пользователем. Однако, если бы команда была « заказать такси в Uber », то слот был бы «местом назначения», следовательно, обязательным.

3 . Предоставьте пользователям информацию о том, что они могут сделать

Голосовой интерфейс не может показать пользователю, какие варианты возможны, а новые пользователи основывают свои ожидания на опыте общения с людьми. Решение этой проблемы состоит в том, чтобы предложить варианты взаимодействия с пользователем. Здесь будет уместнее разобрать подробнее анатомию голосовых команд. Перед созданием диалога дизайнеры должны сначала понять анатомию голосовой команды. Голосовая команда пользователя состоит из трех ключевых факторов: умысел, утверждение и контекст. Давайте проанализируем следующий запрос: «Включите расслабляющую музыку, чтобы спать».

а) умысел: намерение представляет более широкую цель голосовой команды пользователя. В примере запроса намерение понятно, пользователь хочет слушать музыку.

б) утверждение: как пользователь формулирует команду, то есть утверждение. В используемом примере мы знаем, что пользователь хочет проиграть расслабляющую музыку благодаря слову «проиграть», но это не единственный способ сказать это. Пользователь также может сказать «Я хочу слушать музыку». Дизайнеры должны учитывать все варианты выражения.

в) контекст: иногда одного намерения недостаточно, и для выполнения запроса требуется больше информации о пользователе. Это называется «контекстом», и они, как и в визуальных интерфейсах, могут быть необязательными или требующимися для завершения приложения. В этом случае слово «расслабляющий» может использовать контекст «воспроизведение музыки», чтобы знать, что вы запрашиваете воспроизведение расслабляющей музыки. Чтобы разработать отличные голосовые пользовательские интерфейсы, вы должны найти элегантный способ предоставить пользователям соответствующую информацию, не перегружая их. Когда система задает вопросы, предполагающие только простые ответы, например, «да/нет», пользователь может сделать вывод, что она довольно примитивна и все последующие команды и ответы будет формулировать соответственным образом. Если же система задает вопросы, ответы на которые пользователь может сформулировать как угодно, и понимает их, то и все последующие взаимодействия с системой пользователь будет выстраивать на том же уровне.

4. Доставьте ответы с полной информацией

В графических интерфейсах пользователи могут видеть, в каком разделе они находятся, в то время как в голосовых пользовательских интерфейсах пользователи должны знать, какие функции они используют.

Пользователи могут быстро запутаться в том, где они находятся в разговоре, или могут по ошибке активировать ненужный функционал, поэтому без подробных указаний юзерам нужно больше деталей. Интерфейс должен отвечать на вопрос о продукте с помощью целой фразы, такой как «Автомобиль марки X и модели X стоит 20 000 долларов и имеет гарантию 2 года».

5. Создайте прототип.

Поток диалога в нашем случае — это не что иное, как прототип, иллюстрирующий обмен данными между пользователями и голосовыми помощниками. Для лучшего понимания давайте посмотрим на иллюстрированный диалог ниже.

Вы можете использовать несколько инструментов прототипирования для VUI. Некоторые из самых популярных — Amazon Alexa Skill Builder, Sayspring и SDK от Google.

***Sayspring — это инструмент, который упрощает создание прототипа Alexa Skill или Google Home Action.***

Amazon также предлагает собственный конструктор навыков Alexa Skill Builder , который позволяет дизайнерам легко создавать новые навыки Alexa. Google предлагает SDK; однако это предназначено для разработчиков Google Action . Apple еще не запустила свой конкурирующий инструмент, но скоро они запустят SiriKit.

***Amazon Alexa Skill Builder, где дизайнеры могут создавать прототипы VUI для устройств с поддержкой Alexa.***

UX Analytics для голосовых приложений

После того, как вы применили «навык» для Alexa (или «действие» для Google), вы можете отслеживать, как приложение используется с аналитикой. Обе компании предлагают встроенный инструмент аналитики; однако вы также можете интегрировать сторонний сервис для более сложной аналитики (например, voicelabs.co для Amazon Alexa или dashbot.io для Google Assistant). Некоторые из ключевых показателей, за которыми следует следить:

Метрики взаимодействия, такие как сеансы на пользователя или сообщения на сеанс
Используемые языки
Поведение потоков
Сообщения, намерения и высказывания

*Панель управления* *Amazon* *Alexa Metrics* *отображает такие показатели, как сеансы, высказывания и намерения.*

Делайте общение простым и разговорчивым

При разработке мобильных приложений и веб-сайтов дизайнеры должны думать о том, какая информация является основной, а какая — второстепенной (то есть не столь важной). Пользователи не хотят чувствовать себя перегруженными, но в то же время им нужно достаточно информации для выполнения своей задачи.

С голосом дизайнеры должны быть еще более осторожными, потому что слова (и, возможно, относительно простой графический интерфейс) — это все, с чем можно общаться. Это особенно затрудняет передачу сложной информации и данных. Это означает, что чем меньше слов, тем лучше.

Вот несколько советов по созданию увлекательного и разговорного диалога:

- Не делайте процесс утомительно долгим. Сведите количество шагов к минимуму.
- Вы не должны учить пользователей командам. Это естественно.
Постарайтесь, чтобы ваши вопросы и ответы были краткими.

Пользователь: «Назовите мне хорошее место, где можно поесть китайской кухни». Система: «Я нашла для вас пять мест. Первый — «Ешьте по-китайски» расположен… в 15 минутах от вас, открыт с 8:00 до 20:00, второй — «Палочки для еды», который находится в…, в 1 часе езды от вас,… »

Пользователь: «Назовите мне хорошее место, где можно поесть китайской кухни». Система: «В этом районе есть несколько китайских ресторанов. Вы бы предпочли гулять или водить машину?»

«Хороший день, я иду гулять»

«Хорошо, Emperor Sushi находится в 2 минутах ходьбы отсюда,

но если вы хотите что-то подешевле, Ninja Sushi Deli находится в 5 минутах езды».

6. Выявить ошибки

Как разработчику VUI важно иметь четкую стратегию ошибок. Всегда разрабатывайте сценарий, в котором помощник ничего не понимает или не слышит. Аналитика также может использоваться для выявления неправильных поворотов и неверных интерпретаций, чтобы можно было улучшить стратегию ошибок.

Некоторые ключевые вопросы, которые следует задать при проверке наличия альтернативных диалогов:

Вы определили цель взаимодействия?
Может ли ИИ интерпретировать информацию, сказанную пользователем?
Требует ли ИИ дополнительной информации от пользователя для выполнения запроса?
Сможем ли мы доставить то, о чем просил пользователь?

Вот несколько вещей, от которых обязательно следует держаться подальше, но всегда держать их в перспективе, чтобы избежать состояний ошибки.

Двусмысленность — слова по своей сути неоднозначны. Это означает, что если человек говорит «хорошо», это может означать «хорошо» или символизировать, что он слушает. Итак, дайте своему ИИ знать обо всех часто встречающихся неясностях для оптимальной производительности.
1) Орфографические ошибки / неправильное произношение — в отличие от бумаги, слова произносятся по-другому. Одно слово может иметь несколько вариантов произношения, что может затруднить диалог между пользователем и системой обработки естественного языка.
2) Отсутствие подходящих вариантов — всегда следите за тем, чтобы пользователи извлекли из разговора что-то ценное и актуальное. Нерелевантные результаты запроса наименее привлекательны и тем более мотивируют пользователей снова использовать ваш продукт.

Даже если запрос не дал положительного результата, ваш помощник всегда должен отвечать и не оставлять пользователей в подвешенном состоянии. То есть, если пользователь запрашивает « Забронируйте рейс в Лос-Анджелес из Далласа на вторник », должно последовать следующее: « Я не смог найти никаких рейсов на вторник ». И что еще лучше — « Я не смог найти рейсов на вторник. Вы хотите, чтобы я проверил среду?

7. Подтвердить, когда задача была завершена

При разработке процесса оформления заказа в электронной коммерции окончательным подтверждением будет один из ключевых экранов. Это позволяет клиенту узнать, что транзакция была успешно записана.

Та же концепция применима к дизайну VUI. Например, если пользователь находился в гостиной и просил своего голосового помощника выключить свет в ванной без подтверждения, ему нужно было бы пройти в гостиную и проверить, уничтожив объект «невмешательства». »Приложение VUI полностью.

В этом случае подойдет ответ «Свет в ванной выключен».

8. Добавить дополнительный уровень безопасности

Google Assistant, Siri и Alexa теперь могут распознавать отдельные голоса. Это добавляет уровень безопасности, аналогичный Face ID или Touch ID. Программное обеспечение для распознавания голоса постоянно улучшается, и имитировать голос становится все труднее и труднее; однако на данный момент он может быть недостаточно безопасным, и может потребоваться дополнительная аутентификация. При работе с конфиденциальными данными дизайнерам может потребоваться включить дополнительный этап аутентификации, например отпечаток пальца, пароль или распознавание лица. Особенно это актуально в случае личных сообщений и платежей.

Тот факт, что эти голосовые помощники ИИ всегда обучаются, слушая звуки окружающей их среды, вызывает большую тревожность у пользователей. Паранойя, связанная с вмешательством в их частную жизнь, также не является иррациональной.

Первоначально голосовые помощники, такие как Alexa, хранили все разговоры, с которыми они сталкивались, что представляет большой риск голосового ИИ в глазах пользователей. Неприятная ситуация произошла с парой, чью Алексу поймали на отправке их личных записей незнакомцу. Теперь некоторые помощники автоматически удаляют сохраненные разговоры каждые 24 часа. Однако это требует дополнительных затрат и проблем с пользовательским интерфейсом.

9. Протестировать свой продукт.

После того, как все дошло до стадии, близкой к завершению, пора проверить плоды вашего труда. Вам необходимо протестировать разработанный вами VUI, чтобы убедиться, что он соответствует всем критериям из вашего контрольного списка. Есть два способа протестировать свой прототип.

С целевыми пользователями

Вы можете создавать группы своей целевой аудитории, а затем проводить сеансы тестирования, чтобы наблюдать, как пользователи взаимодействуют с вашим продуктом. Вы можете использовать этот случай для отслеживания степени выполнения задач и оценки удовлетворенности клиентов (CSAT).

С тестовыми симуляторами
Подобно другим симуляторам, используемым при разработке мобильных приложений, Google и Amazon также предоставляют инструменты для тестирования разработанного продукта. Вы можете протестировать Alexa Skill и Google Action продукта в отношении аппаратных устройств и их настроек.

10. Уточнить

После того, как ваше приложение появилось на рынке, настало время для наблюдения. Пришло время заняться UX-аналитикой. Этот этап связан с анализом того, как пользователи используют ваш продукт. Это может быть очень сложно, если вы не знаете, какие показатели вы должны наблюдать. Итак, вот самые заметные.

Сеансов на пользователя или сообщений на сеанс
Используемые языки
Намерения и высказывания
Показатели вовлеченности пользователей
Поведение потоков

Проблемы разработки VUI

Голосовой интерфейс, как и все остальное, страдает ахиллесовой пятой . На самом деле их не один, а много. Итак, с какими проблемами дизайнеры VUI часто сталкиваются и зачастую не могут распознать или решить?

Сообщите, что голосовые помощники не могут выполнять

Разработчикам голосового интерфейса и пользовательского интерфейса становится сложно объяснить конечным пользователям, что голосовой ИИ не может. Например, при использовании Google Assistant, когда вы говорите: « Сделайте мероприятие под названием« Встреча группы продаж во вторник в 2 часа », он мгновенно создает карточку мероприятия и позже спрашивает:« Хотите сохранить это мероприятие? ”

Но что, если вам нужно будет изменить место или время встречи позже? Он отвечал: « Я не уверен в том, что вы сказали, вы хотите, чтобы я сохранил это мероприятие? ». Чтобы избежать неудобств для пользователей, ИИ мог просто сказать « извините, я все еще работаю над добавлением местоположений ».

Сложность прототипирования и тестирования

Еще одна проблема, с которой сталкиваются дизайнеры, — это прототипирование и тестирование голосового интерфейса пользователя . Предположим, вы создали прототип и хотите его протестировать. Вы дали начальное сообщение о том, что пользователи могут покупать продукты с помощью вашего голосового помощника.

Задача начинается здесь — пользователи могут говорить определенную вещь в разных стилях, что сложно уследить. Тем труднее тестировать прототип на таких запросах, когда он еще не полностью разработан с использованием технологии голосового поиска .

Поддержка языка

Поскольку основным принципом голосовой технологии является язык, для любого голосового ИИ становится критически важным владеть не только речью, но и пониманием. К сожалению, технологии пока развиты только в отношении нескольких языков. Тем не менее, добавление других языков и различных акцентов в интерфейс все еще продолжается.

Любой текст, озвученный современными цифровыми устройствами, может вызвать чувство неприязни, если голос будет либо излишне роботизированным, либо слишком очеловеченным. В этом кроется огромная сложность при создании голосовых интерфейсов. Однако опыт проектирования Siri, в которой разработчикам удалось найти верный баланс, убедительно показывает, что достаточно придать системе некоторые человеческие черты (например, юмор), но при этом оставить очевидное отличие от человека.

Если исследования в области голосовых интерфейсов будут продолжены, то, возможно, совсем скоро мы сможем разговаривать со своими компьютерами и смартфонами в контексте совершенно различных и спонтанных ситуаций.

Источники:

https://appinventiv.com/blog/voice-user-interface-design/

https://www.toptal.com/designers/ui/designing-a-vui

The UX of Voice: The Invisible InterfaceIt's a brand new year, and by most reliable indicators - the latest demos at CES 2017, the buzz on all the tech blogs…
www.dtelepathy.com

Как проектировать голосовые пользовательские интерфейсыВсе больше и больше устройств с голосовым управлением, таких как Apple HomePod, Google Home и Amazon Echo. Это связано…
www.chatcompose.com

Голосовые технологии и интерфейсы. Разработка. Часть II

Как проектировать голосовые интерфейсы

The UX of Voice: The Invisible Interface

It's a brand new year, and by most reliable indicators - the latest demos at CES 2017, the buzz on all the tech blogs…

Как проектировать голосовые пользовательские интерфейсы

Все больше и больше устройств с голосовым управлением, таких как Apple HomePod, Google Home и Amazon Echo. Это связано…

Written by Helena Glava