Голосовые технологии и интерфейсы. Общая характеристика и разработка ПО на их базе. Часть I

Published in

Дизайн-кабак

7 min readSep 25, 2020

Голосовые технологии и интерфейсы. Общая характеристика разработки ПО на их базе. Часть I

Помните первую часть «Железного человека», где Тони смог создать и использовать технологию ИИ вместе со своим помощником по искусственному интеллекту Джарвисом? Так вот, мы уже на полпути не в кино, а в реальной жизни.

Голосовой интерфейс (ГИ, или VUI — voice-user interface) — это програмный продукт, призванный освободить руки и глаза, упростить ввод или получение информации. Например, когда мы ведем автомобиль или делаем хирургическую операцию, а в этот момент хотим узнать, сколько лет Деми Мур.

Интересно, что поколение Z (родившиеся в начале 2000-х годов) и ранние представители поколения «альфа» (дети, рожденные после 2010-х годов) — это последние пользователи, которые будут набирать тексты с помощью клавиатуры. В этом уверен обозреватель Marketingland, маркетолог Эндрю Руггер (Andrew Ruegger), об этом он написал в своей колонке. Следующее поколение, по его мнению, будут представлять исключительно пользователи голосовых команд. «Запросы типа «ОK, Google» становятся все более распространенными в отчетах поисковых запросов. И мы даже наблюдаем их рост в Google Trends», — пишет эксперт. А comScore (компания по маркетинговым исследованиям) считала в 2017 году, что к 2020 году голос будет выполнять 50% всех поисковых запросов. По прогнозам, составленным в 2019 году компанией Gartner, к 2020 году 30% посещений сайтов будут происходить без экрана. Узнать прогноз погоды, включить свет в гостинной или заказать пиццу можно уже сейчас. В будущем же возможности видятся практически безграничными.

Именно поэтому цифровые технологии стараются слушать команды, которые человек говорит, определять эмоции по лицу, тем самым использовать естественный способ взаимодействия с пользователями. Например, компания Google в октябре 2017 года презентовала беспроводные наушники Pixel Buds, которые переводят речь с иностранного языка в режиме реального времени.

Все пять технологических компаний «большой пятерки» — Microsoft, Google, Amazon, Apple и Facebook — разработали (или в настоящее время разрабатывают) голосовых помощников AI. Siri, помощник AI для устройств Apple iOS и HomePod, помогает более 40 миллионам пользователей в месяц , и, по данным ComScore , сегодня каждая десятая семья в США уже имеет умную колонку. Все больше и больше устройств с голосовым управлением, таких как Apple HomePod , Google Home и Amazon Echo , штурмуют рынок. В октябре 2017 года компания Яндекс официально запустила голосового помощника «Алиса». В отличие от аналога Siri «Алиса» целенаправленно создана для русскоязычной аудитории.

Alexa — это AI-помощник для голосовых устройств Amazon, таких как интеллектуальный динамик Echo и планшет Kindle Fire. Amazon в настоящее время является лидером в области голосовых технологий (с точки зрения продаж). На базе Alexa пользователи выполняют в основном действия, подразумевающие разного рода развлечения, переводы и прослушивания новостей. Но также можно заказать такси с помощью Uber, воспроизведение музыки со Spotify или даже заказать пиццу из Dominos.

Другой интересный пример — коммерческий банк Capital One, который представил Alexa в 2016 году и стал первым банком, который это сделал. Добавляя опцию Capital One через Alexa, клиенты могут проверять свой баланс и сроки оплаты и даже оплачивать счет по кредитной карте. PayPal продвинул концепцию на шаг вперед, позволив пользователям совершать платежи через Siri на iOS или Apple HomePod, а также есть Alexa для PayPal, который может это сделать. Google Assistant, Siri и Alexa теперь могут распознавать отдельные голоса. Это добавляет уровень безопасности, аналогичный Face ID или Touch ID. Программное обеспечение для распознавания голоса постоянно улучшается, и имитировать голос становится все труднее и труднее; однако на данный момент он может быть недостаточно безопасным, и может потребоваться дополнительная аутентификация. При работе с конфиденциальными данными дизайнерам может потребоваться включить дополнительный этап в целях безопасности, например отпечаток пальца, пароль или распознавание лица. Особенно это актуально в случае личных сообщений и платежей. Но то, что могут делать VUI и для чего пользователи их фактически используют, — это разные вещи.

ComScore заявила, что более половины пользователей, у которых есть умная колонка, используют свои устройства для того, чтобы задавать общие вопросы, проверять погоду и транслировать музыку, а затем управлять своим будильником, списком дел и календарем (обратите внимание, что эти задачи достаточно просты).

*Голосовой помощник* *Baidu* *Duer* используется в нескольких ресторанах KFC и использует распознавание лиц, чтобы предлагать блюда в зависимости от возраста или предыдущих заказов. (*https://www.toptal.com/designers/ui/designing-a-vui*)

Тот факт, что эти голосовые помощники ИИ всегда пребывают в состоянии обучения, слушая звуки окружающей их среды, вызывает большую озабоченность у пользователей. Паранойя, связанная с вмешательством в их частную жизнь, также не является иррациональной.

Первоначально голосовые помощники, такие как Alexa, хранили все разговоры, с которыми они сталкивались, что представляет большой риск голосового ИИ в глазах пользователей. Неприятная ситуация случилась с парнем и девушкой, когда их Алекса была уличена в процессе отправки их личных данных незнакомцу. Теперь некоторые помощники автоматически удаляют сохраненные разговоры примерно каждые 24 часа. Однако это требует дополнительных затрат и проблем с пользовательским интерфейсом.

Беспокойство о конфиденциальности также изобилует этой новой средой, и мы идем по тонкой грани между ослаблением защиты данных и риском открытия совершенно новых фронтов уязвимости.

Если наши голоса — это наши паспорта на этом новом носителе, что может помешать кому-то подделать его, записав, как вы произносите свой пароль вслух, или редактируя свой голос, чтобы синтезировать команды, которые вы никогда не давали? Это неизбежные проблемы с конфиденциальностью, которые UX-дизайнеры должны решить, чтобы внушить доверие своим пользователям и продвинуть голосовое взаимодействие в мейнстрим.

Придумать сценарий диалога достаточно не просто. Но еще сложнее сделать такой диалог похожим на общение с другим человеком, а не роботом. Один из спикеров Google рассказывал об использовании метафор. Оказывается, использование этого литературного инструмента делает диалог более привычным для пользователя и повышает конверсию. Например, на запрос «Включи свет в прихожей», если в этой комнате нет лампочек, Alexa ответит примерно так: «Извините, кажется я не могу найти никаких подключенных лампочек», а Siri ответит по-другому: «Девайсы в данной комнате не подключены». Разница этих двух ответов в том, что Alexa использует фразу «Я не могу найти», в другом варианте ее ответа была фраза «Я не вижу никаких устройств». Мы, конечно, понимаем, что она не может ни «искать», ни «видеть» в обычном для нас смысле, но при этом само использование привычных для человека фраз делает разговор более естественным.

В каждом взаимодействии с пользователем необходимо сохранять принцип диалога, стараться делать его максимально человечным. Например, фразу «Ваш запрос принят» лучше поменять на «Я понял вас». Даже несмотря на то, что в GUI мы часто используем более механические фразы, здесь стоит учитывать то, что сама парадигма восприятия этих коммуникаций у человека изменилась. Если раньше он коммуницировал с сайтом, программой, какой-то абстрактной системой, то теперь он общается с ассистентом, у которого есть имя, который знает о пользователе много информации, способен поддержать беседу и даже пошутить.

«Слова — источник недопонимания» — Антуан де Сент-Экзюпери.

Заставить машины правильно нас понять — это всего лишь одна веха в поисках беспрепятственного голосового взаимодействия, но другая — сделать его доступным для пользователей в различных сценариях использования и контекстах.

Подобно тому, как доступ к Интернету был одним из основных факторов роста, привлекающих туда все больше людей, внедрение голосового взаимодействия будет ограничиваться разнообразием сценариев, в которых мы можем просто разговаривать с нашими устройствами и быть понятыми.

Помимо того, что они на самом деле говорят, голос передает слушателю обширную информацию, поэтому легко представить бренды, использующие средство голосового взаимодействия как продолжение своей личности. Пол, возраст, интонация, тон, акцент, темп — все это элементы, которые могут использоваться UX-дизайнерами, стремящимися создать определенный клиентский опыт с их брендом.

Virgin America может выбрать для разговора с вами дерзкий, кокетливый и многообещающий голос, который соответствует их бренду, тогда как New York Times может выбрать более серьезный и напористый голос для своих объявлений. Дети смогут поговорить напрямую с Микки, когда вы бронируете отпуск в Мире Диснея! Apple, возможно, ищет идеально привлекательный, но успокаивающий голос для вашей следующей операционной системы ( спойлер: голос Скарлетт Йоханссон в Her ).

Но существует еще огромное множество нишевых чат-ботов, а также ботов для бизнеса. Все они коммуницируют с миллионами пользователей каждый день. И разработчики, и пользователи хотят сделать эти коммуникации удобнее и эффективнее, поэтому стали появляться люди, которые специально этим и занимаются. Для такого рода задач уже сформировалась полноценная профессия Conversation Designer или Voice User Interface Designer. Становится ясно, что голосовое взаимодействие скоро станет ожидаемым предложением в качестве альтернативы или даже полной замены традиционным визуальным интерфейсам. Это может создавать больше проблем в некоторых аспектах, чем визуальная система, однако нет никаких сомнений в том, что этот способ взаимодействия будет использоваться все чаще.

В ближайшем будущем голосовое взаимодействие получит все большее распространение почти во всех сферах деятельности. Устройства, способные распознавать голос и генерировать его, стремительно дешевеют с развитием голосовых помощников и повсеместного распространения интернета. Однако чаще всего это будут узкоспециализированные варианты использования. Когда пользователь понимает, например, что не стоит у автоматизированного киоска по продаже мороженого спрашивать прогноз погоды.

Не прекратятся и попытки имитировать возможность голосовых помощников ответить на любой вопрос или выполнить любое действие, которое мы уже сейчас можем осуществить с помощью визуального интерфейса. Но вряд ли это будет работать именно так, как мы представляем. В диалоге и с обычными людьми мы часто сталкиваемся с недопониманием, что говорить о машинах. С этим связана и проблема создания «настоящего» искусственного интеллекта, который бы полностью решил все проблемы голосового взаимодействия, — мы просто не понимаем до конца, как устроен мозг и человек.

Источники:

6. https://www.dtelepathy.com/blog/design/the-ux-of-voice-the-invisible-interface

Голосовые технологии и интерфейсы. Общая характеристика разработки ПО на их базе. Часть I

Written by Helena Glava