Посредственный юзабилити умных помощников: исследование пользователей Alexa, Google Assistant и Siri

Published in

Usethics ⭕ doc

21 min readNov 21, 2018

Ссылка на оригинал статьи: Intelligent Assistants Have Poor Usability: A User Study of Alexa, Google Assistant, and Siri

Авторы Raluca Budiu и Page Laubheimer

Дата публикации: 22 июля 2018

Резюме. Юзабилити-тестирования показывают, что умные помощники как голосовые, так и текстовые хорошо работают c очень ограниченным числом простых запросов, на которые можно дать довольно простые короткие ответы. Со всем остальным пользователи испытывают трудности.

Священный Грааль юзабилити заключается в том, чтобы построить интерфейс с нулевыми затратами на взаимодействие: то есть удовлетворить потребности пользователей так чтобы им не нужно было прикладывать никаких усилий. Хотя интерфейсы еще не позволяют читать мысли, умные помощники, такие как Alexa, Google Assistant и Siri, — это первый шаг в данном направлении.

Характеристики пользовательского интерфейса

Умные помощники сочетают в себе 5 базовых технологий пользовательского интерфейса:

Голосовой ввод : команды подаются голосом, а не путем ввода или клика/нажатия на графические элементы.
Понимание естественного языка: пользователи не ограничены использованием определенного, специфичного компьютерного словаря или синтаксиса, но могут выражаться свободно, как в беседе между людьми.
Голосовой вывод: вместо отображения информации на экране, помощник проговаривает результат запроса вслух.
Умная интерпретация : ассистент использует информацию (например, контекст или прошлое поведение) дополняющую конкретный запрос пользователя, чтобы понять, чего он хочет.
Посредничество: помощник совершает самостоятельные действия, которые пользователь буквально не запрашивал.

Как умная интерпретация, так и посредничество требуют, чтобы помощники активно изучали пользователя и могли подстраивать своё поведение в соответствии с его потребностями.

Таким образом, при оценке пользовательского опыта (UX) умных помощников нам необходимо рассмотреть шесть аспектов: каждую из пяти технологий по отдельности, а также — шестой аспект — как они работают в совокупности.

Идея объединения нескольких UI-технологий не нова. Тот же принцип лежит в основе самого популярного из графических пользовательских интерфейсов (GUI — graphical user interfaces) — WIMP, что означает «windows–icons–menus–pointing device» («окна-пиктограммы-меню-указательное устройство») . Например, можно запускать окна без мыши (использовать Alt — Tab ) или использовать мышь без пиктограмм (нажать на слова), но именно в результате сочетания нескольких технологий родился целостный графический интерфейс, который находит широкое применение уже более 30 лет.

Не всегда и не все помощники используют сразу все пять UI-технологий: например, если есть экран, помощники могут использовать визуальный вывод вместо голосового. Тем не менее, эти удачно технологии поддерживают и дополняют друг друга, когда между ними есть слаженность. Например, голосовые команды, как и традиционный стиль взаимодействия на основе команд в целом, имеют присущую им юзабилити-слабость по сравнению с кликом — они полагаются на набор воспоминаний, тогда как клик и прямое взаимодействие задействуют узнавание. Однако применение естественного языка потенциально может сделать голосовую команду более простой, чем клик.

Интеграция пяти UI-технологий предполагает новый стиль взаимодействия, который обладает двумя преимуществами:

Пользователи смогут просто формулировать свою цель на естественном языке, без необходимости использовать дополнительный физический интерфейс. Хотя проговаривание и предполагает определенные усилия со стороны пользователя, в теории они меньше, чем когда ему нужно изучить новую UI-технологию, нажимать кнопки или выбирать из списка.
Интерфейс сможет догадываться о целях пользователей и быть проактивным, делая соответствующие предложения на основе контекстной информации или предшествующего поведения пользователя. Таким образом, он становится ближе к “чтению мыслей”.

Контекстные предложения у нынешних помощников все еще довольно ограничены, хотя небольшие шаги в этом направлении предпринимаются — Google Assistant анализирует электронную почту и автоматически добавляет авиарейсы или брони ресторанов в календари; Siri и Google Assistant предупреждают пользователя о времени, которое требуется, чтобы добраться до места, которое он часто посещает, как только он выдвигается в соответствующем направлении. Когда эти контекстные предложения уместны, они плавно продвигают пользователя к достижению цели.

Исследования пользователей

Чтобы лучше понять, какие вызовы стоят перед этими помощниками сегодня, и как они помогают пользователям, мы провели два юзабилити-исследования (одно в Нью-Йорке, и одно в районе залива Сан-Франциско). В лабораторию на индивидуальные сессии были приглашены в общей сложности 17 участников — 5 в Нью-Йорке, 12 в Калифорнии, все из них являлись постоянными пользователями хотя бы одного из основных умных помощников (Alexa, Google Assistant и Siri). Каждый сеанс состоял из комбинации юзабилити-тестирования (в котором участники выполняли задания модератора, используя Alexa, Google Assistant или Siri) и интервью.

В рамках юзабилити-тестирования, мы попросили участников использовать помощника для выполнения различных заданий, начиная с простых (например, узнать погоду на выходной в День независимости, уточнить рабочие часы аптеки неподалеку от Walgreens, узнать, когда родился Джордж Клуни), заканчивая сложными (например, в каком году Стенли Кубрик снял свой второй по счету фильм, загруженность движения по пути к пляжу Мосс в выходные).

В этой статье кратко изложены наши основные выводы. Во второй статье будет обсуждаться социальный аспект взаимодействия с интеллектуальными помощниками.

Результаты: реальное удобство использования значительно ниже ожидаемого

Наши исследования пользователей показали, что современные умные помощники терпят неудачу по всем шести параметрам (пять технологий плюс их сочетание), что делает общий уровень юзабилити близким к бесполезному даже в отношении несложных взаимодействий. Для самых простых взаимодействий устройства соответствуют минимальным требованиям к юзабилити. Несмотря на то, что это противоречит основной предпосылке человеко-ориентированного дизайна, пользователи должны научиться самостоятельно определять, когда умный помощник будет полезен, а когда его лучше не использовать.

Наша идеология всегда заключалась в том, что компьютеры должны адаптироваться к людям, а не наоборот. Обещание искусственного интеллекта (ИИ) — это, как правило, высокая адаптивность, но в реальной практике мы этого не видим. Наоборот, то, как пользователи взаимодействуют с интерфейсами на основе искусственного интеллекта, напоминает темные века 1970-х годов : необходимость запоминать загадочные команды, обременительные способы работы, запутанный контент, негибкие взаимодействия — все что по сути составляет негативный пользовательский опыт.

Рассмотрим каждую из шести UI-технологий и оценим, насколько хорошо они сработали для пользователей в наших экспериментах. Хотя результаты исследования нельзя назвать воодушевляющими, мы задаемся вопросом, присущи ли выявленные недостатки этим технологиям по определению, или же они вызваны существующими технологическими ограничениями и в будущем есть надежда на улучшение.

Может статься, наше мнение необоснованно? Разве пользовательские интерфейсы на основе ИИ не достигли огромного прогресса в последние годы? Да, сегодняшние ИИ-продукты лучше, чем многие из систем, разработанных в предыдущие десятилетия. Но и требования к повседневному использованию со стороны среднестатистических людей значительно выше требований, предъявляемых к демо-версии интерфейса выпускника ВУЗа. Демонстрации, которые мы видели на академических конференциях 20 лет назад, были впечатляющими и имели большие перспективы для взаимодействия на основе ИИ. Сегодня продукты стали лучше, но всё же не соответствуют обещанному уровню.

Обещание все еще в силе, и люди уже получают некоторую пользу от своих умных помощников. Но требуются огромные достижения в области такого взаимодействия, чтобы его можно было широко применять. Можно провести аналогию с развитием мобильных устройств: когда мы тестировали юзабилити мобильных телефонов в 2000 году , результаты были ужасными. Тем не менее, обещание сервиса мобильных информационных услуг было ясным, и многие люди к тому времени уже активно использовали особенно полезную простую услугу: текстовые сообщения от человека к человеку. Потребовалось еще много лет, прежде чем технологии продвинулись вперед и стало проще их интегрировать, чтобы впервые достойно воплотить их в смартфоне, что привело к приемлемому, хотя и всё ещё низкому уровню юзабилити мобильных телефонов к 2009 году . Еще одно десятилетие усовершенствований, и мобильные пользовательские интерфейсы стали довольно хороши.

Уровень пользовательских интерфейсов на основе ИИ, пожалуй, немного выше, чем юзабилити мобильных телефонов в 2000 году, но не намного. Потребуется ли два десятилетия, чтобы достичь хорошего юзабилити умных помощников? Некоторые из проблем, требующих решения, настолько трудоемки, что даже эта оценка может быть чересчур оптимистичной. Но, как и в случае с мобильными устройствами, преимущества пользовательских интерфейсов на основе ИИ достаточно велики, так что даже средний уровень (то есть, удовлетворительное, но не хорошее, юзабилити) может быть приемлемым, и его можно достигнуть намного раньше.

Почему люди используют помощников

Большинство наших пользователей сообщили, что они используют умных помощников в двух типах ситуаций:

Когда их руки заняты — например, во время вождения или приготовления пищи
Когда задать вопрос быстрее, чем печатать его и читать результаты

Вторая ситуация заслуживает обсуждения. У большинства людей были ясные ожидания относительно того, что могут сделать помощники, и они часто говорили, что не будут использовать помощника для сложных запросов. Они чувствовали, что запрос с одним ясным ответом давал больше шансов, что помощник ответит правильно, а два участника явно упомянули вопросы 5W1H (Who, What, Where, When, Why, How) . Напротив, более тонкие, исследовательские информационные потребности были лучше решены посредством веб-поиска или другого взаимодействия с экранным устройством, таким как телефон или планшет.

Однако некоторые люди считали, что помощники были способны выполнить даже сложные задачи, при условии, что им задали правильный вопрос. Один из пользователей сказал: «Я могу делать все на своем телефоне при помощи Siri. […] Сложные вопросы — я должен упростить, чтобы заставить их работать».

Большинство людей, однако, посчитали, что раздумья о правильной формулировке вопроса не стоят потраченных усилий. Как сказал один из пользователей: «Alexa — это как инопланетянин, я должен все объяснить ей … Она годится только для простых запросов. Я должен сказать ей всё. Мне нравится просто задавать вопросы, а не думать [о том, как формулировать вопросы] ».

Одна из областей, в которой голосовые помощники облегчают взаимодействие, это диктовка: длинные сообщения или поисковые запросы легче сказать голосом, чем напечатать, особенно на мобильных устройствах, где крошечная клавиатура располагает к ошибкам, медленно работает и в целом вызывает раздражение. Участники обычно отмечали, что диктовка была несовершенной, выручала в тех случаях, когда им было сложно печатать (например, потому, что они гуляли, водили, готовили или просто были далеко от устройства с реальной клавиатурой), и что они избегали диктовки, если в тексте использовалась уникальная терминология, которая могла быть неверно распознана. Они также сообщали о сложностях с проставлением пунктуации (либо помощник переставал слушать, если пользователь остановился, чтобы обозначить конец предложения, либо помощник полностью игнорировал пунктуацию, требуя от пользователя последующего исправления и редактирования текста).

Разговоры с помощником

Когда участники тратили время, чтобы подумать о том, как сформулировать запрос, а затем сообщали его помощнику целиком, помощник обычно мог его верно понять. Как сказал пользователь: «Необходимо подумать о своем вопросе, прежде чем задавать его, потому что его трудно скорректировать в процессе. Надо подумать заранее, потому что это не как с человеком, в разговоре с которым вы можете быть [нечетким]». Другой сказал:« Я чувствую себя почти роботом, когда задаю вопросы, потому что я должен сказать все ясным и лаконичным образом, и я должен думать об этом так ясно. Когда я пытаюсь дать команду или задать конкретный вопрос, то не слежу за интонацией. Нужно просто подобрать правильные слова, интонация голоса не учитывается».

Но многие участники начинали говорить, прежде чем сформулировали запрос полностью (как это обычно происходит в беседе с человеком), и иногда прерывались в поисках лучшего слова. Такие паузы естественны в разговоре, но помощники неправильно их истолковывают и часто спешат с ответом. Конечно, ответы на такие неполные запросы были в большинстве случаев неподходящими, и общий эффект был разочаровывающим: участники жаловались, что их прервали, что помощник «перебивал их» или был «груб». Некоторые даже доходили до того, что начинали ругать помощника за это («Алекса, это грубо!»).

Когда людям приходилось повторять запрос, который был неверно понят, они часто произносили слова нарочито громко (как будто они разговаривали с человеком с нарушением слуха).

Большинство участников сочли, что сложносоставные предложения (например, «В какое время я должен уехать в Мосс-Бич в субботу, если я хочу избежать трафика?» Или «Найти статус полета рейса из Лондона в Ванкувер, который уходит в 4:55 вечера сегодня») вряд ли будут поняты помощниками. Некоторые пытались разбить такие предложения на несколько запросов. Например, один из участников, который хотел узнать, когда был снят предпоследний фильм Кубрика, попросил список фильмов Кубрика, а затем планировал задать вопросы о втором с конца элемента в списке. К сожалению, Сири оказалась довольно бесполезной, потому что она просто предоставляла подмножество фильмов Кубрика без какого-либо порядка.

Пользователи, не являющиеся носителями английского языка

У нескольких участников были иностранные акценты, и они сообщали о своем ощущении, что помощник не всегда распознавал произношение и им приходилось часто повторять. Эти люди были недовольны и считали, что помощники должны научиться справляться с различными языками и практиками говорения.

Помимо акцента, были еще три фактора, которые повлияли на успешность использования помощника у таких пользователей:

Они делали ещё больше пауз, чем носители языка. Эти паузы часто интерпретировались помощником как конец запроса.
Они, как правило, исправляли себя, когда чувствовали, что они неправильно произнесли слово и в итоге говорили одно и то же слово дважды. Эти повторяющиеся слова, казалось, путали помощников — особенно Alexa.
Порой они использовали редко встречающиеся формулировки. Например, один из участников спросил: «Alexa, when did Great Britain’s soccer team play in the soccer championship?». Alexa не смогла найти ответ на этот вопрос.

К счастью, понимание акцентов — это область, где компьютеры потенциально могут превзойти реальность (better than reality principle): они могут распознавать нестандартное произношение слова намного лучше, чем это способен сделать человек. Компьютер не заботится о том, как вы произносите определенное слово. Если только он не обучен распознавать лишь определенный звук, он сможет понять, что несколько отличающихся по звучанию слов представляют одно и то же слово. Таким образом, мы считаем, что улучшенное распознавание акцентов — это только вопрос времени. Решение других вопросов, обсуждаемых в этом разделе, будет гораздо более сложной задачей.

Выдача результатов запроса

Язык помощника

Некоторые участники жаловались, что помощник говорил слишком быстро, и не было возможности заставить его повторить ответ. Участники не могли удерживать всю информацию в рабочей памяти, особенно, когда ответ был слишком длинным или сложным. Например, прежде чем озвучить стоимость ипотеки, Alexa, с помощью навыка Lending Tree, просила пользователя подтвердить, что все введенные данные были правильными, указав адрес и условия ипотеки, а затем перечислив набор команд для редактирования информации, если это было необходимо. Один пользователь сказал: «Говорит слишком быстро в самом конце — [она говорит]», если что-то не правильно [вы должны] перейти к бла-бла-бла; слишком сложно запомнить все варианты».

Когда помощники неправильно понимали вопрос и предлагали неправильный ответ, пользователи оказывались обескуражены и раздражались. Люди были возмущены необходимостью ждать длинный ответ, который был совершенно неактуален и изо всех сил пытались заставить помощника остановиться (“Alexa, остановись”). Один из участников объяснил: «Мне не нравится, что [Alexa] не замолкает, когда я начинаю с ней разговаривать. Это должно быть больше похоже на человеческое взаимодействие […] Было бы идеально, если бы можно было ограничиться чем-то меньшим, чем фразой «Alexa, остановись» — что-то вроде «ok» или «достаточно», или на что-то из того, что я бормочу […] Это как разговаривать с кем-то, кто просто говорит и говорит, и вы пытаетесь как-то вклиниться, чтобы остановить собеседника».

Но правильные ответы помощников зачастую были слишком многословными. Одна из пользовательниц пожаловалась, что, когда она попыталась добавить предметы в список продуктов, Alexa подтверждала, что «<товар> добавлен в список покупок» после добавления каждого продукта. Для повторяющейся задачи слов было слишком много. Другой пользователь назвал Google Assistant «слишком болтливым», когда тот предоставил дополнительную информацию на запрос о времени работы аптеки. Участница закатила глаза, когда Алекса прочитала подробное описание каждого рецепта из списка рецептов тирамису, включая упоминание (некоторых) довольно очевидных и повторяющихся ингредиентов — таких как яйца.

Голосовой вывод vs. Экранный вывод

Чаще всего умными помощниками пользуются во время управлением автомобиля, на кухне или в других подобных ситуациях, когда руки заняты. Наши пользователи посчитали, что голосовой ответ превосходит экранный ответ в подавляющем большинстве случаев. (Исключения составляли ситуации, в которых ответ содержал конфиденциальную информацию — например, одна женщина возмущалась тем, что её запись к врачу была прочитана вслух: «Я предпочла бы, чтобы было произнесено слово “встреча”).

У большинства голосовых помощников нет экрана, поэтому они должны выдавать ответы в голосовом формате. Это ограничение заставило некоторых участников отдать предпочтение исключительно голосовым помощникам, нежели их аналогам на смартфонах, где полимодальное взаимодействие скорее утомляло.

Помощники на телефоне обычно выдавали список результатов поиска, когда у них не было готового ответа, вынуждая пользователей взаимодействовать с экраном. Люди были разочарованы, когда им приходилось использовать их глаза и пальцы, чтобы просмотреть список результатов. Они отметили, что «это не дало мне правильного ответа. Он дал мне статьи и ссылки. Он не говорит мне то, о чем я спросил», и «я бы хотел, чтобы он показывал мне не просто набор ссылок… [По крайней мере, это] должно мне о чем-сказать … И потом, может быть, [предложить] «если вы хотите больше, проверьте это или это.’”

Когда правильный ответ озвучивался, «это было похоже на магию». Участники спросили у Google Assistant «Сколько дней я должен провести в Праге?». Ответ раздался громко и ясно: «Согласно Quora, в идеале вам следует провести 3- 4 дня в Праге […].» Пользователь сказал: «Это то, что я искал в других [помощниках]; он читал мне информацию вслух и в то же время показывал информацию». Такой опыт был наиболее полезен для участников, но в нашем исследовании он встречался редко: хотя эта задача выполнялась несколькими участниками, только одному удалось найти «правильную» формулировку запроса, которая вызывала четкий вербальный ответ; другие шесть, которые являлись вариациями одного и того же вопроса («ОК Google, как ты думаешь, какое количество времени было бы достаточно для отдыха в Праге», «ОК Google, как долго я должен отдыхать в Праге», «Siri, на сколько дней мне следует поехать в Прагу?», «Siri, если я поеду в Прагу, на сколько я должен поехать?») выдавали список ссылок одновременно от Siri и Google Assistant, за исключением последнего запроса, на который были выданы данные о загруженности дорог в Праге.

Что касается Siri, то была еще одна причина по которой список ссылок прерывал взаимодействие: те, кто нажимал на ссылку в списке результатов, перенаправлялись в браузер или в другое приложение, и некоторые пользователи не знали, как вернуться обратно в список, чтобы продолжить проверку других результатов выдачи. Одна пользовательница iPhone нажала на ресторан, чтобы увидеть его на карте, а затем попыталась вернуться к списку других ресторанов. Она сказала: «О нет, [рестораны] исчезли … Есть одна вещь которая мне не нравится — я не знаю, как извлечь прежний запрос для Siri, ну, знаете, как только Siri говорит, что есть что-то интересное … например, если я за рулем, но действительно хочу найти, кто снялся в этом фильме, я могла бы сказать «добавь это в мой список дел, чтобы сделать позже», или я могла бы сказать «просмотреть», но я не буду смотреть на него пока я не доберусь до места назначения, и, к тому времени, когда я там окажусь, результат исчезнет… Поэтому этот список ресторанов пропал, когда я коснулась карт, и придется начинать сначала”. (К списку ресторанов можно было вернуться, если бы пользователь нажал на кнопку Назад в приложение в верхнем левом углу экрана, но эта кнопка крошечная и многие пользователи не знакомы с ней. Однако, главное во всем этом — отсутствие возможности восстановить историю взаимодействий — определенно является слабостью Siri, по сравнению с другими умными помощниками. Даже Alexa позволяет пользователям просматривать историю своих запросов в мобильном приложении Alexa.)

С экранными помощниками возникала проблема при распознавании пользовательского запроса, когда оно занимало время. Одна из участниц подумала, что, поскольку она не видела ни одного из ее произнесенных слов на экране, Siri ее не услышала, поэтому она повторяла первые несколько слов запроса по несколько раз. В результате помощник не мог верно понять получившееся высказывание.

Неполные ответы

Иногда Alexa открыто признавала, что ответа у неё нет. Когда она предлагала информацию, которая тоже могла быть актуальна, хотя и не являлась прямым ответом на запрос пользователя, участники оставались довольны. Например, один пользователь спросил об аренде недвижимости в Willow Glenn (окрестности в Сан-Хосе, Калифорния), и Alexa сказала, что не знает ответа, но предложила вместо этого среднюю цену на аренду в районе залива Сан-Франциско. Пользователь был рад, что помощник определил Willow Glenn как часть района залива и был удовлетворен ответом. Другой пользователь спросил: «Alexa, сколько стоит двухкомнатная квартира в Mountain View?». И когда помощник ответил «Извините, я не знаю этого. Всё что я могу сделать сейчас — посмотреть номера телефонов, часы работы и адреса», пользователь сказал в ответ «Спасибо. Это действительно полезно — как бы «Хорошо, я не могу этого сделать, но я могу это сделать» … ».

Когда вместо голосового ответа Siri или Google Assistant показывали набор результатов на экране, первой реакцией было разочарование, как уже упоминалось выше. Однако, если результаты на экране были релевантны их запросу, люди иногда чувствовали, что опыт был приемлемым или даже хорошим. (Такое восприятие может быть специфичным для лабораторных условий, когда руки участников были свободными, и они могли взаимодействовать со своим устройством.) Многие считали, что они знают, как искать и выбирать соответствующие результаты из выдачи лучше, чем помощник (в особенности Siri), поэтому, когда помощник возвращал пользователя к результатам поиска, некоторые сказали, что им придётся поискать ещё как-нибудь. Несколько человек пытались сформулировать поисковые запросы вслух, когда разговаривали с помощником, и делали ставку на то, что первые несколько результатов будут достаточно хорошими. Обычно эти люди использовали помощника (чаще всего Google Assistant) в качестве голосового ввода в поисковую систему.

Доверие к результатам

Люди знали, что умные помощники несовершенны. Таким образом, даже когда помощник давал ответ, они порой сомневались в правильности ответа — не зная наверняка, правильно ли он был понят, или помощник услышал только часть запроса. Как сказал один из пользователей: «Я не верю, что Siri даст мне ответ, который меня устроит».

Например, в ответ на просьбу найти рецепт, Alexa предоставила «лучший рецепт» с возможностью узнать больше. Но она не дала информации о том, что означало «лучший», и как были выбраны и отобраны рецепты. Были ли эти рецепты с высоким рейтингом? Рецепты, опубликованные известным блогом или кулинарным сайтом? Люди должны были доверять выбору, который сделала Alexa для них, без каких-либо подтверждающих доказательств в виде оценок или количества отзывов. Особенно в случае с Alexa, где пользователи не могли видеть результаты и просто прослушивали список результатов, вопрос о том, как именно был собран список, был важен для некоторых пользователей.

Однако даже помощники, встроенные в смартфон, вызывали недоверие, хотя у пользователей была возможность проверить корректность рекомендаций на экране. Например, в одном из заданий исследования пользователи попросили Siri найти рестораны по дороге в Мосс-Бич. Siri выдала список ресторанов с соответствующими рейтингами Yelp (вроде бы ответив на запрос), но не показала их на карте, чтобы пользователь смог убедиться, что рестораны действительно удовлетворяют указанному критерию. Доступ к карте со всеми ресторанами был также трудоемким: нужно было выбрать ресторан и кликнуть, чтобы показать его на карте; тогда на карте были показаны все рестораны, выбранные Siri.

Siri не показывала список ресторанов на карте. Чтобы посмотреть карту, пользователям нужно было выбрать ресторан и показать его на карте. После того как они это делали, некоторые пользователи не знали, как восстановить список ресторанов (это можно сделать нажав кнопку «Назад в приложение» Siri *в левом верхнем углу экрана).*

Для сравнения, Google Assistant намного лучше справился с тем же запросом: он показал все предложенные рестораны на карте, и пользователи смогли увидеть, что (к сожалению) результаты были сконцентрированы в конце маршрута, а не по дороге, как того требовало условие.

*Google Assistant показал рестораны на карте.*

Плохая поддержка для сравнения и покупок

В нашем исследовании задачи, связанные со сравнением, имели особенно плохое юзабилити по нескольким причинам:

Речь — неэффективная модальность вывода . Требуется много времени, чтобы послушать помощника, который зачитывает каждую возможную альтернативу, и раздражаются, выслушивая длинную речь помощника по поводу каждой опции. Многословность помощника особенно расстраивала, когда участник быстро понял, что не заинтересован в текущей альтернативе, но тем не менее вынужден выслушать до конца Alexa или Siri. Если два человека разговаривают друг с другом, они могут использовать сигналы интонации, лица или тела, чтобы направлять разговор в нужном направлении, интересном для обоих. Но голосовые помощники не могут понять, когда пользователь не заинтересован в альтернативе, и перестать говорить о ней.
У пользователей не было возможности быстро перемещаться вперед-назад, чтобы сравнивать варианты между собой. Они были вынуждены хранить всю информацию в своей рабочей памяти, чтобы сравнить текущий элемент с последующими.

Например, предлагая разные рецепты тирамису для пользователя, Alexa перечислила название рецепта, время, необходимое для его приготовления, а затем сказала: «Вы можете попросить дополнительную информацию или, для получения большего количества рецептов, сказать «Далее». «Если пользователь сказал «Далее», было трудно вернуться назад и обратиться к предыдущему рецепту. Этот стиль взаимодействия предполагал, что пользователь удовлетворится первым минимально приемлемым вариантом, а не будет сравнивать плюсы и минусы различных альтернатив. Для некоторых простых задач, без каких-либо последствий от принятия решения, вариант, когда пользователь удовлетворяется первой подходящей опцией (satisficing) может быть разумной стратегией выбора, но в нашем исследовании, даже при выбора рецепта для ужина пользователи хотели провести некоторые сравнения.

Использование нескольких критериев для выбора делает задачу еще сложнее. Например, при использовании Google Assistant для сравнения ресторанов пиццы в Нью-Йорке пользователи не могли эффективно сравнивать, насколько далеко они располагались, а затем выбирать среди близлежащих вариантов, исходя из количества звезд в отзывах, — вся эта информация была представлена для каждого ресторана в отдельности, и пользователи сохраняли все эти детали в своей рабочей памяти, чтобы сравнивать разные рестораны между собой.

Недостаток сопроводительных визуальных деталей для каждого варианта также имел значение — в особенности в ситуациях поиска интернет-магазинов, ресторанов или гостиниц. В нашем исследовании пользователи регулярно отказывались от покупки товара, не имея возможности просмотреть его изображения, чтобы оценить его, а также удостовериться, что это был нужный правильный товар. Риск ошибок для продуктов с неоднозначными или похожими названиями был слишком высок.

Один из участников остался неудовлетворен ответом Alexa о текущей цене на биткойн, так как она не имеет возможности сообщать об изменениях оперативно, а это ключевой фактор для людей, зарабатывающих на быстрых колебаниях криптовалюты.

Навыки и Действия

При работе с Alexa и Google Assistant, пользователи могут получить доступ к специальным «приложениям» (так называемые «навыки» в экосистеме Amazon и «действия» в Google), заточенным под конкретные задачи.

Теоретически навыки и действия могут расширить возможности подобных систем, но в нашем исследовании они оказались практически бесполезными. Большинство пользователей Alexa не знали об этих навыках; некоторые сталкивались с ними ранее, устанавливали один или два навыка, а затем полностью забывали об их существовании.

У навыков Alexa есть две большие проблемы, затрудняющие их использование:

Они требуют, чтобы пользователи точно помнили имя навыка. Хотя вы можете спросить Alexa, какие навыки в настоящее время установлены на вашем устройстве, это довольно бесполезно, потому что Alexa начинает описывать их один за другим в существующем порядке, и к тому времени, когда вы добрались до третьего навыка, то не хотите слушать дальше.
Они требуют от пользователей запоминания волшебных слов для вызова навыка. Теоретически это «play <skill>», «talk to <skill>», «ask <skill> <specific question>», но на практике нашим участникам не удалось заставить некоторые из этих фраз работать: одно слово, казалось, подходит одному навыку, но не подходит другому. (Мы попросили людей перейти на страницу навыков в приложении Alexa, и иногда они пробовали фразы, перечисленные там в качестве примеров, и даже они не срабатывали должным образом.)

Один человек рассказал, что главная причина, по которой он купил устройство Echo, — возможность управлять своей домашней развлекательной системой с помощью пульта Harmony, но затем попытался вспомнить точные слова, которые он должен был использовать для вызова навыка Harmony, и в итоге отказался от использования.

Люди были еще менее знакомы с действиями Google Assistant, чем с навыками Alexa. Один пользователь попросил построить маршрут к Мосс-Бич, а затем, получив результат, продолжил с просьбой «как насчет этого уик-энда» (что означает, что нужно проложить маршрут, как если бы он собирался поехать туда в выходные). Google Assistant ответил: «Конечно, для этого вы можете поговорить с Solar Flair. Это подходит?» Пользователь сказал «да» и случайно оказался в действии Solar Flair, который, попросив место, предложил «до 10 в Мосс-Бич». Это предложение оставило пользователя в недоумении. (Как оказалось, Solar Flair выгружает данные УФ-индекса для местоположения.) Пользователь прокомментировал: «В этот момент я почувствовал себя неловко, так как у меня установлено это новое приложение, но я не знаю, что оно из себя представляет».

https://media.nngroup.com/media/editor/2018/07/19/solar-flair-1.mp4

Один пользователь случайно оказался в действии Solar Flair для Google Assistant, так как он пытался построить маршрут до Мосс-Бич в выходные дни. (Для большинства браузеров — наведите указатель мыши на видео, чтобы отобразить элементы управления проигрывателем, если они еще не видны.)

Несмотря на то что порой действие (или навык) может быть целесообразным, они должны сопровождаться некоторой базовой информацией о приложении.

Взаимодействие с Навыками

Даже когда люди, наконец, смогли получить доступ к одному из навыков Alexa, взаимодействие с ним было непростым. В отличие от самой Alexa, которая понимала язык в относительно свободной форме, навыки требовали ограниченного набора ответов. Во многом они казались очень похожими на традиционные интерактивные системы голосового ответа, которые требуют от пользователей сделать выбор, произнеся определенное слово или номер. Люди не понимали разницы между режимом «ограниченный язык» (restricted-language) и режимом «нормальный язык» (normal-language), и многие из взаимодействий с навыками провалились, потому что пользователи не нашли подходящего способа поговорить с приложением. В большинстве случаев они просто игнорировали инструкции и формулировали свои ответы и запросы в свободной форме. Такое поведение создавало трудности и приводило к повторению ответов навыками.

Например, навык Restaurant Explorer заставил пользователей обратиться к ресторанам, которые были предложены, произнеся «1», «2» или «3» вместо того, чтобы разрешить им использовать название ресторана. Навык Lonely Planet требовал от пользователей произносить конкретные ключевые слова, такие как «best time to go» (“лучшее время для визита”), и не понимал вопросов вроде: «Какие события в Сиднее пройдут в июле 2018 года?». Когда пользователи задавали этот или другой вопрос не-из-скрипта, навык повторял набор общих фактов о Сиднее. Один из участников прокомментировал: «Это слишком много. Это как если бы я слушал энциклопедию — это не интерактивно. […] Он просто рассказывает мне факты, и ему все равно, хочу ли я их слушать».

Навык Air Canada также предоставлял пользователям ограниченную функциональность и требовал конкретной формулировки; когда люди спрашивали: «Каков статус полета из Сан-Франциско в Ванкувер, который уходит в четыре пятьдесят пять вечера», навык в значительной степени игнорировал все слова, кроме «четырех пятидесяти пяти», которые он интерпретировал как номер рейса.

Навыки также раздражали своей «вводной» частью, которая объединяла в себе роль «всплывающего» экрана и инструкции. Таким (длительным) введением навыки приветствовали пользователя и перечисляли список доступных командных слов. К сожалению, эти введения часто повторялись, и, как это бывает со всеми инструкциями, люди в значительной степени игнорировали их, стремясь начать свою работу с навыком.

Навыки работали лучше, когда они задавали пользователям конкретные вопросы и позволяли им давать ответы. Но даже там была проблема с имеющимися ожиданиями: один пользователь, взаимодействующий с навыком Lending Tree, жаловался, что навык начал задавать вопросы, не сообщив при этом, (1) зачем этот ответ нужен, и (2) не дав уверенности, что ответ вообще существует. Лучшим ответом на ее запрос о ставках по ипотечным кредитам по индексу 94087 был бы ряд значений, за которым следует возможность продолжить и ответить на некоторые вопросы, чтобы получить точную ставку.

Еще одна проблема, вызванная навыками и действиями, это дезориентация пользователей: участники не были уверены, что они все еще взаимодействуют с навыком, или они могут возобновить нормальное взаимодействие с Alexa. Один из участников попытался решить эту проблему, обратившись к Alexa прямо: «Alexa, мы все еще в [навыке] Woot?», чтобы выяснить, что ей нужно делать дальше. (Этот вопрос является признаком пользовательского интерфейса, который полностью провалил первую эвристику юзабилити — видимость статуса системы.)

Интеграция с другими приложениями

Общая проблема с помощниками заключалась в том, что они не очень хорошо интегрировались в виртуальные экосистемы, в которых пользователи находились. Пользователи iPhone жаловались на отсутствие интеграции между Siri и различными приложениями, которые они хотели использовать, — Spotify для воспроизведения музыки, Google Maps для маршрутов и т. д. Многие считают, что Siri была оптимизирована для приложений и устройств Apple, но не говорила с приложениями и услугами, которые у них были.

Пользователи Alexa также жаловались на то, что услуги Amazon имеют приоритет — многие уже подписались на Spotify или Apple Music, и считали, что расточительно подписываться на Amazon Music, чтобы прослушать музыку, которую они хотели на своем устройстве Echo. Агрессивное продвижение собственных услуг компании заставляло пользователей учиться формулировать запросы, чтобы обойти эти ограничения: «Когда я говорю музыку, она говорит мне, что у меня нет Amazon Music, поэтому я должен быть предельно ясным и сказать «Играйте в iHeart Radio».

Вывод

Сегодняшние «умные» помощники все еще далеки от прохождения теста Тьюринга — в большинстве взаимодействий люди легко поймут, что они разговаривают не с человеком. Хотя пользователи наделяют их человеческими качествами, у них относительно низкие ожидания относительно этих помощников, оставляя им лишь фактические вопросы, предполагающие однозначные ответы. Несмотря на то, что основным препятствием, вероятно, является улучшение естественного языка и обработка диалога (действительно сложная проблема), многие более мелкие проблемы могут быть исправлены с помощью продуманного дизайна.