Голосовой ввод: будущее уже наступило?
Устройства голосового ввода и технологии распознавания речи — одни из самых обсуждаемых инноваций уходящего 2014 года. Разработок в этой сфере становится всё больше, ими занимаются лучшие инженеры крупнейших корпораций. Потребительские продукты на базе этих технологий становятся популярнее с каждым днём и уже не выглядят плодом воображения футуристов. Почему же большинство из нас до сих пор предпочитает клавиатуру?
Преимущества голосовых технологий очевидны — они упрощают управление устройством. Пользователь больше не нуждается в дополнительном посреднике между ним и устройством для ввода данных, а сам ввод осуществляется наиболее простым и привычным способом — голосом. В результате становится ещё доступнее дистанционное управление устройством — достаточно сказать команду голосом, чтобы запустить нужный процесс. Это может быть очень полезно для выполнения нескольких задач одновременно и критически важно в экстремальных ситуациях, например, при необходимости вызвать полицию.
Первые попытки применить технологии голосового управления компьютерами появились на массовым рынке в середине 90-х, однако их удобство для пользователя оставляло желать лучшего: анализаторы звуковых волн требовали произнесения фраз с четкими и одинаковыми паузами, в одной интонации, и малейшее отклонение не позволяло системе распознать команду. В дальнейшем технологии стали совершеннее, и появились продукты, способные, по заявлениям разработчиков, распознавать до 100% команд. Это породило целый пласт программ, позволяющих управлять компьютером с помощью голоса, например, CMU Sphinx.
Сегодня существует множество продуктов, поддерживающих голосовое управление, от смартфонов с самообучающимся приложением Google Now, выполняющим голосовые команды, до «умных часов» или телевизора с голосовым управлением. Следует сказать, что повышение точности распознавания привело к новой проблеме: системы, пренебрегающие особенностями голоса владельца, стали слишком уязвимы для мошенников и несанкционированного доступа.

Если технология голосового управления хорошо развивается и очевидно совершенствуется, то её закономерное продолжение — системы распознавания речи и ввода данных с помощью голоса — имеют большее количество сложностей.
Технология появилась ещё в 50-х годах прошлого века под названием «фонетических печатающих машин» и привела к созданию IBM Shoebox. Однако на массовый рынок продукты до сих пор не вышли, при том, что попытки предпринимали бессчётное число разработчиков — от почти любителей вроде томского ООО «Нейроробот» до Microsoft, периодически сообщающей о работе в этой области и готовящихся прорывах.
Однако несмотря на давность проблемы и усилия лучших умов, мы до сих пор печатаем на клавиатурах. Вот основные проблемы голосового ввода:
- Долгое время распознавание речи компьютером останавливалось на уровне 80% (при аналогичном показателе человека 96–98%), что не позволяло добиваться полноценного распознавания без значительных ошибок.
- Необходимость настройки системы на каждого отдельного пользователя и с учётом шумового фона вокруг.
- Гигантская вариативность способов построения предложений, нюансов контекста, сотен значений у отдельных слов, способов произнесения слов, акцента, дефектов речи, интонаций, полностью меняющих смысл фраз в некоторых языках — всё это не позволяет пока распознавать корректно большие объемы данных.
В итоге точность распознавания тем выше, чем меньше вариантов произнесения фраз. Обучить систему десятку типовых лексем — простая и уже давно реализованная задача.
Но условно случайный пользователь, чьи особенности речи и построения слов система не знает, при попытке ввести произвольный текст среднего объема получит высокий процент искажений при распознавании. Усилия, требующиеся для проверки и корректировки, делают такой ввод данных бессмысленным.
Несмотря на очевидные успехи, как технологические, так и коммерческие, речи о полной замене символьного ввода на голосовой в большинстве устройств пока быть не может. Поэтому мечты о том, что сложный и объёмный текстовый документ в ближайшем будущем удастся просто «наговорить» в микрофон, и он появится в нужном формате, пока остаются недостижимыми для рядового пользователя.
Лишь в последние годы удалось выпустить на рынок несколько успешных продуктов такого плана. Примерами могут служить программа Apple Dragon Dictation, позволяющая наговаривать небольшие тексты на устройство с последующей работой с ними в текстовом формате, iPhone 4S и старше с установленной программой Siri — виртуальным говорящим помощником — и уже упомянутый Google Now. Исследования показывают, что технология пользуется спросом, особенно у молодой аудитории. Сервисы распознавания речи с приемлемой корректностью распознавания есть во многих программных решениях — например, в Windows 7, у Яндекса и Apple и особенно развиты на рынке носимых устройств. Впрочем, успехи в этой области — удел не только крупных корпораций; например, внимания заслуживает российский стартап RealSpeaker.
Хотя до совершенства в сфере голосового ввода ещё далеко, тренд вполне оптимистичный. Есть шанс, что в скором времени будет накоплена достаточная база знаний, и наконец станет доступна технология распознавания речи с максимальной точностью, неограниченного объема и независимая от лексических нюансов или особенностей дикции человека. И мы наконец заговорим с техникой на одном языке.