Голосовые помощники: эволюция, устройство и основные игроки

DTI Algorithmic
Блог DTI Algorithmic
6 min readNov 27, 2019

Уточнить у Siri рецепт сырников во время готовки или попросить Алису прочитать сказку — вполне привычные для нашей жизни сценарии. А как это работает? Как звук превращается в понятные виртуальному помощнику команды, которые сразу же исполняются? Кто главные игроки на рынке? Какие еще заботы могут снять с нас голосовые помощники?

Редакция DTI Algorithmic собрала ответы на все эти вопросы — и помогали нам в этом наши программисты и союзники. В результате получился информационно насыщенный лонгрид, который мы будем публиковать по частям. Сегодня — про эволюцию голосовых помощников, их устройство и основных игроков на рынке.

Эволюция голосовых помощников

История голосовых ассистентов начинается с конца 1930-х годов, когда ученые начали предпринимать попытки распознать голос силами технологий. Тогда созданию качественного помощника мешали две большие проблемы:

  • существование омонимов — слов с одинаковым звучанием, но с разным значением,
  • постоянный шумовой фон, из которого система должна выбирать речь пользователя.

#справка Подробнее про историю и эволюцию технологии распознавания речи на Medium

Сейчас для решения этих проблем разработчики используют машинное обучение. Оно учит нейронные сети самостоятельно анализировать контекст и эффективно определять основной источник звука. Однако пришли разработчики к этому не сразу — потребовалось как минимум 80 лет подготовительных работ:

1939 год. Советский физик Лев Мясников создал аппарат, способный распознавать человеческую речь — несколько гласных и согласных звуков.

1952 год. Сотрудники лаборатории Bell разработали механизм, который распознавал продиктованные по телефону числа от 1 до 9.

Первый голосовой распознаватель чисел, разработанный сотрудниками лаборатории Bell

1962 год. Компания IBM представила собственную технологию распознавания речи — Shoebox. Машина распознавала 16 английских слов, 10 цифр и 6 арифметических команд.

Презентация системы распознавания речи Shoebox от IBM

1980 год. Инженеры научились применять методы «Скрытой модели Маркова». Со временем это позволило голосовым системам лучше распознавать речь. Они обрабатывают слово, учитывая несколько предыдущих и предсказывая, что может с ними сочетаться.

#справка Скрытая модель Маркова описывает генерацию случайных событий в зависимости от текущего состояния объекта. Пример: человек может находиться в одном из четырех состояний и не в каждое их них может перейти сразу (схема ниже). Например, если человек лежит, то он не может моментально пойти куда-либо — нужно сесть, встать и только потом идти

Пример физических состояний человека, описанных в скрытой модели Маркова

1987 год. В США компания Worlds of Wonder начала продавать говорящую куклу Джулию, которая училась распознавать речь ребенка во время игры. В куклу был встроен процессор, который позволял ей реагировать и генерировать речь. Джули воспринимала восемь высказываний: «Джули», «да», «нет», «хорошо», «притворяйся», «голодна», «пой» и «молчи».

Реклама интерактивной игрушки — куклы «Джули»

1990-е годы. Появилась коммерческая программа Dragon Dictate, ориентированная на массовый рынок. Она распознавала речь и записывала надиктованный текст в файл.

1996 год. Появилось полноценное голосовое меню VAL от BellSouth. Система обрабатывала телефонные справочные запросы и помогала покупателям в поиске нужной информации об интересующих товарах.

Позже компания запустила Info by Voice — интерактивные голосовые «желтые страницы» с информацией о ближайших ресторанах, такси и некоторых магазинах. Система также могла рассказать о новостях и котировках акций, погоде, телепрограмме, гороскопе и спортивных событиях.

2001 год. Компания Microsoft добавила голосовой ввод текста в офисный пакет Office XP.

2002 год. Google запустил Voice Search — сервис для голосового поиска в интернете. Проект приостановили из-за неудобства использования — чтобы выполнить поиск, надо было позвонить на специальный номер. На Voice Search основан современный интерактивный помощник компании — Google Assistant.

2007 год. Центр исследования искусственного интеллекта SRI International начал разработку Siri. Siri стала первой голосовой помощницей — система умела не только искать информацию в интернете или работать как голосовое меню, но и вести с пользователем диалог.

2011–2014 годы. Google интегрировал функцию голосового поиска в браузер Chrome. Компания также запустила персонализированного ассистента Google Now с расширенными возможностями голосового поиска — сервис подбирал актуальную информацию с учетом местоположения пользователя, истории браузера и других поисковых запросов.

У Microsoft также появилась собственная виртуальная голосовая помощница — Cortana.

#интересное Ассистент Microsoft назван в честь персонажа из игровой серии шутеров Halo. Фразы для него записала актриса озвучки Джен Тейлор, озвучившая Кортану в игре

2014 год. Amazon представил первую в мире умную колонку Amazon Echo с голосовой ассистенткой Alexa.

#справка Alexa от Amazon была вдохновлена компьютерной голосовой и диалоговой системой на борту Starship Enterprise в научно-фантастических сериалах и фильмах вселенной «Star Trek»

Колонка с голосовым ассистентом — Amazon Echo

2017 год. Alibaba представила умную колонку Tmall Genie с голосовым помощником AliGenie.

2018 год. Яндекс выпустил умную колонку Яндекс.Станция с голосовой помощницей Алисой.

2019 год. Банк «Тинькофф» запустил собственного голосового ассистента «Олега». Mail.Ru Group представила голосовую помощницу «Марусю».

Как устроены современные голосовые помощники

Голосовые помощники пассивно считывают все звуковые сигналы, и для активной работы им необходима активация при помощи кодовой фразы. Например, произнесите: «Окей, Google», потом можете задать свой вопрос или отдать команду без пауз.

Подробнее о работе голосовых помощников

Математик Ханна Фрай исследует, как работает программное обеспечение для распознавания голоса, используемое в в домашней технике.

В момент голосового запроса автоматическая система распознавания речи (ASR system) преобразовывает звуковой сигнал в текст. Это происходит в четыре этапа:

  • Фильтрация. Система убирает из звукового сигнала шумовой фон и помехи, возникающие при записи.
  • Оцифровывание. Звуковые волны преобразуются в понятный компьютеру цифровой вид. Параметры получаемого кода в том числе определяют качество записи.
  • Анализ. В сигнале выделяются участки, содержащие речь. Система оценивает ее параметры — к какой части речи относится слово, в какой оно форме, насколько вероятна связь между двумя словами.
  • Выявление шаблонов данных. Полученную информацию система включает в словарь — собирает разные варианты произношения одного и того же слова. Чтобы точнее распознавать новые запросы, ассистенты сравнивают слова в них с шаблонами.

Акустическая модель — как распознают речь в Яндексе

Если после обработки запроса виртуальный помощник не понимает команду или не может найти ответ, он просит перефразировать вопрос. В некоторых случаях могут понадобиться дополнительные данные — например, при вызове такси ассистент может уточнить местоположение пассажира и пункт назначения.

Основные игроки на рынке

По данным Microsoft, самые популярные голосовые помощники в США — Google Assistant, Siri от Apple, Alexa от Amazon и Cortana от Microsoft. Русский язык из них понимают только первые два, однако на российском рынке также работает Алиса от Яндекса, а на китайском — AliGenie от Alibaba. Сравнили основные характеристики умных колонок с поддержкой этих пяти голосовых ассистентов:

Голосовой помощник

Alexa

Google Assistant

Siri

AliGenie

Алиса

Компания-производитель

Amazon

Google

Apple

Alibaba

Яндекс

Активационная фраза

«Alexa»

«О’кей, Google»

«Привет, Siri»

«Tmall Genie»

«Привет, Алиса»

Позиционирование

управление умным домом

поисковик

музыкальная колонка

управление умным домом

музыкальная колонка

Решаемые задачи

управление умными устройствами;

взаимодействие с товарами и сервисами Amazon;

дозаказ новых продуктов;

справочная информация

управление умными устройствами;

поиск информации в интернете;

справочная информация

управление умными устройствами;

поиск информации в интернете;

цифровая няня

управление умными устройствами;

управление медиа;

заказ продуктов в интернет-магазине Tmall

обработка голосового запроса;

управление медиа

Интеграция с социальными сетями и почтовыми сервисами

нет

нет

да

нет

да

Понимает команды и произвольную речь

нет

да

нет

нет

да

Мобильное приложение

Android, iOS

Android, iOS и браузер Chrome

Android, iOS

Wechat, Webao

Android, iOS и Яндекс браузер

Язык

английский;

французский;

немецкий;

японский;

испанский;

хинди

порядка 30 языков

21 язык,включая диалекты

китайский;

английский;

русский

русский

Стоимость станций голосовых помощников

$50 — $150

$50 — $400

$350

$74

$160 (₽9900)

Доля рынка

31,8%

22,8%

4,9%

9,5%

менее 4,9%

Продажи
(в млн.штук)
за 4 квартал 2018 года

13,7

11,5

1,6

2,8

менее 4,9

#интересное В августе 2018 г. издание «Канобу» сравнило, насколько хорошо понимают русскую речь, отвечают на вопросы и выполняют задачи Siri, Google Assistant и Алиса. Результаты — в статье

--

--

DTI Algorithmic
Блог DTI Algorithmic

Финтех-компания DTI Algorithmic. Пишем об экономике, инвестициях и новых технологиях. https://blog.dti.team/about/