Как Data Science помогает бизнесу: из практики IT-компании

Published in

SimbirSoft Russia

6 min readNov 28, 2019

Ритейлеры, банки и многие другие компании собирают и анализируют информацию, понимая, что данные управляют бизнесом. Для его развития необходимо проверять сотни гипотез различными методами, и здесь на помощь приходит Data Science — наука о данных. Расскажем, как это работает и чем полезно, а также представим кейс из практики IT-компании SimbirSoft.

Data Science

Наука о данных применяет различные инструменты Big Data и машинного обучения (Machine Learning, ML), которое включает в себя алгоритмы и методы искусственного интеллекта. Задача ML — “научить” программу предпринимать необходимые действия на основе огромного объема обработанных данных.

Big Data — это способы сбора, хранения, обработки и анализа информации. Массив данных называют Data Set, а эксперта по работе с ними — data scientist.

В числе наиболее востребованных решений Data Science — рекомендательные и банковские скоринговые сервисы, а также, к примеру, системы интеллектуального подбора квартир, с учетом мест работы и учебы всех членов семьи. Известны онлайн-проекты, где нейросети генерируют несуществующие человеческие лица на основе множества фотографий или пишут связные и осмысленные тексты. Например, бот Al Squire написал письмо редактора и несколько статей для номера сингапурского Esquire.

Как это работает

Data scientist (специалист по машинному обучению) занимается разработкой алгоритма, который может моделировать и прогнозировать поведение пользователей, выявлять закономерности и тенденции на основании полученных бизнесом данных. Параметры алгоритма задаются автоматически. Иными словами, алгоритм — это вычисление значения по заданной формуле, например, у=5х+2. Но формула заранее неизвестна, а выводится на основе Big Data. Например, с помощью алгоритма можно узнать режим дня человека: как меняется его продуктивность в течение суток и от чего зависят изменения.

Data — это данные и факты

Следующий пример поясняет суть работы с данными. Допустим, нам нужно составить трудовой график операторов техподдержки. Режим работы колл-центра — 24 часа 7 дней в неделю.

Днем колл-центр получает больше звонков, чем ночью. Соответственно, в ночную смену следует поставить меньшее количество сотрудников. Но это далеко не все, что необходимо для построения точной модели. Важно учесть такие данные:

среднее число входящих звонков в каждый из дней недели, месяцев, времен года — например, в период летних отпусков их количество снизится;
данные о распределении звонков в рамках 24 часов;
количество работников, выходные и праздничные дни, график отпусков;
геолокацию клиентов, которые совершают звонки (важно учитывать разницу в часовых поясах — когда в Московской области ночь, на Дальнем Востоке уже утро);
другие данные, например, зарплату операторов, обеденные перерывы, пятиминутные перерывы и так далее.

Алгоритм искусственного интеллекта не только построит оптимальный рабочий график для операторов, но и будет учитывать все изменения данных и постоянно его оптимизировать согласно этим изменениям.

Science — это анализ и обработка данных

Анализировать полученные данные специалистам по Big Data помогают машинное обучение, статистика, оптимизация и другие области математики. Эти методы используются для анализа и обработки информации, то есть — извлечения важных для проекта закономерностей. Они и формируют главную составляющую Data Science — анализ данных. Выявление закономерностей нужно для того, чтобы в будущем уметь предсказывать информацию для уже новых объектов.

Как это помогает в бизнесе

Выгода от использования data science в бизнесе — прямая, причем и для предпринимателя, и для клиента. Пользователь постоянно сравнивает продукты и принимает решения, например, выбирая продукты в супермаркете или фильм в онлайн-кинотеатре. Этот процесс известен как «теневая работа», и алгоритмы способны помочь пользователю сделать выбор.

Например, сервисы Netflix, YouTube, Amazon и другие уже используют «умные» рекомендательные системы. Netflix анализирует поведение своих пользователей и предлагает каждому индивидуальную подборку контента — в соответствии с его прошлыми предпочтениями. YouTube создает персонализированные рекомендации для пользователей на основе просмотров, лайков и дизлайков и еще множества параметров. Google и Яндекс показывают таргетированную рекламу на основе того, куда пользователь заходит и что покупает. А американская торговая сеть Target анализирует историю покупок и изменения в поведении покупателей, отправляя им индивидуальные скидочные купоны, как бы предугадывая их желания. Иными словами, существует масса успешных примеров применения алгоритмов искусственного интеллекта в бизнесе.

Data Science и мифы

У машинного обучения, безусловно, большое будущее. Новые технологии постепенно находят применение во всех сферах бизнеса, однако, пока далеко не все предприниматели доверяют им. Рассмотрим несколько мифов, связанных с машинным обучением.

Миф 1. Компьютерные алгоритмы неконтролируемы

«Восстание машин» — слишком закоренелый стереотип, чтобы легко и быстро от него избавиться. Бизнес боится, что автоматизация всех операций посредством искусственного интеллекта заставит его потерять контроль, ведь ИИ — штука непредсказуемая.

На самом деле, созданные людьми программы работают только в заданных рамках, а обучают их аналитики. Поэтому их поведение предсказуемо, а конечное решение всегда за человеком.

Миф 2. Возможности алгоритмов не подходят под задачи бизнеса

Принятие всего нового зачастую происходит через преодоление и время. Нередки случаи, когда бизнес просто не верит в возможности машинного подхода. Ведь если целый отдел аналитиков обрабатывает один объем данных за две недели, то разве может один алгоритм сделать то же самое за два часа? Да, может — и крупные компании, например, в ритейле, уже давно используют эти технологии.

Миф 3. Big Data и машинный подход — это дорого

Бывает, что предприниматели опасаются расходов, связанных с машинным обучением — на привлечение высококвалифицированных экспертов, покупку серверов и другие нужды.

На самом деле труд, работа с данными позволит сократить другие расходы компании, например, на бизнес-аналитику. При этом система работает круглосуточно, а затраты могут окупиться в среднем за три-четыре месяца, в зависимости от особенностей проекта.

Миф 4. ИИ полностью заменит людей

Безусловно, есть примеры сокращения на 90% отделов техподдержки, бухгалтерии и кадров из-за внедрения автоматизации в структуру предприятия. Однако здесь обошлось без влияния искусственного интеллекта. В свое время исчезли профессии извозчика и телефонистки — и это был лишь результат научно-технического прогресса.

На самом деле, искусственный интеллект без людей обойтись не может: ему нужно обучаться, получать новые данные от человека. В конце концов, именно люди придумывают гипотезы и обрабатывают результаты работы ИИ. Некоторые профессии исчезнут, но появятся новые, сопутствующие машинному обучению.

Миф 5. Нет данных для обработки

Для построения алгоритмов специалистам нужные данные. Если бизнес не собирает никакую информацию о клиентах, то это действительно проблема. Однако, ее можно решить за счет интеграции с CRM системой, особенно если такая система работает в компании хотя бы 2–3 года.

Big Data и бизнес

Аналитика в бизнесе нужна для поддержки принятия решений в больших проектах со сложной структурой, куда вовлечены десятки тысяч сотрудников или клиентов. Однако наиболее распространенный и простой способ использования науки о данных — создание персонализированных рекомендаций. Уже этот небольшой шаг приводит к росту доходности, поскольку:

Потребитель получает ценную именно для него информацию, а не бесполезную с его точки зрения рекламу, как следствие — выше его мотивация и уровень лояльности к бренду.
Растет конверсия.
Бизнес сокращает издержки и увеличивает прибыль за счет более эффективного управления складом, контроля остатков и точного планирования закупок.

Из практики

Мы в SimbirSoft разрабатываем решения на основе Big Data для разных сфер бизнеса. Один из кейсов — разработка системы, которая рассчитывает вероятность и частоту обращения за медицинской помощью клиента страховой компании. Для этого мы собрали и обработали нужные данные, выявили возможные методы моделирования, построили и проанализировали работающую модель.

Датасет — данные для анализа — состоял из двух частей. Во-первых, в него вошла информация об услугах, ранее полученных каждым пациентом, а также пол, возраст и диагнозы, выставленные в разные моменты времени, что позволило получать представление о состоянии пациента в текущий момент. Также в датасет вошли предполагаемые эпизоды обращения в клиники.

Нам нужно было определить вероятность лечения пациента в ближайшее время. При этом период сбора данных был ограничен, и для построения алгоритмов машинного обучения мы могли использовать лишь метод time-to-event analysis — также известный как анализ выживаемости. Этот метод позволил нам в рамках одной модели машинного обучения определить тип эпизода и прогнозировать время его возникновения, а также добиться при этом высокой точности прогноза.

Подробнее об этом проекте мы рассказывали в нашем блоге

Подводя итоги

Большие данные повсеместно проникают в нашу жизнь, и внедрение Data Science во все отрасли бизнеса — только вопрос времени. Крупные корпорации уже занимаются обработкой данных и созданием алгоритмов. Во всех сферах бизнеса необходимо уметь прогнозировать события и оценивать риски, не говоря уже о наиболее распространенном использовании алгоритмов машинного обучения — создании автоматических рекомендаций и повышении вовлеченности клиентов.

Познакомьтесь с решениями Data Science и другими кейсами в нашем портфолио.