Черный лебедь больших данных

Ulan
4 min readOct 17, 2016

--

Сегодня в мире вырабатывается огромное количество данных. Соответственно, требуются специалисты по их обработке. Если вы студент технической специальности и еще не решили в какую сторону развиваться, то рынок труда отчетливо склоняет вас к выбору профессии из сферы big data — data mining, data science, data analytics и др.

Данные действительно сильно помогают бизнесу. Понимание взаимосвязей и зависимостей различных параметров друг от друга могут сделать усилия и вложения более целенаправленными.

Рассмотрим банальный кейс

Клиенты покидают компанию и переходят на продукцию конкурентов. Вас только что наняли на должность директора по развитию бизнеса (сразу после того, как вы получили степень MBA в Nazarbayev University, хаха :). Первая задача — сократить отток клиентов к конкурентам.

Имеются следующие данные:

  1. статистика ожидания (в секундах) клиентов при звонках в кол-центр
  2. количество обращений в службу поддержки за последний квартал
  3. частота использования вашего продукта
  4. количество повторных покупок

Предположим, что с помощью метода Монте-Карло вы сделали такие выводы:

  • пользователи, которые ожидали ответа кол-центра более 2 минут в 85% случаях переставали пользоваться продуктами компании
  • 40% покупателей, которые обращались в службу поддержку более трех раз, переходили на продукт конкурентов
  • если покупка была совершена более 5 раз в квартал, то покупатель оставался с компанией на следующие 2 года в 75% случаях

Полезна ли эта информация? Безусловно. Становится очевидным, что рациональнее всего вложиться в улучшения сервиса кол-центра, а уже потом думать о службе поддержки.

Аналитика больших данных открывает для бизнеса огромное количество инсайтов. Именно из-за этого мир сходит с ума по Big Data.

Зная о прошлом — можно прогнозировать будущее. Это верно во многих ситуациях. Во многих, но отнюдь не во всех. В некоторых закономерностях бывают исключения. Имя им…

… Черный лебедь

До 1697 года считалось, что лебеди бывают только белыми, однако голландская экспедиция, которую возглавлял Виллем де Вламинк, обнаружила в Западной Австралии популяцию черных лебедей. © Wiki

Автор наделяет Черных лебедей такими свойствами:

  1. Событие является неожиданным (для эксперта)
  2. Событие производит значительные последствия
  3. После наступления, в ретроспективе, событие имеет рационалистическое объяснение, как если бы событие было ожидаемым

Самый яркий пример Черных лебедей (не знаю почему я пишу их с большой буквы) из книги повествует о счастливой индейке.

День благодарения

Представьте себя на месте индейки, которую люди исправно кормят каждый божий день: первый, второй, пятый, десятый, сотый и т.д. С ее точки зрения — жизнь удалась, люди — красавчики, все желают ей добра. Одним словом, dolce vita как она есть. И вот настал день номер 999. Что будет завтра? Каков ваш прогноз? Абсолютно все указывает, что завтра индейку накормят в 1000ый раз и жизнь продолжиться. Но не тут-то было! Завтра — день благодарения. Тот самый американский праздник, на который принято резать индюшку.

Итак, вопреки всем прогнозам, которые мы строим на исторических данных — в 1000 день индейке отсекут топором голову. Как же так? Любой регрессионный анализ покажет, что послее 999 дней кормления, индейку должны накормить и в 1000ый день! Как объяснить этот феномен? Это и есть Черный Лебедь. Его невозможно предсказать.

Happy thanksgiving day!

Известно ли вам при каких обстоятельствах был выведен пенициллин? Ученый Александр Флеминг собирался в отпуск и забросил все грязные пробирки в одну кучу. Когда он вернулся в лабораторию, то в некоторых сосудах образовалась плесень, которая убила обитавшие там бактерии. После этого миру был представлен перый антибиотик.

Было ли открытие пенициллина ожидаемым?

Конечно нет. Флеминг просто был неряшлив и ленив для уборки своего кабинета.

Имело ли событие значительные последствия?

Естественно. Пенициллин являлся первым эффективным средством от многих тяжелых заболеваний вроде сифилиса.

Значит это Черный Лебедь?

Да. На 100%

«Когда я проснулся на рассвете 28 сентября 1928 года, я, конечно, не планировал революцию в медицине своим открытием первого в мире антибиотика или бактерии-убийцы. Но я полагаю, что именно это я и сделал»

Всегда ли знание прошлого позволяет нам с уверенностью прогнозировать будущее? Хотя это и есть основной принцип работы Big Data, но ответ все равно — нет.

Когда во время курса MBA нас познакомили со статистическими моделями и концепцией больших данных, я был очень воодушевлен. Еще бы! Теперь я могу предсказать любые бизнес-индикаторы, дайте только исторические данные! Как оказалось, в работе с Big Data нужно всегда держать в уме появление Черных лебедей. Труд Талеба добавляет важную ноту в надежность прогнозирования и является обязательным к прочтению для всех поклонников больших данных.

--

--