Как сделать свои прогнозы более точными?

Размышления по итогам прочтения книги “Сигнал и шум” Нейта Сильвера

http://lamcdn.net/the-village.ru/post-cover/ts5-RyPtuUywk1T33D9-Ng-default.jpg

Все мы с вами делаем прогнозы, даже сами того не замечая. Прогнозисты — это не только те, кто говорит о будущих значениях курсов акций или о счёте завтрашнего футбольного матча. Это все мы. Прогнозирование — это планирование в условиях неопределенности. Таким образом, любой бюджет до конца месяца, любой заранее спланированный маршрут, любая завтрашняя встреча — это своего рода прогноз. Однако есть и целая наука — прогнозирование. Именно об этом повествует автор Нейт Сильвер в в книге “Сигнал и шум” , детально объясняя, почему одни прогнозы сбываются, а другие — нет, а также дает советы о том, как научиться прогнозировать лучше.

Должен сказать, эта книга впечатлила меня настолько, что я присвоил ей титул лучшей книги по прогнозированию и параллельно одной из лучших научно-популярных книг, которые я когда-либо читал. Автор ярко проиллюстрировал научные гипотезы примерами, относящимся к очень разным сферам — медицине, политике, спорту, и касающиеся таких явлений как погода, природных катастрофы и даже терроризм. Прогнозы есть и требуются везде.

Сам же Нейт Сильвер, к слову, известен американскому обществу как человек, который предсказал результаты выборов во всех 50 штатах США.

Хочу поделиться с вами основными тезисами книги, снабдив их своими комментариями.

  1. Нас окружает огромное количество информации, но для прогнозирования нужны лишь крупицы из этого множества

Просто представьте, сколько численных, да и не только численных, параметров окружает нас: динамика курсов валют, политическая обстановка, биржевые сводки, цены на нефть, температура за окном — перечислять можно бесконечно. Если все эти данные объединить в одну таблицу, число столбцов в ней будет стремиться к бесконечности.

А теперь представьте, что вам нужно каждый день делать прогноз о значении какого-либо параметра (прибыль проекта, количество пользователей, температура и влажность — выберите для себя). Разумеется, для этого прогноза вам потребуется совсем мало столбцов из этой таблицы.

2. Соотношение “сигнала” к “шуму” падает

Те столбцы, что вы выбрали в качестве ключевых мы назовём “сигналом”, а все остальные — “шумом”. По сути, всё прогнозирование сводится к тому, чтобы правильно сформировать для себя сигнал и шум. Но это не так просто.

Объём информации в мире растёт в геометрической прогрессии, и с каждым новым столбцом этой мировой таблицы становится всё труднее различить, где сигнал (ключевые показатели), а где шум (второстепенные значения).

3. Прогнозисты бывают двух типов

Нейт Сильвер приводит интересную классификацию людей, занимающихся прогнозами: “лисы” и “ежи”. “Лис “знает много секретов, а “ёж “— один, но самый главный.

Цитата из книги: “Ежи” — это те люди, которые верят в Большие Идеи или управляющие миром принципы. “Лисы” же, напротив, верят во множество мелких идей и предлагают разнообразные подходы к решению проблем. Они более терпимы к нюансам, неопределённости, сложности и противоречивым мнениям.

“Лисам” порой бывает непросто вписаться в отдельные типы культур, такие как телевидение, бизнес и политика. Их убеждение в том, что многие проблемы сложно предсказать и что мы должны принимать во внимание большую степень неопределённости в жизни, может ошибочно приниматься за отсутствие у них уверенности в себе.

При этом оказывается, что “лисы” могут делать более качественные предсказания. Они быстрее других понимают, насколько данные могут быть искажены шумом, и они в меньшей степени склонны гоняться за фальшивыми сигналами. Они больше знают о том, что они не знают. Если вам нужен врач, способный оценить ваше физическое состояние, или инвестиционный консультант, помогающий максимизировать величину пенсионных накоплений, то вам стоит довериться “лису”.

4. Чем больше данных мы взяли, тем сложнее нам делать прогноз.

Допустим, нам с вами надо предсказать погоду, а именно температуру на завтра. Возьмём три подхода:

  • погода завтра будет такая же как сегодня;
  • посчитаем среднюю температуру в этот день за последние N лет;
  • рассмотрим дополнительные факторы: ветер, атмосферное давление, погоду в окрестности, циклоны, антициклоны и так далее.

Какой подход будет более точным?

Вы правы, третий. Но только лишь в рамках короткого интервала (скажем, недели). В долгосрочной перспективе куда более простой второй подход даст более точный результат. Да и даже первый подход даст всего лишь 7–8% ошибки.

В третьем подходе рассматривается множество показателей, этот подход оказывает значительную нагрузку на вычислительные мощности, и, как мы видим, это даёт свои плоды, но лишь на короткий период.

5. Необходимо правильно учитывать все данные, которые у вас есть (Байесовский подход)

Эпизод сериала ”Теория Большого взрыва”

Представьте, что вы опытный водитель, за плечами у вас двадцать тысяч поездок,и вы ни разу не попадали в аварию, не считая тех пары раз, когда вы наехали на бордюр. Вы никогда не водили пьяным, но в этот раз вы много выпили и размышляете, садиться ли за руль.

Ошибочное размышление может начинаться так: из 20 тысяч поездок проблемы были лишь в двух, а 19 998 поездок закончились успешно. Вывод: я поеду.

Верное же размышление такое: я не могу брать в расчёт эти 20 тысяч поездок, потому что ни в одной из них я не был пьян; моя выборка состоит не из 20000 элементов, а из 0 элементов, и я ничего не могу сказать о том, доеду ли. Вывод: лучше вызвать такси.

Очень много прогнозов (особенно финансовых; взять хотя бы предсказание кризиса 2008 года) проваливаются именно из-за такого фальшивого ощущения доверия. Люди неправильно оценивают имеющиеся у них данные, не принимают во внимание все необходимые условия. А делать это нужно, и именно об этом гласит теорема Байеса, основанная на условных вероятностях. Вы должны делать прогноз не событию как таковому, а по набору условий, ему соответствующих — подход не ежа, но лисы.

Возможно, теорема Байеса сначала покажется непростой, но она необходима для правильных и точных прогнозов. Больше примеров, иллюстрирующих непонимание теоремы Байеса, можно найти в статье по ссылке.

6. Прогнозировать — сложная задача, но есть одна верная стратегия

http://www.betterthanpants.com/media/catalog/product/cache/1/large_preview/9df78eab33525d08d6e5fb8d27136e95/t/o/tonights-forecast-99-chance-of-wine-large.png

Стратегия эта заключается в том, чтобы использовать Байесовский подход и предсказывать вероятность. Необходимо принять во внимание все условия, которые могут повлиять на результат, и не рассматривать те, что не могут — это лишь усложнит прогноз и ,скорее всего, ухудшит его. Что ещё очень важно: ваш прогноз должен быть вероятностным, и лучше всего будет предоставлять его результаты в виде распределения вероятности результата. Когда сложное предсказание говорится со стопроцентной убежденностью — это повод задуматься, что перед нами “ёж”, и этот самый “ёж” недостаточно глубоко продумал вопрос.

К тому же, использование вероятностей более честно говорит о границах наших предсказаний.

7. Для максимальной точности результатов необходим гибкий человеческий ум и опыт

Для полной иллюстрации тезиса приведу пример из собственного опыта.

За свою жизнь мне приходилось делать множество прогнозов, и для этого я применял множество методов. Вспоминаю, например, метод экспертных опросов, с помощью которого я предсказывал выручку на будущий месяц. Каждый эксперт ежемесячно давал свою оценку,на основании которой я корректировал математически полученный результат. В целом могу сказать, что получалось: математика не всегда знает то, что знает эксперт о будущем продукта.

Мой вывод (в справедливости которого я убедился по итогам прочтения книги) заключается в следующем: чтобы делать более точные прогнозы, надо делать много прогнозов на протяжении долгого времени. И каждый раз, разбирая, почему не сработал тот или иной прогноз, я обнаруживаю условия, которые не принял во внимание, затем учитываю их при последующих прогнозах (байесовский подход!). Допустим, вы хотите предсказать результат футбольного матча. Вы ориентируетесь на турнирное положение команд и их текущую форму, что уже хорошо. Прогноз не срабатывает, и вы понимаете, что не учли, что ключевой игрок одной из команд травмирован, не приняли во внимание, что у одной из команд был матч за три дня до того, и выставлен полурезервный состав, и так далее.

Таким образом, раз за разом делая прогнозы и разбирая ошибки, вы сформулируете для себя набор действительно важных условий.

Применительно к стратегии управления веб- или мобильным приложением, это теорию можно использовать так:

  • создайте карту метрик вашего продукта, приняв во внимание следующее: как взаимосвязаны показатели; как изменение одного из показателей меняет другие;
  • анализируйте каждое изменение в продукте: на какие метрики и как оно повлияло; в идеале вы должны иметь полное описание всех изменений;
  • делайте прогнозы на каждое изменение в продукте; желательно, чтобы при этом прогнозистов было несколько, и из простого прогнозирования этот процесс превратился бы в отдельный мини-турнир;
  • анализируйте, почему не сработал ваш прогноз, добавляйте новые факторы к последующим прогнозам.

Такой подход не гарантирует, что ваши прогнозы будут всегда бить точно в цель. Так же как нет гарантии того, что вы будете сильно ошибаться при последующем прогнозе. Я уверен лишь в том, что при правильном применении этого подхода среднее отклонение между прогнозом и фактом будет медленно, но верно уменьшаться.