Как отточить ваши “инстинкты данных”. Часть первая

Dmitry Kulbeda
NOP::Nuances of Programming
4 min readJul 4, 2018

Перевод статьи Peter Gleeson: How to sharpen your data instincts

Ввиду недавних успехов в области машинного обучения и исследований в области искусственного интеллекта, немного удивительно, что наука о данных стала сферой главного интереса.

Нет сомнений в том, что это очень хороший выбор для людей с аналитическим складом ума, требующий сочетание как хороших навыков программирования, так и глубокие технические знания.

Тем не менее, помимо показательных дуэлей нейронных сетей и распределённых вычислений, имеются некоторые фундаментальные статистические практики, с которыми любой специалист по работе с данными должен быть глубоко ознакомлен.

Вы можете знать самые новые фреймворки программирования или иметь успехи в научной литературе, которые требуются для некоторых проектов, но нет никаких быстрых путей для получения необходимых навыков ноу-хау при работе обработчиком данных.

Только практика, терпение и интерес к трудным путям решения задач по-настоящему отточат ваши “инстинкты данных”.

Принцип бережливости

Это повторялось так часто, что уже стало клише курсов начальной статистики, но сегодня слова британского статистика Джорджа Бокса актуальны как никогда:

“Все модели неправильны, но некоторые из них полезны”

Что это вообще значит?

Это значит, что при создании модели реального мира вам в любом случае придётся что-то упростить или обобщить для того, чтобы увеличить её объясняющую способность.

Настоящий мир слишком беспорядочный и переполненный, а значит изучить его до мельчайших деталей невероятно сложно. Поэтому статистическое моделирование стремится достичь не идеальной, а максимальной прогностической способности с минимальной необходимой моделью.

Для тех, кто новенький в мире данных, эта концепция может показаться противоречащей интуиции. Почему не поместить в модель столько условий, сколько возможно? Очевидно, что дополнительные условия только расширят объясняющую способность модели?

Что ж… и да и нет. Вас должны волновать только те условия, которые привносят с собой статистически значимое увеличение объясняющей способности.

Рассмотрим различные типы моделей, которые подходят под заданные наборы данных.

Самой базовой моделью является нулевая модель, которая имеет только один параметр — общее значение переменной ответов (плюс некоторые случайные распространённые ошибки).

В этой модели утверждается, что переменная ответов не зависит от объясняющих переменных. Вместо этого её значения полностью объясняются случайными колебаниями общего значения. Очевидно, это ограничивает объясняющую способность модели.

Абсолютно противоположной моделью является насыщенная модель, которая имеет один параметр для каждой отдельной точки данных. В итоге вы получаете идеально подходящую модель, но которая потеряет свою объясняющую способность, если вы будете забрасывать в неё новые данные.

Включение одного условия для каждой отдельной точки данных также отвергает принцип максимального упрощения. Это, опять же, не совсем полезно.

Подходящая нулевая модель слева, насыщенная — справа. Ни одна модель не допускает особо полезной интерпретации.

Понятно, что это крайние случаи. Вам нужно искать модель где-то между ними, которая хорошо подбирает данные и имеют неплохую объясняющую способность. Вы можете попробовать подобрать максимальную модель. Эта модель включает условия для всех рассматриваемых факторов и условий взаимодействия.

Допустим у вас есть переменная ответов y, которую вы хотите моделировать как функцию объясняющих переменных x₁ и x₂, умноженных на коэффициенты β. Максимальная модель будет выглядеть так:

y = intercept + β₁x₁ + β₂x₂ + β₃(x₁x₂) + error

Максимальная модель, как мы надеемся, хорошо подберет данные, а также обеспечит хорошую объясняющую способность. Это подразумевает под собой одно условие для каждой объясняющей переменной, а также условие взаимодействия x₁x₂.

Удаление условий из модели увеличит общие остаточные отклонения. В ином случае доля наблюдаемого изменения предсказания модели не учитывается.

Тем не менее, не все условия эквивалентны. Вы можете удалить одно (или более) условие без статистически значимого увеличения отклонения.

Такие условия могут считаться несущественными и быть удалены из модели. Вы можете убрать незначительные условия одно за другим (не забывая пересчитывать остаточное отклонение на каждом шаге). Повторяйте это до тех пор, пока все оставшиеся условия не будут иметь статистической значимости.

Теперь вы получили минимальную адекватную модель. Оценки для коэффициента β каждого условия существенно отличаются от нуля. Подход пошагового удаления, который здесь использовался, называется поэтапной регрессией.

Философский принцип, лежащий в основе этого стремления к упрощению модели, известен как принцип бережливости.

Он имеет некоторое сходство с известной эвристикой средневекового философа Уильяма Оккама, «Бритвой Оккама». Можно объяснить это следующими словами: “если имеется два или более равноценных объяснения, работайте с тем, в котором меньше предположений”.

Другими словами: можете ли вы с пользой объяснить что-то сложное самым простым способом? Можно сказать, что в этом определение стремления науки о данных — переводить сложное в понятное.

На этом конец первой части. Во второй части этой статьи вы ознакомитесь с распространёнными предрассудками в сфере науки о данных, а также о важности правильного донесения информации.

--

--