Материалы по математической статистике и экспериментам 1.0

Vit Cheremisinov
expf
Published in
6 min readFeb 9, 2020

Нас часто спрашивают, что мы советуем почитать, посмотреть и изучить для большего погружения в тему математической статистики и экспериментов.

В этой статьи мы составили подборку книг, блогов и статей , которые сами очень любим и точно рекомендуем для погружения в область экспериментов и мат.стата.

Книги

Небольшой обзор книг, которые мы считаем не просто интересными, но и полезными для самообразования или использования в качестве справочника

Сара Бослаф “Статистика для всех”

Прекрасно подойдет для ознакомления с основами математической статистики. Очень много простых примеров и “бытовой” слог. Если вы еще не погружались в основы математической статистики но очень хотите — книга точно для вас.

Михаил Лагутин “Наглядная математическая статистика”

В книге наглядно и подробно расписана теория математической статистики и приведены практические примеры. Книга точно не подойдет для человека, который только решил в нее погрузиться. Но если уже есть уверенная база — она точно будет полезной.

Роберт И. Кабаков “R in action”

Книга больше знакомит читателя с особенностями R, но в ней разбирается очень много статистических методов с примерами на R, чтобы делает ее не просто учебникам или занимательной литературой — а наглядным пособием, как теорию можно сразу применить на практику. Даже если вы не любите R, то очень советуем ее прочитать.

Александр Кобзарь “Прикладная математическая статистика”

Это скорее справочник, в котором мы сможете найти ответы на частые и редкие вопросы по математической статистике. Книга полезна в том случае, когда у вас есть четко сформулированный вопрос к теории, а значит точно не для новичка.

Рон Кохави «Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing»

Рон отвечал в Microsoft за платформу a/b тестов и написал с командой огромное кол-во полезных материалов, которые помогают аналитикам со всего мира делать свои эксперименты круче и точнее. За одну только популяризацию CUPED ему можно сказать отдельное спасибо.

Книга выходит 20 марта 2020 года

https://www.amazon.com/Trustworthy-Online-Controlled-Experiments-Practical-ebook/dp/B0845Y3DJV

Блоги

Блоги, которые читаем мы и очень советуем начать читать и вам.

Большое собрание статей про разные аспекты data science. Материалы регулярно пополняются, очень советуем подписаться.

Блог компании NEFLIX. В блоге много статей про технологии, которые используем компания в своей работе. Самый любимый цикл статей — про платформу экспериментов netflix, например https://netflixtechblog.com/data-compression-for-large-scale-streaming-experimentation-c20bfab8b9ce

Технологический блок airbnb. Как и netflix ребята делятся большим кол-во собственных наработок и не стесняются делиться кодом, чтоб особенно ценно.

Сложно представить подборку блогов про анализ данных, математическую статистику и эксперименты без этих ребят. Блог команды ExP Platform из компании Microsoft. Команда делится большим кол-вом теоретических и практических наработок, которые они используют у себя, а вы после прочтения можете начать использовать в своей работе. Очень полезно!

Можно не любить R, но в этом блоге собрано колоссальное кол-во материалов по разбору математических методов, которые мы можете легко использовать в своей работе.

Ну и конечно же блог booking, тут уточнения излишни.

Полезные материалы

Небольшая подборка материалов, которые не обновляются, но менее полезными и интересными от этого не становятся.

Eytan Bakshy работает в Facebook и написал несколько очень классных статей про подходы facebook к a/b тестам.

Кроме прекрасных материалов с математическим подходом, в статьях можно найти примеры того, как выглядит процесс заведения экспериментов в FB

Статья достаточно старая, так что сейчас все может быть иначе

Серия материалов от MIT по теории вероятности и математической статистике.

Стоит ли использовать pValue в медицинских экспериментах. Тот формат спора, ради которого мы готовы покупать попкорн оптом.

Подходы к экспериментам от команды поиска Яндекс.

Как airbnb организовывает свою базу знаний по data science и разработке.

Отличная статья от Дэвида Робинсона про проблему подглядывания

Как UBER подходит к a/b тестам

Про проблему множественной проверки гипотез и поправки для ее коррекции

Интересный материал от Ebay про анализ ratio метрик в a/b тестах. Очень нравится, что многие компании все больше и больше инвестируют время в подобные R&D проекты.

Команда сравнивает три варианта оценки RATIO метрик

  1. naive CTR — среднее по всему кол-ву действий сессий у пользователя
  2. Normalized — расчет CTR внутри каждого пользователя (можно воспринимать как бакеты) и после этого оценивать статистику
  3. Corr. Adj. — использование корреляции повторных посещений пользователя в момент эксперимента.

Метод достаточно логичен, мы используем уровень корреляции внутри повторных посещений пользователя для коррекции дисперсии.

Если в своей работе вам приходится работать с RATIO метриками (а приходится точно), то материал однозначно надо брать на вооружение.

Материал netflix про сокращение дисперсии в экспериментах. Ребята рассказывают про методы стратификации и CUPED. Пост стратификация активно используется для увеличения чувствительности, но не дает весомых результатов. А вот CUPED позволяет добиться значительных успехов. Netflix немного расширил работу, которую писала команда Exp-platform. В материале больше уделяется внимание пред и пост стратификации, чем CUPED. Если не хотите погружаться в теорию, можно докрутить до того места, где команда демонстрирует что происходит с дисперсией при каждом подходе. Кстати, система сплитования экспериментов в netflix запатентована.

Это первая из множества будущих подборок материалов по математической статистике и экспериментам. Будем стараться выпускать такие статьи как можно чаще.

--

--