Некорректные корректные эксперименты

7 min readApr 6, 2018

Данный пост очень долго зрел по итогам обсуждения вот этого поста (продолжения можно найти здесь и здесь и здесь и здесь) в фейсбуке и не преследует оскорбить чувства верующих, неверующих и овцеводов. Он так же не нацелен на принижение или восхваление премии Гудини, с которой самым прямым образом связан. Ранимой душе, продавшейся научному методу и ощущающей беспричинный батхерт по любому поводу, сначала рекомендуется сходить по ссылкам, а потом продолжить чтение.

Мне показалось, что не все те, кто имел что высказать по теме, понимают, что такое статистическая мощность. Возможно, стоит коротко покапитанствовать, прежде чем перейти к резюме.

Капитанство

Статистическая мощность — это вероятность того, что используемый инструмент (тест, испытание, эксперимент) обнаружит явление при его наличии. Это способность инструмента не совершить ошибку второго рода ( = пропуск события). Соответственно, статистическая мощность испытания в премии Гудини — это вероятность, с которой данное испытание не забракует реального экстрасенса.

Статистическая мощность имеет важное значение при проведении исследований. Настолько важное, что тема “а не запретить ли нам вообще нахуй исследования с низкой мощность в силу их бессмысленности” регулярно возникает в разных источниках. Для иллюстрации Андрю Гельман дает прекрасный (и типичный) пример из реальной работы, почему низкая мощность лишает эксперимент любого смысла, в том числе превращает в буллшит погоню за статистической значимостью. А мы же все любим статистически значимые результаты?

Рис. 2. Какие выводы нужно или нельзя делать из работ с низкой мощностью.

Синяя вертикальная линия — это реальная величина эффекта (характеристика окружающего мира). Красные области на распределении — это области статистической значимости, в которые мы должны попасть. Можно заметить, что попадание в эти области не только не означает обнаружение эффекта, но и наоборот, означает, что эффект мы или переоценили раз так 8 или даже ошиблись со знаком. Ноp < 0.05 и можно бубликовать в журнале.

Безусловно, набор нужной мощности для теста часто требует достаточно серьезных затрат, не всегда реализуемых, а радикальных подход отказа от проведения исследований с низкой мощностью имеет свои минусы. Но никто и нигде не спорит, что расчет мощности должен вестись, а его отсутствие является характеристикой плохой науки. Если вам говорят, что в вашем конкретном (корректном) эксперименте мощность вообще не важна, то увы и ой. Потому что наука — это не о том, что мы можем найти в эксперименте, а осознание границ того, что мы можем найти и понимание того, что найти не можем.

Мальчик-популяризатор и тяжелые зависимости

Статистическая мощность зависит от разных параметров, с ними можно к примеру наглядно поиграться вот здесь.

1. Зависимость от альфы

Например (очередное капитанство) она зависит от уровня значимости, той самой альфы, того самого печального классического 0.05 меньше которого должно быть p. Пусть это не очевидно интуитивная зависимость, но со снижением альфы вы гарантированно понижаете мощность. Мощность в исследованиях с p < 0.05 будет больше, чем в исследованиях с p < 0.001. Организаторы премии Гудини насчет этого не заморачиваются.

рис.3. Значение альфа в экспериментах премии Гудини равно примерно 0,001

Стремление снизить альфу в тестах можно понять. Чем меньше альфа, тем меньше вероятность случайного прохождения теста случайным человеком. Однако в этом стремлении защититься от случайности как раз приносится в жертву статистическая мощность. Чем сильнее вы хотите избежать ошибку первого рода, тем чаще вы совершаете ошибку рода второго. И это, кстати, правильный ответ на вопрос, почему снижение уровня альфы в статистических тестах per se не решит проблемы науки и не выведет из кризиса невоспроизводимости и кретинизма.

С другой стороны, ну и хрен с ним. Кого вообще волнует кризис в науке во времена разгула популяризации.

2. Зависимость от размера

Еще (и опять капитанство) статистическая мощность зависит от величины эффекта, то есть, выраженности, силы изучаемого явления.

рис. 4. Организатор премии хочет “нормальную величину эффекта”. Для доказательств явлений, которые он популяризирует он применяет намного менее жесткие критерии.

Хотя, разумеется, величину эффекта нельзя просто хотеть. Она является характеристикой явления, а не эксперимента. Но ее можно оценить. Эксперимент может быть достаточно чувствителен, чтобы заметить явление. Или не быть.

Тут все должно быть интуитивно понятно.

Яркие звезды вы можете увидеть глазами. Тусклые — только телескопом. Чем заметнее явление, тем проще его обнаружить даже плохим инструментом. И наоборот, чем слабее эффект — тем лучше вам нужен инструмент. В статистических инструментах “пригодность” инструмента как раз и определяется статистической мощностью. Отсюда следует простая последовательность, составляющее основу корректных статистических проверок: сначала мы устанавливаем для себя альфу и мощность, затем мы прикидываем величину эффекта, и, наконец, считаем необходимый для набора данной мощности размер выборки. Если о величине эффекта мы представления не имеем, то можем себе позволить оттолкнуться от некоего среднего значения, пересчитав потом наши вводные по итогам эксперимента. Вариантов много, они разные, но все они о том, что оценка мощности необходима.

Для упрощения задачи давно не надо делать эту операцию вручную и придуманы специальные онлайн-калькуляторы (например). В планировании экспериментов премии Гудини, напомню, ничего подобного не делается ибо считается излишним. Потому что эксперимент и так корректный (с).

3. Борцы с предметом своей бобры.

В процессе бессмысленных споров, популяризируя (каюсь) и упрощая, в тексте поста я заменил термин “величина эффекта” на более уместный в контексте “сила экстрасенса”. Характер же зависимости статистической мощности от величины эффекта был описан следующим образом.

1. Тесты премии Гудини способны выявить только очень мощных и сильных экстрасенсов примерно уровня “бог”, но таких нет даже в шоу экстрасенсов при всех их многих дублях и подсказках.
2. Если экстрасенс средний или, еще хуже, слабый, то тест премии Гудини он вряд ли пройдет просто в силу крайне низкой мощности теста (зависящей от силы экстрасенса). Тест просто не способен выявить среднего или слабого экстрасенса.

Вроде ничего сложного. Наличие у экстрасенса способностей уровня “бог”, то есть крайне высокой величины эффекта, поднимает мощность и валидирует наш статистический тест. В случае экстрасенсов послабее наоборот наш тест теряет смысл. Basics.

Но вдруг мы получаем чудную реакцию:

рис. 5. Организатор премии что-то пишет.

Организатор премии почему то решил, что именно зависимость мощности от величины эффекта мной упущена, решил об этом напомнить. При этом именно Сергей (а не организаторы премии) не потрудились узнать размер эффекта. И все потому что он химик.

Я впервые сталкиваюсь с таким разоблачением. Чувствую себя неожиданно и неуютно и нечего даже возразить. Разве что еще раз дать цитату из моего исходного поста:

“тест премии Гудини он вряд ли пройдет просто в силу крайне низкой мощности теста (зависящей от силы экстрасенса)”.

еще раз подчеркну:

(зависящей от силы экстрасенса)

сравните с:

Обычно мишенью оппонента в дискуссии является то, что где-то что-то написано неправильно, или что-то важное упущено или рекомендуют написать про что-то другое и более важное. Иногда это действительно важные замечания. Иногда придирки. Но что делать, когда объектом для возражений явилось то, что написано именно то и именно так, как считает оппонент?Вроде полностью согласен, но все равно не согласен, и поэтому он прав, а оппонент нет. Я даже не знаю, как называется этот демагогический прием. Возможно его стоит назвать “заболтун Панчина” или “Панч напопуляризатора”?

Впрочем, это совсем не первый звоночек со стороны известного защитника науки и борца с мракобесием. И, простите мне мою уверенность, далеко не последний.

Заключительные размышления

Есть ли в премии Гудини великое добро или зло мне совершенно неведомо. Всем, я думаю, ясно, что организаторы не рискуют деньгами спонсора (продающего населению научно-обоснованные услуги по анализу ДНК, точность которых не сильно превышает точность гнобимых ими экстрасенсов) но главное цели хорошие. Что паранормальных способностей не существует, а если вдруг и существует потенциальный победитель с подобными способностями, то денег ему все равно не дадут (инсайдерская информация). Да ему и не надо. Меня не расстроит, если эта премия окажется той точкой, после которой исчезнет “мракобесие” в России, что не произойдет. Меня не обрадует, если она никак на уровень этого “мракобесия” повлияет. Меня в общем, даже не радует и не огорчает то, что дизайн статистического эксперимента внутри этой премии не имеет отношения к науке. В конце концов, это просто шоу, шоу не должно быть научным, даже если несет научное название.

Единственное, что действительно печалит — это безумие, друзья. Вы решили, что мракобесие — это плохо, что все методы хороши в борьбе с мракобесием, что решительно нельзя сомневаться в этих методах. Чем-то это все очень сильно напоминает утверждения о истинности христианского образа жизни, потому что он соответствует библии. Заебали вы все со своими правильными целями. Заебали вы своей борьбой. И вообще заебали. Будьте проще.

Некорректные корректные эксперименты

Written by Sergey N Belkoff