О контр-интуитивности теории вероятностей и статистики

Мне показалось, что собственно расчет довольно мало значит и вовсе не имеет той важности, которую ему придают многие игроки. Они сидят с разграфленными бумажками, замечают удары, считают, выводят шансы, рассчитывают, наконец ставят и — проигрывают точно так же, как и мы, простые смертные, играющие без расчету. Но зато я вывел одно заключение, которое, кажется, верно: действительно, в течение случайных шансов бывает хоть и не система, но как будто какой-то порядок, — что, конечно, очень странно. Например, бывает, что после двенадцати средних цифр наступают двенадцать последних; два раза, положим, удар ложится на эти двенадцать последних и переходит на двенадцать первых. Упав на двенадцать первых, переходит опять на двенадцать средних, ударяет сряду три, четыре раза по средним и опять переходит на двенадцать последних, где, опять после двух раз, переходит к первым, на первых опять бьет один раз и опять переходит на три удара средних, и таким образом продолжается в течение полутора или двух часов. Один, три и два; один, три и два. Это очень забавно. Иной день или иное утро идет, например, так, что красная сменяется черною и обратно, почти без всякого порядка поминутно, так что больше двух-трех ударов сряду на красную или черную не ложится. На другой же день или на другой вечер бывает сряду одна красная, доходит, например, больше чем до двадцати двух раз сряду и так идет непременно в продолжение некоторого времени, например, в продолжение целого дня.
Ф.М. Достоевский

Продолжаю пробовать новые жанры в заметках. На этот раз — очень поверхностное введение в тему теории вероятностей и статистики.

Человеку очень тяжело совладать со случайностью. Нам очень хочется во всём видеть порядок, закономерность, справедливость, умысел. Поэтому наш разум изо всех сил сопротивляется и пытается найти, придумать объяснение там, где его нет. И из-за этого возникают разные очень забавные курьёзы. В общем весь бизнес лотерей и казино построен на том, что интуитивно теорию вероятностей понять очень трудно.

Есть несколько любопытных примеров, когда это свойство человеческого разума проявляется.

Пример про монетку

На примитивном уровне оно проявляется в вопросе про монетку:

— Если монетка выпала решкой 9 раз подряд, какова вероятность, что она выпадет решкой опять?

При условии, что монетка настоящая и симметричная, ответ — 50%. Не может быть по-другому, так как броски монеты — события несвязанные между собой.

При этом немножко иначе поставленные вопрос даёт совсем другой ответ:

— Какова вероятность, что монетка выпадет 10 раз подряд решкой.

Ответ на него — единица, поделённая на 2 в десятой степени. То есть вероятность мизерная. Как объединить в голове простого человека первый и второй ответы в непротиворечивую картинку, математика не задумывается. Поэтому человека, далёкого от математики, эти вопросы (а точнее ответы) вводят в ступор. Так как звучат они очень похоже, но тем не менее являются абсолютно разными.

Пример про двух детей

Есть вариант вопроса, на который часто неправильно отвечают и люди образованные, знакомые и с математикой, и с теорией вероятности (в этом вопросе предполагается, что вероятность рождения мальчиков и девочек одинаковая — 50%):

— Если в семье из двух детей один ребёнок — мальчик, какова вероятность того, что второй ребёнок — тоже мальчик?

Машинально хочется ответить — 50%, так ведь? Но на самом деле ответ — 33%, а точнее — 1/3. Почему?

Очень просто. Если бы вопрос звучал по-другому, а именно:

— Если в семье из двух детей старший ребёнок — мальчик, какова вероятность, что второй ребёнок — тоже мальчик?

Тогда ответ действительно был бы 50%. А в формулировке “один ребёнок”, а не “старший ребёнок” — 1/3. Всё очень просто. В семье из двух детей может быть четыре варианта распределения полов между детьми:

1. Старший — мальчик и младший — мальчик.
2. Старший — мальчик, а младшая — девочка.
3. Старшая — девочка, а младший — мальчик.
4. Старшая — девочка и младшая — девочка.

Под первый вариант вопроса (“один из детей — мальчик”) подходят варианты 1, 2 и 3. Из этих трёх вариантов второй ребёнок тоже мальчик оказывается только в первом. Поэтому вероятность — 1/3.

Под второй вариант вопроса (“старший ребёнок — мальчик”) подходят только варианты 1 и 2. Из этих двух вариантов второй ребёнок тоже мальчик — тоже в первом. Но уже из двух, а не из трёх вариантов! Поэтому вероятность — 1/2.

Это был всё ещё простой вариант (на самом деле нет, так как всё немного сложнее, но в дебри уходить не будем). Теперь перейдём к действительно сложному, который сбивает с толку даже людей, хорошо разбирающихся в математике.

Парадокс Монти Холла

Забавно, что чаще всего неправильный ответ как раз дают люди, знакомые с теорией вероятностей, а дилетанты дают интуитивно правильный ответ. Но это скорее исключение, чем правило. Задачка звучит так:

— Представьте, что вы стали участником игры, в которой вам нужно выбрать одну из трёх дверей. За одной из дверей находится автомобиль, за двумя другими дверями — козы. Вы выбираете одну из дверей, например, номер 1, после этого ведущий, который знает, где находится автомобиль, а где — козы, открывает одну из оставшихся дверей, например, номер 3, за которой находится коза. После этого он спрашивает вас — не желаете ли вы изменить свой выбор и выбрать дверь номер 2? Увеличатся ли ваши шансы выиграть автомобиль, если вы примете предложение ведущего и измените свой выбор?

Люди, знакомые с математикой, подумав, отвечают, что от изменения выбора вероятность выигрыша не изменяется, так как ведущий всё равно заведомо открывает дверь с козой. Я тоже сначала так думал, пока не разобрался. А вот люди, незнакомые с теорией вероятностей, чаще всего сразу отвечают правильно — что менять выбор нужно, ведь до этого мы выбирали из трёх дверей (вероятность 1/3), а теперь — из двух (вероятность 1/2). Сомневающихся в правильности ответа приглашаю в википедию, где немного запутанно, но доходчиво объяснено, почему. Подсказка: представьте, что дверей не 3, а 1000 и ведущий открывает не одну дверь с козой, а 998.

Пример с днями рождений

Ещё один “парадоксальный” вопрос, демонстрирующий, что интуиция в оценке вероятностей — плохой помощник, звучит так:

— Какова вероятность, что в классе с 30 детьми у двоих учеников дни рождения приходятся на один и тот же день?

Хочется ответить, что вероятность ничтожна, ведь детей — 30, а дней в году — 365 (а то и 366!), ну как они могут совпасть? На самом деле вероятность очень высокая. Если человек в группе больше 23, то эта вероятность — больше 50%! То есть совпадение дней рождения — весьма вероятное событие и не такое уж редкое. Поэтому можно смело спорить на бутылку шампанского с теми, кто теорию вероятностей знает плохо. Именно поэтому, кстати, шампанское пьют не те, кто рискует, а те, кто рискует грамотно и с правильной оценкой рисков.

Почему так получается с днями рождений? Очень просто: мы же не говорим, в какой именно день года должны совпасть дни рождения, и они могут совпасть в абсолютно любой день! И поэтому задачку можно сформулировать наоборот:

— Какова вероятность, что в классе с 30 детьми ни у кого не совпадают дни рождения?

Так уже звучит менее пугающе, правда? И в этом-то как раз и кроется кажущаяся “парадоксальность” теории вероятностей. От формулировки зависит очень многое и формулировка часто нас подталкивает к неправильному, но такому “очевидному” ответу. Причём дело тут не в знаниях, как показывает “парадокс Монти Холла”.

Парадоксы закономерностей

Ещё один сюрприз теории вероятностей называется “парадоксом закономерностей”. Человеку свойственно считать неслучайной последовательность, в которой он находит какой-то порядок. Например, если при 50 подбрасываниях монеты орёл выпал 10 раз подряд, то, скорее всего, это закономерность. И если человека попросить придумать случайную последовательность чисел, то он, скорее всего, сделает её неслучайной именно потому, что будет избегать длинных повторений одного и того же числа, что в реальной жизни как раз может запросто случиться.

Из-за этого возникают очень забавные последствия, вроде совершенно на первый взгляд фантастического закона Бенфорда. Согласно этому закону, в любой последовательности величин, взятых из реальной жизни, вероятность появления чисел, начинающихся с единицы (например 11, 145, 178, 1974 и т.д.) почти в два раза больше вероятности появления чисел, начинающихся с двойки (например 2, 245, 20065) и почти в три раза больше вероятности появления чисел, начинающихся с тройки. И так далее.

Физик Фрэнк Бэнфорд обнаружил это, проанализировав таблицы с длинами рек, удельной теплоёмкости, номеров домов и так далее. Вроде бы единица должна встречаться только в 1 случае из 9? А встречается на самом деле в одном случае из трёх. Почему? Очень просто — большинство процессов и явлений в реальной жизни подчинены экспоненциальному закону. И как следствие числа распределяются неравномерно. Причём даже при изменении единицы измерения.

Этот закон очень хорошо позволяет выявить махинации в больших объёмах данных, так как когда человек пытается имитировать какую-то случайную величину, он старается все числа распределить равномерно, тогда как в реальной жизни они подчиняются закону Бэнфорда.

Примеры можно приводить долго. Хватит на книгу. И это я ещё не приводил примеры, основанные на психологии. Когда вероятность какого-то события по представлению человека очень сильно зависит от его психологического влияния. Например, вероятность смерти от несчастного случая люди оценивают, как в 300 раз более вероятную, чем смерть от диабета, хотя в реальности соотношение 1 к 4.

Хорошие книги

Про эти вопросы написано множество очень интересных книг:

• Нассим Талеб “Чёрный лебедь” (https://www.litres.ru/nassim-nikolas-taleb/chernyy-lebed-pod-znakom-nepredskazuemosti/) — очень популярная книга про всё это. На мой взгляд популярность книги сильно опережает её реальные достоинства (и про это, кстати, во многом и сама книга). Книги по списку ниже намного лучше
 • Леонард Млодинов “(Не)совершенная случайность” (https://www.litres.ru/leonard-mlodinov/ne-sovershennaya-sluchaynost-kak-sluchay-upravlyaet-nashey-zhiznu-2/) — вот это просто must read. Примерно в тысячу раз лучше книги Талеба и в тысячу же раз более содержательная (на каждой странице книги Млодинова полезной информации примерно столько же, сколько во всей книге Талеба)
 • Даниель Канеман “Думай медленно… Решай быстро” (https://www.litres.ru/daniel-kaneman/dumay-medlenno-reshay-bystro-2/) — здесь скорее про психологию, чем собственно про теорию вероятностей и ещё про то, как наше подсознание манипулирует нашим сознанием. Безумно интересно!
 • Алекс Беллос “Красота в квадрате. Как цифры отражают жизнь и жизнь отражает цифры” (https://www.litres.ru/aleks-bellos/krasota-v-kvadrate-kak-cifry-otrazhaut-zhizn-i-zhizn-otrazhaet-cifry/) — очень интересная книга про историю математики и про её влияние на нашу жизнь. Если вы считаете себя гуманитарием и считаете математику скучной — прочитайте эту книгу.

Зачем всё это читать и вообще знать? Помимо того, чтобы выигрывать споры про дни рождений? Чтобы понимать, как работает наш мозг, как мы принимаем решения. Зная, как что-то работает, можно этим попробовать управлять. Не зная — ничего не получится. Простой пример: я когда-то читал, что у спортсменов-стрелков сложным является не попадание в цель, они это делают прекрасно. Самым сложным является попадание в цель 100 раз подряд (как на соревнованиях). Точнее даже не попадание сто раз подряд, а психологическое давление, что попасть 100 раз подряд — гораздо сложнее, чем попасть 1 раз. На самом деле нет (см. подбрасывание монетки выше), но мы думаем, что сложнее и, как следствие, сбиваемся.

Статистика

Выше мы поговорили про теорию вероятностей. Связанная с ней область математики — статистика, таит ещё больше опасностей. Все любят цитировать Марка Твена:

— Существуют три вида лжи: ложь, наглая ложь и статистика.

На самом деле, статистика, как и любая наука, не может врать. Но вот интерпретировать её слова надо с умом.

Например, очень часто при рассмотрении результатов разных опросов забывают про доверительный интервал. Упрощённо он задаёт точность статистического исследования. Например, измерив рост 100 человек из миллиона можно предположить, что у 50% (плюс-минус 5 процентных пункта) рост оказывается выше 170 см. Вот эти “плюс-минус пять процентных пункта” и задают доверительный интервал.

Если такое измерение роста провести два раза подряд, с интервалом в один год, то может оказаться, что первый раз рост больше 170 см. оказался у 47% “опрошенных”, а второй раз — у 54%. Значит ли это, что за год средний рост населения вырос? Ответ — нет. Потому, что и 47% и 54% попадают в доверительный интервал плюс-минус 5%. Если мы хотим уменьшить доверительный интервал, то нужно увеличивать размер выборки и измерять не 100 человек, а 1000.

Про доверительный интервал часто забывают, особенно когда измеряют популярность политиков, или сравнивают данные экзит-поллов с подсчётами голосов и на основании этого сразу же начинают подозревать махинации.

Ещё одним примером пагубного влияния интуиции при оценке статистических измерений является перевешивание субъективной важности единичного примера над результатами статистических измерений. Особенно это часто бывает с любителями гомеопатии, которые в ответ на любые аргументы про неотличимость эффекта гомеопатии от эффекта плацебо утверждают в ответ “но мне-то помогло!” Про это хорошо было сказано в книге Питера Тиля “От 0 к 1”:

Статистика не работает, когда размер выборки — 1

Зависимость и корреляция

Есть ещё одна типичная ошибка, которую совершают люди, анализируя статистические данные. Часто корреляцию принимают за зависимость. Проще всего это выражается в известной шутке:

90% людей за неделю до смерти ели огурцы. Надо запретить огурцы!

Или ещё похожая:

95% аварий совершают трезвые водители. Надо запретить ездить трезвым!

На самом деле всё гораздо сложнее. И если две какие-то величины коррелируют друг с другом (то есть демонстрируют похожие зависимости), то это не обязательно означает, что одна величина зависит от другой или является её причиной. Это может означать, что обе величины зависят от третьей. А ещё это может быть следствием простой случайности.

Есть очень забавный сайт (http://tylervigen.com/spurious-correlations), содержащий большое количество графиков, показывающих, как часто абсолютно несвязанные друг с другом данные ведут себя очень похожим образом и демонстрируют очень высокую корреляцию. Например:
 • Количество суицидов через повешение в Америке один в один совпадает с изменением ассигнований на науку. Чем больше тратим на науку, тем больше люди лезут в петлю?
 • А количество утонувших в бассейнах в год сильно коррелирует с количеством фильмов, в которых снялся Николас Кейдж. Что?!
 • Частота разводов в штате Мэн год к году совпадает с потреблением маргарина на душу населения. Здесь хотя бы логика есть: чем меньше жёны кормят мужей этой гадостью, тем меньше те хотят разводиться.
И там много такого, рекомендую ознакомиться.

Почему всё это важно?

На оценке рисков построена вся экономика. И очень часто оплата зависит именно от того, кто и какой риск на себя берёт. Простой пример, на примере денег в банке. Вы кладёте деньги в банк. 
 • Если вы хотите иметь возможность снять деньги в любой момент (и перекладываете на банк риск быть готовым эти деньги предоставить в любой момент), то вы выбираете просто текущий счёт и минимальные проценты.
 • Если вы готовы взять на себя некоторый риск и обязательство не требовать деньги раньше какого-то срока, то вы выбираете депозит и банк готов вам платить больший процент. При этом банк берёт на себя риск заработать этот фиксированный процент.
 • Наконец, если вы готовы поделиться с банком в том числе и риском вложения денег в правильные активы, то вы можете выбрать не депозит, а вложение денег в индексный фонд, где процент сильно выше, но он не гарантирован.

Аналогичная ситуация с разработкой программного обеспечения на заказ. Поставщик может взять на себя риск сделать нужную функциональность за обещанное время и получить теоретически более выгодный, но более рискованный фиксированный контракт. Либо может поделиться этим риском с заказчиком, заключив контракт time and material, но за это пожертвовать маржой.
Примеры можно приводить долго. Любой бизнес — это оценка рисков. И от правильной оценки рисков зависит успех. Именно поэтому теория вероятностей, как наука, позволяющая оценить риски в будущем, и статистика, помогающая посчитать эти риски в прошлом, очень важны.

Ошибки первого и второго рода

При оценке рисков есть два взаимоисключающих вида ошибок:
 1. Риск случился, а мы к нему оказались не готовы.
 2. Мы готовились к риску, а он не случился. Готовились зря.

Давайте рассмотрим это на примере автомобильной страховки. Каждый водитель постоянно задумывается: а стоит или не стоит покупать страховку КАСКО на свой автомобиль. И как раз оценивает, выгодно ли страховать машину или нет? Застрахуешь, заплатишь кучу денег страховой премии, а с машиной ничего не случится — ошибка второго рода. И наоборот, пожалеешь денег, сэкономишь на страховке, а потом на машину сосулька упадёт и за ремонт заплатишь в три раза дороже, чем стоит страховка.

Это простой пример, в нём всё более менее очевидно. Нужно просто сравнить две величины:
 1. Стоимость ремонта машины, умноженную на вероятность ремонта
 2. Стоимость страховки, умноженную на вероятность отсутствия необходимости ремонта (то есть 1 минус вероятность ремонта)

В жизни часто бывает не так прозрачно и об этом часто забывают, вкладываясь очень сильно в защиту от маловероятных событий, забывая, что ненужные затраты — это тоже риск.

Выводы

Теория вероятностей и статистика — очень интересные области знания. В них очень часто наша интуиция нам подсказывает неправильные ответы. Это стоит иметь в виду и не поддаваться обману. Особенно это опасно, если случайные события влияют на управленческие решения. Например, успех может быть не только и не столько следствием умений, знаний и даже тяжёлого труда, а ещё и просто улыбкой фортуны. Как и неудача может быть следствием случайности.

В статистике для повышения точности измерений можно потратиться так сильно, что это сведёт на ноль любой возможный эффект. Об этом тоже стоит помнить.

Но основная идея этой заметки не в этом. А в том, что математика — это совсем не скучно и очень интересно. Как сказано в одной цитате, приписываемой Дэвиду Гильберту:

Раньше он изучал математику, но потом стал поэтом. Для математики ему не хватало фантазии.

P.S.: На картинке к заметке — казино в немецком Висбадене, где Фёдор Михайлович Достоевский проиграл все свои деньги и деньги своей невесты. Чтобы потом написать “Игрока”, цитата из которого стала эпиграфом.

P.P.S.: Буду рад услышать мнение читателей о новом жанре в заметках. Пишу я конечно для себя, но тщеславие никто не отменял!

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.