Статистика — это грамматика науки о данных. Часть 5

Margarita M

Published in

NOP::Nuances of Programming

5 min readApr 13, 2019

Повторение статистики для начала путешествия по науке о данных

Предыдущие части: Часть 1, Часть 2, Часть 3, Часть 4

Условная вероятность

Условная вероятность — это вероятность наступления некоторого события, при условии, что другое событие уже произошло.

Условная вероятность обозначается через P(A|B), которое читается как «вероятность А при условии В». Она вычисляется по формуле:

A ∩ B — это пересечение событий А и В на диаграмме Венна. Таким образом, P(A∩B) — это вероятность того, что оба события — А и В — произойдут.
Следовательно:

Вероятность события А при условии В равно вероятности событий А и В, деленной на вероятность В.

Диаграмма Венна: вероятность событий А и В.

Пример:

Предположим, из мешка достают три шарика: красный, зеленый и синий.

Какова условная вероятность того, что после красного шарика из мешка достанут синий?

Если событие А — это событие, при котором первым достают красный шарик, а событие В — это событие, при котором достают синий шарик, то нам нужно найти P(A∩B):

P(A) — это вероятность того, что в первую очередь достанут красный шарик. Так как это один из трех возможных результатов, то далее мы имеем:

P(A) = 1/3 = 33.33%

P(B|A) — это вероятность того, что вторым достанут синий шарик. Так как у нас останется два шарика, то получается:

P(B) = 1/2 = 50%

P(A ∩ B) — это вероятность того, что первым достанут красный шарик, а вторым — синий:

P(A ∩ B) = P(A) * P(B|A) = 33.33% * 50% = 16.66%

Для визуализации воспользуемся древовидной диаграммой: у каждой ветки есть условная вероятность

Древовидная диаграмма для мешка с шариками

Причинно-следственная связь

Причинно-следственная связь описывается в четвертой части. Условная вероятность не указывает на то, что между данными двумя события обязательно существует причинно-следственная связь, а также на то, что два события произойдут одновременно.

Независимые события

Независимыми называются такие события, исход которых не влияет на вероятность исхода другого события. Следовательно:

P(A|B) = P(A)
P(B|A) = P(B)

Взаимоисключающие события

Взаимоисключающими называются такие события, которые не могут произойти одновременно, т.е. если одно событие уже произошло, то другое произойти не может. Следовательно:

P(A|B) = 0
P(B|A) = 0

Теорема Байеса

После условной вероятности, давайте рассмотрим теорему Байеса. Она гласит:

Вероятность события А при условии В равна вероятности события В при условии А, умноженной на вероятность события А и деленной на вероятность В.

Другими словами, она позволяет удобно найти зависимость P(A|B) и P(B|A) друг от друга.

Теорема Байеса является фундаментом целого направления в статистике («Байесовская статистика»). Она применяется во многих дисциплинах, например, ярким примером служит медицинская и фармакологическая сферы, а также финансовая (для прогноза вероятности успеха каких-либо вложений).

Количество почти так же важно, как и качество, при применении этих условных переменных к теореме Байеса. Например, необходимо просчитать риск кредитования заемщика. Если учесть другие вероятности, такие как возраст заемщика, его кредитоспособность и готовность к принятию риска, то возможность получения кредита для разных лиц может отличаться.

Теорема допускает следующее:

Чем больше переменных учитывается и чем больше в нас уверенности в переменных, тем точнее будет вывод при использовании условных вероятностей.

Пример:

Представим, что мы врачи некоторой больницы и мы знаем следующее: — вероятность того, что у пациента заболевание печени, равна 20%; — вероятность того, что пациент болен алкоголизмом — 5%; вероятность того, что среди тех пациентов, у которых диагностировали заболевание печени, есть больные алкоголизмом — 10%. Теперь найдем:

Какова условная вероятность того, что пациент с заболеванием печени — болен алкоголизмом?

P(A) — вероятность наличия заболевания печени:

P(A) = 20%

P(B) — вероятность того, что пациент болен алкоголизмом:

P(B) = 5%

P(B|A) — условная вероятность того, что пациент болен алкоголизмом при условии заболевания печени:

P(B|A) = 10%

P(A|B) — это условная вероятность того, что у пациента заболевание печени при условии, что он болен алкоголизмом:

P(A|B) = (10% * 20%) / 5% = 40%

Взаимоисключающие события

Частным случаем теоремы Байеса является то, когда событие А — это двоичное значение. В таком случае «А-» обозначает то, что событие А произошло, и «А+» — не произошло (т.е. события А- и А+ являются взаимоисключающими)
Формула:

Формула Байеса для взаимоисключающих событий А- и А+

Точность

Истинно положительный случай — это результат, при котором модель правильно прогнозирует положительный класс. Так же истинно отрицательный случай — это результат, при котором модель правильно прогнозирует отрицательный класс.

Ложноположительный случай — это результат, при котором модель неправильно прогнозирует положительный класс. Так же ложноотрицательный случай — это результат, при котором модель неправильно прогнозирует отрицательный класс.

Чувствительность показывает вероятность того, что тест правильно спрогнозирует положительный класс → истинно положительные случаи.

Специфичность показывает вероятность того, что тест правильно спрогнозирует отрицательный класс → истинно отрицательные случаи.

Чувствительность = истинно положительные случаи / (истинно положительные + ложнооттрицательные) 
Специфичность = истинно отрицательные случаи / (истинно отрицательные + ложноположительные)

Пример:

Предположим, что определенное заболевание имеет коэффициент заболевания 2%. Если ложноотрицательный коэффициент равен 10%, а ложноположительный — 1%, то:

Какова условная вероятность того, что человек с положительным результатом теста на самом деле болен?

Если событие А — это событие, при котором человек болен, а событие В — это событие, при котором результаты теста положительны, то необходимо вычислить P(A|B), т.е. несмотря на положительный результат теста (В), человек окажется болен (А).

P(A+) или P(A) — это вероятность наличия заболевания:

P(A+) = 2%

P(A–) — это вероятность отсутствия заболевания, которая высчитывается следующим образом:

P(A-) = 100% - 2% = 98%

P(B|A–) — это вероятность ложноположительного случая, т.е. человек здоров (А-), но результат теста положительный (В):

P(B|A-) = 1%

P(B–|A) — это вероятность ложноотрицательного случая, т.е. человек болен (А), но результат теста отрицательный (В-):

P(B-|A) = 10%

P(B|A+) или P(B|A) — это истинно положительный случай, т.е. человек болен (А) и результат теста положительный (В). Высчитывается это следующим образом:

P(B|A) = 100% - 10% = 90%

Теперь у нас есть вся необходимая информация, чтобы найти P(A|B):

P(A|B) = [ P(B|A) x P(A) ] / [ P(B|A-) x P(A-) + P(B|A+) x P(A+) ]
       = [ 90% x 2% ] / [ 1% x 98% + 90% x 2% ] =
       = 64.7%

Для визуализации точности теста можно использовать матрицу:

И древовидную диаграмму:

Конец

Перевод статьи Semi Koen: Statistics is the Grammar of Data Science — Part 5/5

Статистика — это грамматика науки о данных. Часть 5

Условная вероятность

Пример:

Причинно-следственная связь

Независимые события

Взаимоисключающие события

Теорема Байеса

Пример:

Взаимоисключающие события

Точность

Пример:

Конец

Written by Margarita M