Независимость событий

Все курсы > Байесовская статистика > Занятие 1

На занятиях вводного курса мы сказали, что статистика делится на описательную статистику и статистический вывод.

Статистика вывода (statistical inference) стремится сделать обоснованное предположение о параметрах генеральной совокупности на основе ограниченного набора данных (выборки).

Байесовская статистика (Bayesian inference), как один из подходов статистики вывода, использует формулу или теорему Томаса Байеса для того, чтобы уточнить изначальное представление о неизвестном параметре.

Как именно это происходит, нам и предстоит выяснить на занятиях этого курса.

Независимые события

Совместная вероятность

Найдем вероятность одновременного наступления двух независимых событий $A$ и $B$.

Также говорят про вероятность пересечения (intersection) событий или совместную вероятность (joint probability) и обозначают $P(A \cap B)$ или $P(A, B)$.

Предположим, что события $A$ и $B$ означают выпадение решки (Head, H) при двухкратном подбрасывании симметричной монеты (монета одна и та же, события независимы, вероятность решки или орла равна $0{,}5$).

Интуитивное объяснение

Интуитивно речь идет об отношении количества благоприятствующих событию $A \cap B$ исходов (такой исход один) к количеству всех возможных исходов (их четыре).

совместная вероятность независимых событий

Теорема умножения вероятностей

С другой стороны (и здесь нельзя не вспомнить правило умножения в комбинаторике), если событию $A$ благоприятстувуют один из двух исходов и событию $B$ также благоприятствуют один из двух исходов, то событиям $A$ и $B$, то есть $A \cap B$, благоприятствуют один из четырех исходов.

$$ \frac{1}{2} \cdot \frac{1}{2} = \frac{1}{4} $$

С точки зрения вероятности этих событий можно записать, что

$$ P(H_1 \cap H_2) = P(H_1) \cdot P(H_2) = 0{,}5 \cdot 0{,}5 = 0{,}25 $$

Таким образом, общая формула для совместной вероятности назависимых событий выглядит так

$$ P(A \cap B) = P(A) \cdot P(B) $$

Эту формулу также называют теоремой умножения вероятностей (probability multiplication rule).

Биномиальное распределение

Случайную величину такого испытания можно также описать с помощью биномиального распределения, в котором $n = 2$, $p=q=0{,}5$, а событие $A \cap B$ означает, что случайная величина $X$ дважды примет значение решки, то есть $X = 2$.

Тогда по формуле бинома Ньютона

$$ {2 \choose 0} p^{2-0} q^0 + {2 \choose 1} p^{2-1} q^{1} + {2 \choose 2} p^{2-2} q^{2} = $$

$$ {2 \choose 0} 0{,}5^{2} \cdot 0{,}5^0 + {2 \choose 1} 0{,}5^{1} \cdot 0{,}5^{1} + {2 \choose 2} 0{,}5^{0} \cdot 0{,}5^{2} = $$

$$ 1 \cdot 0{,}25 + 2 \cdot 0{,}25 + 1 \cdot 0{,}25 = 0{,}25 + 0{,}5 + 0{,}25 = 1 $$

Первый член бинома как раз соответствует вероятности выпадения двух решек. Приведем график и таблицу распределения.

биномиальное распределение с одинаковыми вероятностями

Разные вероятности

Теперь дополним картину разной вероятностью выпадения решки и орла. Например, $0{,}4$ и $0{,}6$. По формуле совместной вероятности найдем, что

$$ P(H_1 \cap H_2) = P(H_1) \cdot P(H_2) = 0{,}4 \cdot 0{,}6 = 0{,}16 $$

биномиальное распределение с разными вероятностями

По формуле бинома:

$$ {2 \choose 0} 0{,}4^{2} \cdot 0{,}6^0 + {2 \choose 1} 0{,}4^{1} \cdot 0{,}6^{1} + {2 \choose 2} 0{,}4^{0} \cdot 0{,}6^{2} = $$

$$ 1 \cdot 0{,}16 + 2 \cdot 0{,}4 \cdot 0{,}6 + 1 \cdot 0{,}36 = 0{,}16 + 0{,}48 + 0{,}36 = 1 $$

Изменим условия испытаний.

Зависимые события

Одинаковые вероятности

Рассмотрим подбрасывание двух разных монет с вероятностью выпадения решки на каждой из них равной $0{,}5$.

зависимые события с одинаковыми вероятностями

На этот раз предположим, что эти события зависимы. Другими словами, вообразим, что исход подбрасывания второй монеты зависит от исхода подбрасывания первой.

Примерами зависимых событий в реальной жизни будут вероятность получения штрафа в зависимости от стиля езды или получения хорошей оценки на экзамене в зависимости от уровня подготовки.

Для наглядности представим, что мы сделали двадцать серий из двух бросков каждой монеты и записали результаты в таблицу сопряженности (contingency table) как в виде абсолютных значений, так и в виде вероятностей.

таблица сопряженности зависимых событий с одинаковыми вероятностями

В таблице хорошо видно, что для каждой из монет M1 и M2 мы получили по 10 решек и орлов. Это так называемые маргинальные частоты или вероятности (marginal probabilities) поскольку они находятся «на полях» (от англ. margin) таблицы, а не в ее центре. Поясним, что

  • маргинальные частоты по строке показывают результат подбрасывания первой монеты M1;
  • маргинальные частоты по столбцу показывают результа подбрасывания M2.

Так как выпавшие на первой монете M1 10 решек также распределяются поровну при подбрасывании второй монеты, то совместная вероятность $P(A \cap B)$ будет также равна

$$ P(A \cap B) = \frac{10}{20} \cdot \frac{5}{10} = \frac{1}{2} \cdot \frac{1}{2} = \frac{1}{4} = 0{,}25 $$

что соответствует правилу перемножения вероятностей $ P(A \cap B) = 0{,}5 \cdot 0{,}5 = 0{,}25 $.

Условная вероятность

Однако можно сказать, что мы считали выпадения решки на второй монете ($H_2$) при условии выпадения решки на первой ($H_1$). Такая вероятность называется условной (conditional) и записывается как $P(H_2 \mid H_1)$. То есть

$$ P(A \cap B) = P(H_1) \cdot P(H_2 \mid H_1) $$

Отсюда несложно вывести общую формулу

$$ P(A \cap B) = P(B \mid A) P(A) $$

Геометрически можно сказать, что из общего числа бросков первой монеты мы взяли только те, при которых выпала решка (их было 10), и внутри этого вероятностного пространства на второй монете решка выпала также в половине случаев (или пять раз).

геометрический смысл условной вероятности (одинаковые вероятности)

Можно представить, что вероятности события $A$ «ограничивают» пространство исходов $\Omega$ (весь квадрат) и вероятности события $B$ «довольствуются» тем, что осталось в каждой из половинок. Мы как бы сокращаем варианты выбора для второй монеты подбрасыванием первой монеты ($\Omega^{\prime}$), а затем берем «половину от половины» ($\Omega^{\prime\prime}$).


Примечание. Для полноты картины также заметим, что если события независимы, то вероятность события $B$ при условии $A$ равна просто вероятности события $B$, $ P(B \mid A) = P(B) $.


Теперь так как у нас две монеты, поэкспериментируем с разными вероятностями выпадения решки или орла на каждой из них.

Разные вероятности

Зададим новые условия:

  • пусть вначале мы подбрасываем монету, которая выпадает решкой с вероятностью $0{,}4$, а орлом соответственно с вероятностью $0{,}6$;
  • после этого мы подбрасываем обычную симметричную монету с вероятностями $0{,}5$.

Поставим задачу найти вероятность того, что на второй монете выпала решка ($H_2$), при условии, что на первой монете выпал орел ($T_1$). Другими словами, найти вероятность $P(T_1 \cap H_2) $ или, если использовать запись условной вероятности, $P(T_1) \cdot P(H_2 \mid T_1) $.

таблица сопряженности зависимых событий с разными вероятностями

Посмотрим, как это отразилось на пространстве исходов.

геометрический смысл условной вероятности (разные вероятности)

Несложно рассчитать, что

$$ P(T_1 \cap H_2) = P(T_1) \cdot P(H_2 \mid T_1) = 0{,}6 \cdot 0{,}5 = 0{,}30 $$

Как мы видим, вероятность уже не равна 0,25, на совместную вероятность двух событий повлияло то, что первая монета несимметрична. Геометрически после выпадения второй монеты мы нашли половину от большей площади пространства исходов $\Omega$.

Пойдем дальше в наших экспериментах и предположим, что

  • на первой монете решка выпадает с вероятностью 0,2, а на второй монете вероятности решки и орла равны 0,8 и 0,2 соответственно; а вот
  • если выпадает орел на первой монете (с вероятностью 0,8), то наоборот, вероятности решки и орла на второй равны 0,2 и 0,8.

Приведем диаграмму.

дерево вероятностей (разные вероятности) 2

Найдем вероятность выпадения двух решек $P(H_1, H_2)$.

$$ P(H_1 \cap H_2) = P(H_1) \cdot P(H_2 \mid H_1) = 0{,}2 \cdot 0{,}8 = 0{,}16 $$

Геометрически:

геометрический смысл условной вероятности (разные вероятности) 2

Интерес здесь представляет тот факт, что хотя вероятность выпадения решки на второй монете очень велика (0,8), такое событие как подбрасывание второй монеты после решки на первой в принципе маловероятно (0,2).

Геометрически, небольшая вероятность выпадения решки при первом подбрасывании существенно ограничивает вероятность выпадения решки при втором и здесь, вне зависимости от величины этой вероятности, пусть даже 0,99, совместная вероятность двух событий будет существенно ограничена.

Пример с медицинскими тестами

Это интересное свойство совместной вероятности зависимых событий часто иллюстрируют с помощью медицинских тестов. Рассмотрим некоторое заболевание (какое именно значения не имеет), для диагностики которого разработан медицинский тест.

Матрица ошибок

Вначале вспомним, что когда мы занимались прогнозированием рака груди на занятии по классификации, то обратили внимание, что алгоритм может делать

  • истинно положительные (TP);
  • истинно отрицательные (TN);
  • ложно положительные (FN); и наконец
  • ложно отрицательные (FP) прогнозы.

Эти результаты мы объединили в матрицу ошибок (confusion matrix).

матрица ошибок

Качество медицинских тестов принято оценивать по двум критериям, которые можно рассчитать с помощью показателей этой матрицы.

Чувствительность теста

Во-первых, чувствительность (sensitivity) теста или доля истинно положительных тестов (true positive rate, $TPR$) определяется способностью выдавать положительный прогноз в случае, когда человек действительно болен. С точки зрения матрицы ошибок речь идет об отношении $TP$ к $TP + FN$.

$$ TPR = \frac{TP}{TP + FN} $$

чувствительность теста (матрица ошибок)

Другими словами, мы сравниваем тех, кто действительно болен и показал истинно положительный тест ($TP$) с суммой этих людей, а также тех, для кого тест показал ложноотрицательный результат ($TP + FN$), поскольку они тоже больны.

Почему это важно? Если этот показатель будет низким, то мы не сможем выявить многих действительно заболевших и не начнем лечение.

Заметим, что если рассматривать матрицу ошибок как таблицу сопряженности, то фактически чувствительность теста, это отношение тех, у кого положительный тест к маргинальной вероятности тех, кто действительно болен.

Таким образом, с точки зрения теории вероятностей чувствительность — это совместная вероятность быть больным (первая монета из примера выше) и одновременно показать + на тесте (вторая монета).

$$ P (\text{чувствительность}) = P (\text{болен} \cap + ) = P (\text{болен}) \cdot P(+ \mid \text{болен}) $$

На диаграмме это выглядит так:

чувствительность теста (дерево вероятностей)

Специфичность теста

Во-вторых, специфичность (specificity) теста или доля истинно отрицательных результатов (true negative rate, $TNR$) — это способность теста показывать отрицательный результат, в случае когда человек действительно здоров.

$$ TNR = \frac{TN}{TN + FP} $$

специфичность теста (матрица ошибок)

Говоря проще, это способность теста не поднимать лишнюю панику. Если у теста низкая специфичность, положительные результаты будут часто получать как больные, так и здоровые люди.

Тогда,

$$ P (\text{специфичность}) = P (\text{не болен} \cap-) = P (\text{не болен}) \cdot P(-\mid \text{не болен}) $$

И,

специфичность теста (дерево вероятностей)

Распространенность заболевания

Наконец, распространенность (prevalence) заболевания определяется, говоря упрощенно, как доля заболевших к численности населения.

Почему это важно в наших расчетах? Распространенность будет играть роль первой монеты. Это вероятность того, что человек болен до сдачи теста. Вторая монета — это тест, вернее его чувствительность и специфичность.

распространенность заболевания (дерево вероятностей)

Вероятность оказаться больным

Рассмотрим конкретный пример. Пусть

  • распространенность заболевания ограничена пятью процентами населения;
  • чувствительность теста составляет 90 процентов;
  • специфичность — 80 процентов.

Найдем вероятность того, что случайный человек, получивший положительный результат теста окажется действительно болен, то есть $P(\text{болен} \mid +)$. Вначале заполним диаграмму полученными вероятностями.

медицинские тесты: конкретный пример

Логично, что для того чтобы найти вероятность быть больным при положительном тесте нужно найти отношение совместной вероятности быть больным и получить положительный тест к вероятности получить положительный тест (ведь положительный тест получают не только больные, но и здоровые люди). Другими словами,

$$ P(\text{болен} \mid +) = \frac{P( \text{болен} \cap + )}{P(+)} $$

Начнем с числителя, его находить мы уже умеем. По сути, речь идет о чувствительности теста.

$$ P( \text{болен} \cap + ) = P (\text{болен}) \cdot P(+ \mid \text{болен}) = 0{,}05 \cdot 0{,}90 $$

Теперь найдем знаменатель или всех тех, кто получил положительный тест. Механически, можно проследить ветви диаграммы

вероятность получить положительный тест (знаменатель)

и перемножить соответствующие вероятности

$$ P(+) = 0{,}05 \cdot 0{,}90 + 0{,}95 \cdot 0{,}20 $$

С точки зрения смысла речь идет о тех

  • кто получил положительный тест и действительно болен, то есть $ P( \text{болен} \cap + ) $ или $P (\text{болен}) \cdot P(+ \mid \text{болен})$; а также о тех
  • кто получил положительный тест и при этом не болен, то есть $P( \text{не болен} \cap + )$ или $P (\text{не болен}) \cdot P(+ \mid \text{не болен})$.

Соберем все это в общую формулу

$$ P(\text{болен} \mid +) = \frac{P( \text{болен} \cap + )}{P(+)} $$

$$ P(\text{болен} \mid +) = \frac{P( \text{болен} \cap + )}{ P( \text{болен} \cap +) + P( \text{не болен} \cap + ) } $$

$$ P(\text{болен} \mid +) = \frac{P (\text{болен}) \cdot P(+ \mid \text{болен}) }{P (\text{болен}) \cdot P(+ \mid \text{болен}) + P(\text{не болен}) \cdot P(+ \mid \text{не болен} )} $$

Для наглядности свяжем термины с вероятностями

связь терминов медицинских тестов с вероятностями

А также

связь терминов медицинских тестов с вероятностями 2

Остается вычислить вероятность

$$ P(\text{болен} \mid +) = \frac{0{,}05 \cdot 0{,}90}{ 0{,}05 \cdot 0{,}90 + 0{,}95 \cdot 0{,}20 } \approx 0{,}19 $$

Мы получили в чем-то парадоксальный результат. При чувствительности теста в 90 процентов, его положительный результат означает, что человек действительно болен лишь с вероятностью около 19 процентов.

Обратимся к квадрату пространства исходов. Вначале найдем числитель.

$$ P (\text{болен}) \cdot P(+ \mid \text{болен}) $$

пространство исходов при медицинских тестах

Теперь знаменатель.

$$ P (\text{болен}) \cdot P(+ \mid \text{болен}) + P(\text{не болен}) \cdot P(+ \mid \text{не болен} ) $$

пространство исходов при медицинских тестах 2

Таким образом, общая геометрия формулы выглядит так.

общая геометрия формулы

Формула полной вероятности

Формула в общем виде

Еще раз рассмотрим знаменатель в формуле выше

$$ P(+) = P( \text{болен} \cap +) + P( \text{не болен} \cap + ) $$

$$ P(+) = P (\text{болен}) \cdot P(+ \mid \text{болен}) + P(\text{не болен}) \cdot P(+ \mid \text{не болен} ) $$

Его принято называть формулой полной вероятности (law of total probability). Выведем общую формулу. Назовем

  • возможность заболеть событием $A$
    • тогда событием $A_1$ будет то, что человек болен; а
    • событием $A_2$ — то, что человек здоров; при этом
  • положительный тест обозначать событием $B$.
формула полной вероятности

Примечание: событие B включает только случаи положительного теста, при этом событие А включает как случаи заболевания $(A_1)$, так и его отсутствия $(A_2).$

В этом случае

$$ P(B) = \sum_n A_n \cap B $$

Или, что то же самое

$$ P(B) = P(A_1) \cdot P(B \mid A_1) + P(A_2) \cdot P(B \mid A_2) $$

$$ P(B) = \sum_n P(A_n) \cdot P(B \mid A_n) $$

Вопрос нотации

Часто недопонимание формул возникает из-за неуточненной нотации. В частности, какое событие считать событием $A$, а какое событием $B$. Если событием $B$ считать факт заболевания, а событием $A$ результат теста, то формула полной вероятности будет выглядеть так

$$ P(A) = \sum_n A \cap B_n $$

$$ P(A) = \sum_n P(A \mid B_n) \cdot P(B_n)$$

Кроме того, обратите внимание, что во второй формуле мы поменяли множители местами. От этого результат никак не изменится.

Потребность в знаменателе

В примере с медицинскими тестами нас интересовала вероятность того, что человек болен, при условии положительного теста $P (\text{болен}) \cdot P(+ \mid \text{болен})$. Знаменатель нормализовывал это значение включая все те случаи, когда как больные, так и здоровые люди получали положительный результат $ P(+)$.

Если бы мы хотели сравнить вероятность, что человек болен при условии положительного теста, с вероятностью того, что он не болен при условии также положительного теста, то формулы в развернутом виде выглядели бы так

$$ P(\text{болен} \mid +) = \frac{P (\text{болен}) \cdot P(+ \mid \text{болен}) }{P (\text{болен}) \cdot P(+ \mid \text{болен}) + P(\text{не болен}) \cdot P(+ \mid \text{не болен} )} $$

$$ P(\text{не болен} \mid +) = \frac{P (\text{не болен}) \cdot P(+ \mid \text{не болен}) }{P (\text{болен}) \cdot P(+ \mid \text{болен}) + P(\text{не болен}) \cdot P(+ \mid \text{не болен} )} $$

В обоих случаях знаменатель был бы одинаковый, $P(+)$, или как еще говорят, играл бы роль нормализующей константы, $const$, а значит он никак не повлиял бы на сравнение.

Вначале вычислим вероятности с учетом знаменателя

$$ P(\text{болен} \mid +) = \frac{0{,}05 \cdot 0{,}90}{ 0{,}05 \cdot 0{,}90 + 0{,}95 \cdot 0{,}20 } \approx 0{,}19 $$

$$ P(\text{не болен} \mid +) = \frac{0{,}95 \cdot 0{,}20}{ 0{,}05 \cdot 0{,}90 + 0{,}95 \cdot 0{,}20 } \approx 0{,}81 $$

Теперь сравним только числители, которые будут пропорциональны ($\propto$) этим вероятностям

$$ P(\text{болен} \mid +) \propto 0{,}05 \cdot 0{,}90 = 0{,}045 $$

$$ P(\text{не болен} \mid +) \propto 0{,}95 \cdot 0{,}20 = 0{,}19 $$

В некоторых ситуациях, как мы увидим позднее, от вычисления знаменателя (формулы полной вероятности) бывает удобно отказаться.

Подведем итог

В первой части занятия была рассмотрена совместная вероятность независимых и зависимых событий, а также то, как совместная вероятность двух зависимых событий связана с условной вероятностью.

На примере двух зависимых событий, распространенности заболевания и медицинского теста для ее определения, мы показали, как рассчитать вероятность того, что человек болен при условии положительного результата анализов.

Все сказанное выше удобно выразить с помощью формулы Байеса. Об этом и пойдет речь на втором занятии.