Оценка распределения

Все курсы > Байесовская статистика > Занятие 4

На предыдущих занятиях мы, как в теории, так и на практике познакомились с формулой Байеса и научились находить апостериорную вероятность гипотез с учетом полученных данных.

Теперь давайте исследуем что будет, если формулировать больше гипотез или значений $\theta$ (например, увеличивать количество игральных костей) и одновременно собирать больше данных (то есть увеличивать количество бросков).

Для удобства изменим фабулу задачи и предположим, что перед нами не кости, а мешки, из которых мы достаем шары двух цветов, белого и черного.

Пять мешков

Начнем с пяти мешков. Зададим априорную вероятность. Она для всех мешков одинаковая и равна $\frac{1}{5}$;

Откроем ноутбук к занятию

Пусть правдоподобие появления белого шара равномерно увеличивается от нуля для первого мешка до единицы для пятого.

Заметим при этом, что правдоподобие появления черного шара будет в каждом случае равно ($1-$правдоподобие появления белого шара).

Поставим задачу найти апостериорную вероятность появления одного белого шара из каждого из пяти мешков.

пять мешков и один белый шар, общая схема

Один белый шар

Апостериорную вероятность для относительно большого количества мешков удобно найти с помощью таблицы. Создадим таблицу и найдем числитель формулы Байеса.

пять мешков и один белый шар, числитель

Найдем знаменатель, то есть вероятность данных. Для этого просуммируем все возможные совместные вероятности нашего априорного знания о мешках и правдоподобия соответствующего мешка.

Найдем апостериорную вероятность.

пять мешков и один белый шар, апостериорная вероятность

Обратим внимание, что сумма апостериорных вероятностей (как и априорных) всегда равна единице.

При этом сумма правдоподобий единице равна быть не должна. О том, почему это так, мы поговорим чуть позже.

Посмотрим на апостериорную вероятность на графике.

пять мешков и один белый шар, апостериорная вероятность на графике

Разумеется, при наибольшем правдоподобии мешка B5 и одинаковой априорной вероятности именно этот мешок показывает максимальную апостериорную оценку.

Два белых шара

По аналогичной схеме найдем апостериорную вероятность появления двух белых шаров.

пять мешков и два белых шара, апостериорная вероятность
пять мешков и два белых шара, апостериорная вероятность на графике

После появления двух белых шаров мы только укрепляемся во мнении, что речь идет о мешке B5.

Два белых и один черный шар

Теперь достанем черный шар.

пять мешков, два белых и один черный шар, апостериорная вероятность

Посмотрим на результат на графике.

пять мешков, два белых и один черный шар, апостериорная вероятность на графике

Такой результат также вполне ожидаем. В мешках B1 и B5 согласно их правдоподобию могут появляться только черный (в B1 правдоподобие белого равно нулю) или только белый (в B5 правдоподобие белого равно единице) шары. Последовательность «белый-белый-черный» из этих мешков достать никак не получится.

При этом так как белых шаров больше, чем черных, и наибольшее правдоподобие белого шара из оставшихся вариантов у мешка B4, то именно этот мешок получает наибольшую апостериорную оценку.

Биномиальное распределение

Вспомним, что правдоподобие в данном случае следует биномиальному распределению.

Снова найдем апостериорную вероятность двух белых и одного черного шара.

пять мешков, два белых и один черный шар, биномиальное распределение

Мы видим, что апостериорные вероятности совпадают, а вот правдоподобие и, как следствие, весь числитель — нет. Почему так получается?

Вначале посмотрим, на биномиальное распределение для, например, мешка B2.

биномиальная функция правдоподобия одного мешка

Сравнив столбцы likelihood рассчитанной «вручную» апостериорной вероятности, и вероятности, рассчитанной с помощью метода binom.pmf(), мы легко убедимся, что они отличаются ровно в три раза, то есть на размер биномиального коэффициента ${3 \choose 2} = 3$.

правдоподобие с биномиальным коэффициентом и без

Позднее же, так как биномиальный коэффициент находится в каждом слагаемом знаменателя, его можно сократить с коэффициентом, находящимся в числителе и получить точно такую же апостериорную вероятность, как если бы этот коэффициент не использовался в принципе.

$$ P(B_2 \mid wwb) = \frac{ P(wwb \mid B_2) \cdot P(B_2) }{P(wwb)} = $$

$$ \frac{ P(wwb \mid B_2) \cdot P(B_2) }{\sum^{n=5}_{i=1} P(wwb \mid B_n) \cdot P(B_n) } = $$

$$ \frac{ {3 \choose 2} \cdot 0{,}25^2 \cdot 0{,}75^1 \cdot 0{,}20 }{ {3 \choose 2} (0^2 \cdot 1^1 + 0{,}25^2 \cdot 0{,}75^1 + 0{,}5^2 \cdot 0{,}5^1 + 0{,}75^2 \cdot 0{,}25^1 + 1^2 \cdot 0^1) \cdot 0{,}20 }$$

Таким образом,

$$ P(B_2 \mid wwb) = \frac{ {3 \choose 2} \cdot 0{,}009375 }{ {3 \choose 2} \cdot 0{,}0625 } = 0{,}15 $$

Что это нам дает? Мы знаем, что для правдоподобия не обязательно использовать биномиальные коэффициенты и можно ограничиться формулой

$$ P( n,k \mid \theta ) = \theta^k \cdot (1-\theta)^{n-k} $$

Запомним этот факт. На следующем занятии он нам пригодится.

Правдоподобие и вероятность

До сих пор мы отождествляли вероятность и правдоподобие. Однако это не совсем одно и то же. В частности, выше мы сказали, что сумма правдоподобий не равна единице, а с вероятностью так быть не может.

Правдоподобие «привязано» к гипотезам

Дело в том, что правдоподобие «привязано» к гипотезам или параметрам $\theta$ и может быть любым, оно не отражает вероятность этой гипотезы относительно других гипотез. Лишь индивидуальное правдоподобие конкретной гипотезы.

Например, ранее мы сказали, что для гипотезы «человек болен», правдоподобие положительного теста составляет 90 процентов, и это значение никак не зависит от другой гипотезы, что «человек здоров».

Аналогичным образом, правдоподобие выпадения двойки на игральной кости зависит исключительно от типа конкретной кости и никак не зависит от других костей.

Функция правдоподобия

На это различие можно взглянуть и так. Когда мы изучаем вероятность случайной величины в, например, биномиальном процессе, то заранее знаем (как бы «фиксируем») параметр $p$ и смотрим, как будет варьироваться вероятность в зависимости от количества испытаний $n$ и количества успехов $k$. Именно поэтому мы говорим про функцию вероятности (pmf).

Другими словами решаем задачу относительно $n$ и $k$.

$$ P(X = k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k} $$

В случае правдоподобия, мы «фиксируем» $n$ и $k$ и смотрим, чему может быть равно распределение при различных значениях $p$ (или в нотации формулы Байеса при различных $\theta$).

$$ \mathcal{L} ( n,k \mid \theta ) = {n \choose k} \cdot \theta^k \cdot (1-\theta)^{n-k} $$

И в этом случае говорят про функцию правдоподобия (likelihood function) $\mathcal{L}$.

Отношение правдоподобия

Еще раз отметим, что правдоподобие само по себе (без учета априорной вероятности и без учета нормализации) не несет информации о вероятности гипотезы, поскольку не учитывает другие гипотезы и их правдоподобие.

При этом отношение правдоподобия

$$ \Lambda_{X \mid \theta_1} = \frac{ \mathcal{L} (X \mid \theta_1) }{ \mathcal{L} (X \mid \theta_2) } $$

интерпретировать безусловно можно. Это коэффициент Байеса, который сравнивает правдоподобие двух гипотез.

$$ \underbrace{ \frac{ P(\theta_1 \mid X) }{ P(\theta_2 \mid X) } }_{ \text{posterior odds} } = \underbrace{\frac{P(\theta_1)}{P(\theta_2)}}_{\text{prior odds}} \cdot \underbrace{\frac{\mathcal{L}(X \mid \theta_1)}{\mathcal{L}(X \mid \theta_2)}}_{\text{Bayes factor}}, $$

100 мешков

Вернемся к задаче с мешками и шарами. В целом мы уже видим, что у нас начинает получаться построить полноценное апостериорное распределение параметра $\theta$ и сказать, какие гипотезы являются вероятными, а какие не очень.

Например, мы видим, что с вероятностью 85% два белых и один черный шар появились из мешков три или четыре.

$$ P( \theta_3 \cup \theta_4 \mid X ) = 0{,}40 + 0{,}45 = 0{,}85 $$

При этом конечно хотелось бы (1) оценить распределение с бо́льшим количеством гипотез и (2) задать неодинаковую априорную вероятность.

Напишем функции, которые будут сразу создавать таблицу с априорными и апостериорными вероятностями, а также соответствующие графики.

С увеличением количества мешков будет удобно строить линейные графики, а не столбчатые диаграммы.

Один белый шар

Найдем вероятность достать один белый шар из ста мешков.

100 мешков, один белый шар

Построим график.

100 мешков, один белый шар, априорное и апостериорное распределения

Все логично. Так как априорное распределение равномерно, апостериорное распределение при появлении белого шара «подстроилось» под правдоподобие. В первом мешке, оно равно нулю, в сотом — максимально.

Площадь под линиями (то есть сумма вероятностей) как в случае априорного, так и в случае апостериорного распределения равны единице.

Два белых шара

Попробуем достать два белых шара.

Построим график. При этом априорной вероятностью будет апостериорная вероятность предыдущего испытания, то есть вероятность появления одного белого шара.

100 мешков, два белых шара, априорное и апостериорное распределения

Апостериорные вероятности стали «тяготеть» к мешкам со старшими индексами.

Два белых и один черный шар

Достанем два белых и один черный шар.

100 мешков, два белых и один черный шар, априорное и апостериорное распределения

На графике выше видно, что с учетом новых данных 100-й мешок также невозможен, для него правдоподобие белого шара равно единице, а мы только что достали черный шар.

Оценим апостериорный максимум и максимальное правдоподобие с помощью метода .idxmax(), который выведет индекс мешка с максимальным значением.

Как мы уже говорили, эти оценки совпадают, так как априорное распределение равномерно. При этом численно они разумеется не одинаковы.

MLE- и MAP-оценки

Максимальное правдоподобие биномиального распределения

Полученную MLE-оценку можно выразить как отношение к количеству гипотез, т.е. $67/100 = 0{,}67$ и это как раз то значение $p$ или $\theta$, относительно которого мы находим максимум функции правдоподобия (при фиксированных данных, то есть $n$ и $k$).

$$ \theta_{MLE} = \underset{\theta}{\text{argmax }} \mathcal{L} ( n,k \mid \theta ) = $$

$$ {n \choose k} \cdot \theta^k \cdot (1-\theta)^{n-k} = {3 \choose 2} \cdot \theta^2 \cdot (1-\theta)^{3-2} $$

Максимальное правдоподобие биномиальной функции можно найти аналитически.

$$ \theta_{MLE}= \frac{k}{n} = \frac{2}{3} \approx 0{,}67 $$

Приведем несложное доказательство. Возьмем логарифм правдоподобия. Такая функция называется логарифмической функций правдоподобия (log-likelihood, $\mathcal{l}$).

$$ \mathcal{l} (\theta) = \log \left( {n \choose k} \cdot \theta^k \cdot (1-\theta)^{n-k} \right) = $$

$$ \log {n \choose k} + \log \theta^k + \log (1-\theta)^{n-k} = $$

$$ \log {n \choose k} + k \log \theta + (n-k) \log (1-\theta) $$

Найдем производную относительно $\theta$. Вспомним, что первое слагаемое — это константа, а производная натурального логарифма $ (\ln x)’ = \frac{1}{x} $. Тогда

$$ \frac{\partial \mathcal{l} }{\partial \theta} = \frac{k}{\theta}-\frac{n-k}{1-\theta} $$

Теперь приравняем производную к нулю и найдем максимум функции правдоподобия $\hat{ \theta }$ (в данном случае то же самое, что $\theta_{MLE}$).

$$ \frac{\partial \mathcal{l} }{\partial \hat{ \theta }} = 0 $$

$$ \frac{k}{\hat{ \theta }}-\frac{n-k}{1-\hat{ \theta }} = 0 $$

$$ \frac{n-k}{1-\hat{ \theta }} = \frac{k}{\hat{ \theta }} $$

$$ (n-k) \hat{ \theta } = k (1-\hat{ \theta }) $$

$$ n \hat{ \theta } = k $$

$$ \hat{ \theta } = \frac{k}{n} $$

Логарифмическая функция правдоподобия

Почему мы так легко взяли логарифм от функции правдоподобия? Дело в том, что функция логарифма монотонно возрастает.

функция натурального логарифма

Как следствие, наибольшее значение функции правдоподобия $\mathcal{L} ( X \mid \theta ) $ всегда будет одновременно наибольшим значением $\mathcal{l} ( X \mid \theta ) $.

функция правдоподобия и логарифмическая функция правдоподобия

Теперь убедимся в верности приведенной аналитической формулы, достав 7 белых шаров и 3 черных или 7 белых шаров из десяти.

Семь белых шаров из десяти

семь белых шаров из десяти

Ожидаемо, наиболее вероятным будет 70-ый мешок.

Это соответствует аналитической MLE-оценке биномиального распределения

$$ \theta_{MLE} = \frac{k}{n} = \frac{2}{3} = 0{,}7 $$

Другая априорная вероятность

Теперь зададим другую априорную вероятность. Для простоты пусть это будет функция, которая равномерно возрастает до 50-го мешка, а затем также равномерно убывает. Назовем ее треугольником.

Создадим уже знакомую таблицу.

Построим график.

другая априорная вероятность

Сравним априорный максимум, правдоподобие и апостериорный максимум.

Поясним результаты. Изначально мы считали 50-й мешок наиболее вероятным, при этом исходя из данных, наиболее правдоподобными был 70-й мешок. Как следствие, апостериорный максимум сместился в сторону наиболее правдоподобного мешка, однако после появления трех шаров не совпал с ним.

Подведем итог

С начала курса мы прошли путь от оценки двух гипотез (например, факта заболевания человека) к оценке дискретного апостериорного распределения множества параметров при неравномерной априорной вероятности.

На следующем занятии мы посмотрим, как работать с непрерывными распределениями и бесконечным количеством гипотез.