Статистический вывод | Вводный курс ML

Статистический вывод

Все курсы > Вводный курс > Занятие 9

Выборка и генеральная совокупность

До сих пор мы исходили из того, что наши данные, например, о росте тысячи мужчин-респондентов в России полностью отражают реальные показатели роста всех россиян. На самом деле мы не знаем, так это или нет.

Мы сможем об этом говорить только, если получим измерения каждого человека. Эта задача представляется нереализуемой.

Те же, кого нам всё-таки удалось измерить, называются выборкой (sample). А вот все мужчины в России — это генеральная совокупность (population).

статистический вывод: выборка и генеральная совокупность

Существует ли вообще возможность сказать что-либо определенное про генеральную совокупность по ограниченному набору данных?

На самом деле существует. Теоретическое обоснование этой возможности называется Центральной предельной теоремой.

Центральная предельная теорема

Центральная предельная теорема (Central Limit Theorem) гласит, что если мы будем много раз выборочно собирать данные, то среднее средних всех выборок (распределение средних) будет стремится к среднему генеральной совокупности. Рассмотрим этот процесс подробнее.

Для начала возьмем несколько выборок из одной генеральной совокупности и выясним среднее каждой выборки.

статистический вывод: Центральная предельная теорема

Затем посчитаем среднее арифметическое средних этих выборок. Это новое среднее будет стремиться к среднему генеральной совокупности (обозначается греческой буквой $\mu$, «мю»).

выборочное среднее

Этот вывод чрезвычайно важен, потому что мы наконец-то получаем инструменты, позволяющие сказать что-то определенное про величину, которую мы в принципе не можем охватить измерением.

Инструменты статистического вывода

Теперь рассмотрим статистический вывод на практике. Центральная предельная теорема является обоснованием для двух важных инструментов изучения генеральной совокупности.

Вначале откроем ноутбук к этому занятию

1. Доверительный интервал

С одной стороны, даже предполагая, что выборочное среднее стремится к истинному среднему, мы не можем быть на 100 процентов уверены, что знаем этот параметр генеральной совокупности. С другой, теорема позволяет задать доверительный интервал (Confidence Interval) для среднего (и на самом деле любого другого параметра, например, пропорции).

Другими словами, мы можем утверждать, что, например, в 90 процентах случаев, наш доверительный интервал будет включать истинный параметр генеральной совокупности.

статистический вывод: построение доверительного интервала

На графике греческой буквой μ (мю) как раз обозначено среднее генеральной совокупности, которое попадает в наш доверительный интервал только в 9 случаях из 10 (то есть в 90 процентах случаев).

Например, мы можем найти доверительный интервал для среднего роста всех мужчин в России. Сделаем это с помощью Питона.

Теперь импортируем новый для нас модуль stats библиотеки SciPy (Scientific Python) и построим доверительный интервал.

В данном случае мы передаем функции interval три параметра: размер доверительного интервала confidence, среднее выборки mean (используем библиотеку numpy для расчета) и стандартную ошибку среднего (пока отложим объяснение этого параметра).

Вывод:

  • Правильная интерпретация: в 90 процентах случаев наш доверительный интервал будет включать истинное среднее.
  • Неправильная интерпретация: мы можем быть на 90 процентов уверены, что среднее находится в этом интервале.

Уже не так плохо, мы стали хоть что-то знать про реальную картину мира. Но какие еще применения можно найти для Центральной предельной теоремы?

2. Проверка гипотезы

Вторым применением статистического вывода является построение гипотез и их проверка.

Например, мы можем попытаться понять на основе выборки, правда ли, что средний рост всех мужчин в России составляет 182 см (предположим, так утверждает Минздрав).

  • Нулевой (базовой) гипотезой в этом случае будет то, что рост действительно составляет 182 см
  • Альтернативной гипотезой в этом случае будет предположение о том, что рост не равен 182 см

По сути нам нужно ответить на вопрос, какова вероятность получить среднее выборки 180,2 см (мы его рассчитали на прошлом занятии), если истинное среднее генеральной совокупности действительно равно 182 см.

Если вероятность (probability value или p-value) окажется ниже определенного порога, мы отвергнем нашу нулевую гипотезу и скажем, что для альтернативной гипотезы есть основания. Если выше, мы будем считать нулевую гипотезу обоснованной.

Пороговое значение часто выбирают на уровне одного, пяти или десяти процентов.

Проверим наше гипотезу с помощью Питона. Для этого снова воспользуемся библиотекой SciPy.

Результат:

Получилась крошечная вероятность. Около 0,000000009. Она гораздо меньше порога в пять и даже один процент, поэтому мы можем отвергнуть нашу нулевую гипотезу о том, что истинное среднее равно 182 сантиметрам.

Может показаться, что достижения не слишком велики. Мы ведь так и не выяснили, каким является среднее генеральной совокупности. Но взгляните на это иначе. Что если речь идет о невиновности человека или безвредности медицинского препарата? Проверка нулевой гипотезы уже будет иметь важные последствия.

Подведем итог

На сегодняшнем занятии мы узнали,

  1. чем выборка отличается от генеральной совокупности;
  2. что такое Центральная предельная теорема; а также
  3. для чего нужен доверительный интервал и проверка гипотезы.

Вопросы для закрепления

Вы собрали данные по 1000 пациентов для того, чтобы оценить эффективность нового лекарства. Это выборка или генеральная совокупность?

Посмотреть правильный ответ

Какие два инструмента статистического вывода мы изучили?

Посмотреть правильный ответ

Дополнительные упражнения⧉ вы найдете в конце ноутбука.

Итак, мы изучили описательную статистику и познакомились со статистическим выводом. На следующем занятии, вооружившись этими знаниями, мы перейдем к вопросу взаимосвязи переменных и построению первой модели.


Ответы на вопросы

Вопрос. Никак не могу понять разницу между правильной и неправильной интерпретацией:

  • Правильная интерпретация: в 90 процентах случаев наш доверительный интервал будет включать истинное среднее.
  • Неправильная интерпретация: мы можем быть на 90 процентов уверены, что среднее находится в этом интервале.

Буду благодарен, если поясните этот момент.

Ответ. Начну немного издалека. Смотрите, когда мы не можем (но очень хотим) измерить какой-либо истинный параметр генеральной совокупности, то возникает неопределенность.

Для оценки истинного параметра и степени неопределенности можно использовать два подхода:

  • Классический или частотный подход (Frequentist Inference) и
  • Байесовский подход (Bayesian Inference), основанный на теореме Томаса Байеса

На занятии в примере с ростом мужчин в России мы использовали первый, частотный подход. Давайте еще раз повторим его основные тезисы.

Частотный подход

У нас есть генеральная совокупность — все мужчины в России. У этой генеральной совокупности есть неизвестный нам параметр — средний рост (истинное среднее). Провести измерения этого параметра не представляется возможным.

При этом мы можем делать выборки из генеральной совокупности (например, опрашивать людей на улице) и без особых усилий вычислять средний рост внутри каждой выборки (выборочное среднее).

К сожалению, мы не можем быть уверены, что выборочное среднее адекватно отражает истинное среднее. Однако, полагаясь на Центральную предельную теорему, для каждой выборки мы можем построить доверительный интервал (confidence interval), который очень важно правильно интерпретировать.

Предположим, мы провели десять опросов, собрали десять выборок и для каждой выборки мы рассчитали 90-процентные интервалы. У нас получилось десять доверительных интервалов.

Так вот, следуя частотному подходу, девять из этих десяти интервалов будут включать истинное среднее, а один — нет. Приведу картинку с занятия еще раз.

доверительный интервал

Каждая черная горизонтальная черта — это выборка, кружок — выборочное среднее, а вертикальная пунктирная линия — истинное среднее. Третья сверху (и одна из 10) выборка не включает истинное значение генеральной совокупности.

Повторю сделанный вывод, но немного другими словами. Мы по-прежнему ничего не знаем о значении истинного среднего, однако в 90% случаев наш доверительный интервал его «захватит».

Это та самая «правильная» интерпретация, о которой я говорил.

Байесовский подход

Байесовский метод в корне отличается от частотного. В не слишком формальном ключе его можно выразить следующим образом.

У нас есть некоторое изначальное представление о мире и его свойствах. Например, о среднем росте мужчин в России, мы можем достаточно уверенно сказать, что человека с ростом 180 см встретить довольно легко, а человека с ростом 210 см — гораздо сложнее.

Предположим, что 180 см и есть наш изначальный средний рост.

Далее, получая данные (опрашивая людей на улице), мы будем модифицировать наше изначальное представление, исходя из того, кто нам встретится. Если вдруг окажется, что людей с ростом 210 см очень много, мы скорректируем наше изначальное представление о среднем росте в сторону повышения. Например, со 180 до 190 см.

При этом, мы разумеется понимаем, что в таких расчетах также присутствует неопределенность, поэтому мы не будем говорить, что средний рост мужчин в России составляет ровно 190 см. Мы скажем, например, что с вероятностью 90% он находится в диапазоне от 187 до 193 см (цифры, конечно, приведены для примера).

Такой интервал по-английски называется credible interval. По-русски его называют байесовским доверительным интервалом, хотя, наверное, credible можно перевести как достоверный интервал, что лучше отразит его суть.

Это та «неправильная интерпретация», про которую я говорил. Конечно, неправильной я назвал ее только потому, что она относится к байесовскому методу, который на занятии рассмотрен не был.

Еще одна причина, почему я решил заострить на этом внимание, байесовской интерпретацией интервала часто подменяют частотную.

Это связано с тем, что интерпретация байесовского доверительного интервала (credible interval) более интуитивно понятна, здесь мы напрямую делаем предположение о значении истинного параметра.

Интерпретация частотного доверительного интервала (confidence interval) лишь указывает, как часто мы «захватим» истинный параметр, но ничего не говорит о его значении.

Напоследок для порядка введем несколько терминов из байесовской статистики:

  • Изначальное представление правильнее называть априорной вероятностью (prior probability)
  • Способ, с помощью которого мы будем модифицировать наше изначальное представление, основан на формуле Байеса (Bayes’ formula)
  • Средний рост после модификации называют апостериорной вероятностью (posterior probability)

Более подробно эти темы мы изучим на курсе статистики.


Вопрос.

(1) Поясните пожалуйста, как из вот этой цифры 9,035492171563733e-09 получилась вот такая вероятность 0,000000009?

(2) В строчке кода t_statistic, p_value = st.ttest_1samp(height, 182). Что это за переменная t_statistic? Хотелось бы понять откуда она взялась. Я прорешал в Google Colab, t_statistic равен −5,797229652505048. Но что это за цифра и откуда берется абсолютно не ясно.

(3) И еще одно. Загнал данные в словарь, просто посчитать количество разных значений.

Получил, что 182 встречается аж 50 раз, в то время как 180 только 45 раз. Я правильно понял, что чем объем выборки больше, тем пиковые значения в выборке меньше влияют на все средние величины?

Ответ.

1) 9,035492171563733e-09 — это так называемая экспоненциальная запись (scientific notation). С ее помощью удобно записывать очень большие и очень малые числа. Для того чтобы преобразовать экспоненциальную запись в обычную, вы умножаете число до буквы e на 10 в степени числа после буквы e.

В данном случае $9{,}035492171563733 \times 10^{-9}$. Так как число и так чрезвычайно мало, цифры после девяти можно отбросить. Получается 0,000000009.

2) Про t-statistic я планировал подробно рассказать на курсе по статистике вывода, так как тема довольно обширная, но попробую в общих чертах объяснить суть этого показателя.

Когда мы проводим статистический тест, нам нужно выбрать критерий (распределение), относительно которого мы будем тестировать нашу гипотезу. Опуская некоторые детали, скажу, что в данном случае мы выбрали распределение Стьюдента (его еще называют t-распределением). Это распределение в целом похоже на нормальное распределение Гаусса. Ниже привожу график функции плотности (probability density function) этого распределения. Обратите внимание, оно стандартизировано, чтобы иметь среднее арифметическое 0 и СКО 1.

распределение Стьюдента

Значения по оси x — t-критерий (t-statistic), площадь под кривой слева (или справа) от t-statistic — вероятность (p-value).

Так вот, проводя тест (в данном случае с помощью функции ttest_1samp()), мы получаем два значения, t-statistic и p-value, которые и показывают насколько на стандартизированном t-распределении встретившееся нам среднее значение выборки 180,2 см отличается от предполагаемого истинного среднего в 182 см.

Получившийся t-критерий равен −5,797229652505048. Отложите его по оси x. Как вы видите, показатель находится очень далеко от среднего и площадь под кривой слева от этого значения чрезвычайно мала. Отсюда и такое крошечное значение p-value.

Дополню, что так как в данном случае нулевая гипотеза утверждает, что рост составляет именно 182 см (а не меньше или больше 182 см), то нам нужно посчитать площадь слева от −5,797229652505048 и справа от 5,797229652505048 (то есть как бы два хвоста по краям симметричного распределения). Такой тест называется двусторонним (two-sided).

Для наглядности можно взять функцию распределения cdf() объекта t (t-распределение) библиотеки scipy (см. в конце ноутбука), которой мы передадим наше значение t-statistic и степени свободы (рассчитываются как количество наблюдений − 1). Эта функция посчитает площадь слева от −5,797229652505048. Умножив на два (чтобы учесть оба хвоста), мы как раз получим площадь (p-value) 9,035492171563733e-09.

Возможно, если вы в первый раз сталкиваетесь с частотной статистикой вывода (frequentist inferencial statistics), тема может показаться сложной. На самом деле все довольно интуитивно и логично. Опять же постараюсь пошагово разобрать это на курсе по статистике вывода.

В качестве предварительного материала рекомендую проработать вот это занятие.

3) Не уверен, что до конца понял ваши вопросы. Отвечу на них в соответствии со своим пониманием того, что вы спрашиваете.

Когда вы считаете количество каждого из значений распределения, то по большому счету ищете моду (наиболее часто встречающееся значение). И мода в выборке действительно равна 182 см. Она отличается от среднего арифметического (180,2 см), потому что распределение сгенерировано псевдослучайным образом, и это расхождение — элемент случайности. В теоретическом нормальном несмещенном распределении мода, медиана и среднее арифметическое конечно совпадают.

В том что касается размера выборки и выбросов, если вы спрашиваете в целом, то конечно, по мере того как размер выборки стремится к размеру генсовокупности, показатели выборки стремятся к истинным показателям. Сложность в том, что в большинстве случаев собрать выборку больше определенного размера не представляется возможным, и насколько репрезентативны имеющиеся данные наверняка мы не знаем.

Для того чтобы преодолеть это ограничение и нужна Центральная предельная теорема. Она утверждает, что если брать выборки из одной и той же генеральной совокупности, то показатели этих выборок (например, выборочные средние) будут нормально распределены и их среднее (то есть среднее средних) будет приближаться к истинному среднему показателю генеральной совокупности. В этом смысле, действительно, мы будем получать все менее смещенную оценку истинного показателя.

При этом опять же, и это важно, мы продолжаем оставаться в неведении относительно истинного распределения (то есть генеральной совокупности).

P.S. Помимо метода .get() для подсчета частоты элементов может быть удобно использовать модуль collections, привел пример в конце ноутбука.