Статистический вывод | Вводный курс ML

Статистический вывод

Все курсы > Вводный курс > Занятие 9

Выборка и генеральная совокупность

До сих пор мы исходили из того, что наши данные, например, о росте тысячи мужчин-респондентов в России полностью отражают реальные показатели роста всех россиян. На самом деле мы не знаем, так это или нет.

Мы сможем об этом говорить только, если получим измерения каждого человека. Эта задача представляется нереализуемой.

Те же, кого нам всё-таки удалось измерить, называются выборкой (sample). А вот все мужчины в России — это генеральная совокупность (population).

статистический вывод: выборка и генеральная совокупность

Существует ли вообще возможность сказать что-либо определенное про генеральную совокупность по ограниченному набору данных?

На самом деле существует. Теоретическое обоснование этой возможности называется Центральной предельной теоремой.

Центральная предельная теорема

Центральная предельная теорема (Central Limit Theorem) гласит, что если мы будем много раз выборочно собирать данные, то среднее средних всех выборок (распределение средних) будет стремится к среднему генеральной совокупности. Рассмотрим этот процесс подробнее.

Для начала возьмем несколько выборок из одной генеральной совокупности и выясним среднее каждой выборки.

статистический вывод: Центральная предельная теорема

Затем посчитаем среднее арифметическое средних этих выборок. Это новое среднее будет стремиться к среднему генеральной совокупности (обозначается греческой буквой μ, мю).

выборочное среднее

Этот вывод чрезвычайно важен, потому что мы наконец-то получаем инструменты, позволяющие сказать что-то определенное про величину, которую мы в принципе не можем охватить измерением.

Инструменты статистического вывода

Теперь рассмотрим статистический вывод на практике. Центральная предельная теорема является обоснованием для двух важных инструментов изучения генеральной совокупности.

Вначале откроем ноутбук к этому занятию

1. Доверительный интервал

С одной стороны, даже предполагая, что выборочное среднее стремится к истинному среднему, мы не можем быть на 100 процентов уверены, что знаем этот параметр генеральной совокупности. С другой, теорема позволяет задать доверительный интервал (Confidence Interval) для среднего (и на самом деле любого другого параметра, например, пропорции).

Другими словами, мы можем утверждать, что, например, в 90 процентах случаев, наш доверительный интервал будет включать истинный параметр генеральной совокупности.

статистический вывод: построение доверительного интервала

На графике греческой буквой μ (мю) как раз обозначено среднее генеральной совокупности, которое попадает в наш доверительный интервал только в 9 случаях из 10 (то есть в 90 процентах случаев).

Например, мы можем найти доверительный интервал для среднего роста всех мужчин в России. Сделаем это с помощью Питона.

Теперь импортируем новый для нас модуль stats библиотеки SciPy (Scientific Python) и построим доверительный интервал.

В данном случае мы передаем функции interval три параметра: уровень точности alpha, среднее выборки mean (используем библиотеку numpy для расчета) и стандартную ошибку среднего (пока отложим объяснение этого параметра).

Вывод:

  • Правильная интерпретация: в 90 процентах случаев наш доверительный интервал будет включать истинное среднее.
  • Неправильная интерпретация: мы можем быть на 90 процентов уверены, что среднее находится в этом интервале.

Уже не так плохо, мы стали хоть что-то знать про реальную картину мира. Но какие еще применения можно найти для Центральной предельной теоремы?

2. Проверка гипотезы

Вторым применением статистического вывода является построение гипотез и их проверка.

Например, мы можем попытаться понять на основе выборки, правда ли, что средний рост всех мужчин в России составляет 182 см (предположим, так утверждает Минздрав).

  • Нулевой (базовой) гипотезой в этом случае будет то, что рост действительно составляет 182 см
  • Альтернативной гипотезой в этом случае будет предположение о том, что рост не равен 182 см

По сути нам нужно ответить на вопрос, какова вероятность получить среднее выборки 180.2 см (мы его рассчитали на прошлом занятии), если истинное среднее генеральной совокупности действительно равно 182 см.

Если вероятность (probability value или p-value) окажется ниже определенного порога, мы отвергнем нашу нулевую гипотезу и скажем, что для альтернативной гипотезы есть основания. Если выше, мы будем считать нулевую гипотезу обоснованной.

Пороговое значение часто выбирают на уровне одного, пяти или десяти процентов.

Проверим наше гипотезу с помощью Питона. Для этого снова воспользуемся библиотекой SciPy.

Результат:

Получилась крошечная вероятность. Около 0.000000009. Она гораздо меньше порога в пять и даже один процент, поэтому мы можем отвергнуть нашу нулевую гипотезу о том, что истинное среднее равно 182 сантиметрам.

Может показаться, что достижения не слишком велики. Мы ведь так и не выяснили, каким является среднее генеральной совокупности. Но взгляните на это иначе. Что если речь идет о невиновности человека или безвредности медицинского препарата? Проверка нулевой гипотезы уже будет иметь важные последствия.

Вопросы для закрепления

Вы собрали данные по 1000 пациентов для того, чтобы оценить эффективность нового лекарства. Это выборка или генеральная совокупность?

Ответ: выборка

Какие два инструмента статистического вывода мы изучили?

Ответ: доверительный интервал и проверка гипотезы

Дополнительные упражнения⧉ вы найдете в конце ноутбука.

Подведем итог

На сегодняшнем занятии мы узнали,

  1. чем выборка отличается от генеральной совокупности;
  2. что такое Центральная предельная теорема; а также
  3. для чего нужен доверительный интервал и проверка гипотезы.

Итак, мы изучили описательную статистику и познакомились со статистическим выводом. На следующем занятии, вооружившись этими знаниями, мы перейдем к вопросу взаимосвязи переменных и построению первой модели.

guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии