Анализ и обработка данных | Машинное обучение

Анализ и обработка данных

На этом курсе мы продолжим изучать описательную статистику, а также узнаем как очищать и преобразовывать данные, необходимые для создания модели.

Раздел 1. Библиотека Pandas

Библиотека Pandas — это основа, станок, на котором в последующем вытачивается модель. Именно с нее и начнем изучать работу с данными.

  1. Объекты DataFrame и Series: создание и доступ к элементам
  2. Изменение, соединение и группировка датафреймов

Раздел 2. Исследовательский анализ данных (EDA)

Мы уже приобрели первые навыки исследовательского анализа данных. Пора расширить наши знания. Параллельно мы продолжим изучать Pandas и освоим визуализацию в Matplotlib, Seaborn и Plotly.

  1. Классификация данных и задачи EDA
  2. Практика EDA: часть 1, часть 2, часть 3

Раздел 3. Очистка данных

Данные, которые мы используем для анализа, редко бывают идеальными. В них часто встречаются ошибочные и пропущенные значения.

  1. Ошибки в данных
  2. Пропущенные значения: часть 1, часть 2, дополнительные материалы
  3. Пропуски во временных рядах

Раздел 4. Преобразование данных

Еще одна сложность — различающийся диапазон и «неудобное» распределение количественных признаков, а также категориальные переменные, выраженные строковыми значениями.

  1. Преобразование количественных данных: часть 1, часть 2, дополнительные материалы
  2. Работа с выбросами
  3. Кодирование категориальных переменных

Раздел 5. Пример: прогноз текучести кадров

На основе информации о сотрудниках, а также данных о том, покинул человек компанию или нет, нам предлагается построить предсказывающий текучесть кадров (employee churn) классификатор.

Employee Churn Prediction

Теперь, когда мы познакомились с основами ML, изучили Питон и научились анализировать данные, нам предстоит перейти к углубленному изучению математики. Так мы сможем лучше понимать, как устроены модели машинного обучения.