Анализ и обработка данных | Машинное обучение

Анализ и обработка данных

анализ данных

На этом курсе мы продолжим изучать описательную статистику, а также узнаем как очищать и преобразовывать данные, необходимые для создания модели.

Раздел 1. Библиотека Pandas

Библиотека Pandas — это основа, станок, на котором в последующем вытачивается модель. Именно с нее и начнем изучать работу с данными.

  1. Объекты DataFrame и Series: создание и доступ к элементам
  2. Изменение, соединение и группировка датафреймов

Раздел 2. Исследовательский анализ данных (EDA)

Мы уже приобрели первые навыки исследовательского анализа данных. Пора расширить наши знания. Параллельно мы продолжим изучать Pandas и освоим визуализацию в Matplotlib, Seaborn и Plotly.

  1. Классификация данных и задачи EDA
  2. Практика EDA: часть 1, часть 2, часть 3

Раздел 3. Очистка данных

Данные, которые мы используем для анализа, редко бывают идеальными. В них часто встречаются ошибочные и пропущенные значения.

  1. Ошибки в данных
  2. Пропущенные значения: часть 1, часть 2, дополнительные материалы
  3. Пропуски во временных рядах

Раздел 4. Преобразование данных

Еще одна сложность — различающийся диапазон и «неудобное» распределение количественных признаков, а также категориальные переменные, выраженные строковыми значениями.

  1. Преобразование количественных данных: часть 1, часть 2, дополнительные материалы
  2. Работа с выбросами
  3. Кодирование категориальных переменных

Теперь, когда мы познакомились с основами ML, изучили Питон и научились анализировать данные, нам предстоит перейти к построению моделей, и начнем мы этот путь с изучения методов оптимизации.