Анализ данных | Курсы машинного обучения

Анализ данных

анализ данных

На этом курсе мы продолжим изучать статистику, а также узнаем как загружать, преобразовывать и очищать данные, необходимые для создания модели.

Раздел 1. Описательная статистика

Мы уже умеем строить графики и познакомились с основами статистики на Питоне. Пора систематизировать и расширить наши знания.

  1. Категорийные переменные
  2. Количественные признаки: меры среднего
  3. Количественные признаки: меры разброса

Раздел 2. Библиотека Pandas

На вводном курсе мы научились создавать датафреймы библиотеки Pandas из питоновского словаря, а также подгружать внешние данные в Google Colab. В этом разделе мы рассмотрим новые форматы исходных данных, научимся изменять и анализировать датафреймы.

  1. Создание и преобразование датафрейма
  2. Статистика в Pandas

Раздел 3. Предварительная обработка данных

Данные, которые мы используем для анализа, редко бывают идеальными. В них часто встречаются пропущенные значения и повторы. Отдельная сложность для построения моделей — категорийные переменные и различающийся диапазон признаков.

  1. Пропущенные значения и повторы
  2. Работа с категорийными признаками
  3. Нормализация данных

Раздел 4. Соревнование на Kaggle

Kaggle — прекрасная платформа для улучшения навыков машинного обучения. Снова попробуем свои силы с классическим датасетом о выживших во время крушения Титаника.

  1. Как устроен Kaggle
  2. Алгоритм случайного леса
  3. Анализ данных и построение модели

Поздравляю с завершением курса анализа данных! Теперь, когда мы познакомились с основами ML, изучили Питон и научились анализировать данные, нам предстоит погрузиться глубже, и начнем мы этот путь с изучения методов оптимизации.