На этом курсе мы продолжим изучать описательную статистику, а также узнаем как очищать и преобразовывать данные, необходимые для создания модели.
Раздел 1. Библиотека Pandas
Библиотека Pandas — это основа, станок, на котором в последующем вытачивается модель. Именно с нее и начнем изучать работу с данными.
- Объекты DataFrame и Series: создание и доступ к элементам
- Изменение, соединение и группировка датафреймов
Раздел 2. Исследовательский анализ данных (EDA)
Мы уже приобрели первые навыки исследовательского анализа данных. Пора расширить наши знания. Параллельно мы продолжим изучать Pandas и освоим визуализацию в Matplotlib, Seaborn и Plotly.
- Классификация данных и задачи EDA
- Практика EDA: часть 1, часть 2, часть 3
Раздел 3. Очистка данных
Данные, которые мы используем для анализа, редко бывают идеальными. В них часто встречаются ошибочные и пропущенные значения.
- Ошибки в данных
- Пропущенные значения: часть 1, часть 2, дополнительные материалы
- Пропуски во временных рядах
Раздел 4. Преобразование данных
Еще одна сложность — различающийся диапазон и «неудобное» распределение количественных признаков, а также категориальные переменные, выраженные строковыми значениями.
- Преобразование количественных данных: часть 1, часть 2, дополнительные материалы
- Работа с выбросами
- Кодирование категориальных переменных
Раздел 5. Пример: прогноз текучести кадров
На основе информации о сотрудниках, а также данных о том, покинул человек компанию или нет, нам предлагается построить предсказывающий текучесть кадров (employee churn) классификатор.
Теперь, когда мы познакомились с основами ML, изучили Питон и научились анализировать данные, нам предстоит перейти к более углубленному изучению математики. Так мы сможем лучше понимать, как устроены модели машинного обучения.