Анализ и обработка данных | Машинное обучение

На этом курсе мы продолжим изучать описательную статистику, а также узнаем как очищать и преобразовывать данные, необходимые для создания модели.

Раздел 1. Библиотека Pandas

Библиотека Pandas — это основа, станок, на котором в последующем вытачивается модель. Именно с нее и начнем изучать работу с данными.

Раздел 2. Исследовательский анализ данных (EDA)

Мы уже приобрели первые навыки исследовательского анализа данных. Пора расширить наши знания. Параллельно мы продолжим изучать Pandas и освоим визуализацию в Matplotlib, Seaborn и Plotly.

Классификация данных и задачи EDA
Практика EDA: часть 1, часть 2, часть 3

Раздел 3. Очистка данных

Данные, которые мы используем для анализа, редко бывают идеальными. В них часто встречаются ошибочные и пропущенные значения.

Ошибки в данных
Пропущенные значения: часть 1, часть 2, дополнительные материалы
Пропуски во временных рядах

Раздел 4. Преобразование данных

Еще одна сложность — различающийся диапазон и «неудобное» распределение количественных признаков, а также категориальные переменные, выраженные строковыми значениями.

Преобразование количественных данных: часть 1, часть 2, дополнительные материалы
Работа с выбросами
Кодирование категориальных переменных

Раздел 5. Пример: прогноз текучести кадров

На основе информации о сотрудниках, а также данных о том, покинул человек компанию или нет, нам предлагается построить предсказывающий текучесть кадров (employee churn) классификатор.

HR.csv Скачать

Employee Churn Prediction⧉

Теперь, когда мы познакомились с основами ML, изучили Питон и научились анализировать данные, нам предстоит перейти к углубленному изучению математики. Так мы сможем лучше понимать, как устроены модели машинного обучения.