Пропуски во временных рядах | Анализ и обработка данных

Все курсы > Анализ и обработка данных > Занятие 7

На прошлом занятии мы поговорили про работу с пропущенными значениями в перекрестных данных. Отдельный подход требуется для заполнения пропусков во временных рядах.

Содержание занятия

Откроем ноутбук к этому занятию⧉

Подготовка данных

Продолжим работать с данными об авиаперевозках и рождаемости. Скачаем и подгрузим датасеты.

passengers.csv Скачать

births.csv Скачать

# импортируем данные

passengers = pd.read_csv('/content/passengers.csv')

births = pd.read_csv('/content/births.csv')

Почему именно эти два датасета?

Во-первых, у них разный шаг временного ряда. Пассажирские перевозки — это помесячные данные, рождаемость — посуточные. Это имеет значение для заполнения пропусков.
Во-вторых, первый временной ряд нестационарен, то есть в нем есть тренд и сезонность, второй — стационарен. Как мы увидим, это также влияет на выбор метода заполнения пропусков.

Добавим пропуски в данные о пассажирских перевозках.

import random

random.seed(1)

# переименуем столбец #Passengers в reference

passengers.rename(columns = {'#Passengers' : 'reference'}, inplace = True)

# сделаем две копии этого столбца с названиями target и missing

passengers['target'] = passengers.reference

passengers['missing'] = passengers.reference

# посчитаем количество наблюдений

n_samples = len(passengers)

# вычислим 20 процентов от этого числа,

# это будет количество пропусков

how_many = int(0.20 * n_samples)

# случайным образом выберем 20 процентов значений индекса

mask_target = random.sample(list(passengers.index), how_many)

# и заполним их значением NaN в столбце target

passengers.iloc[mask_target, 2] = np.nan

# найдем оставшиеся значения индекса

mask_missing = list(set(passengers.index) - set(mask_target))

# сделаем их NaN и поместим в столбец missing

passengers.iloc[mask_missing, 3] = np.nan

# переведем столбец Month в формат datetime

passengers.index = pd.to_datetime(passengers.Month)

passengers.drop(columns = ['Month'], inplace = True)

Посмотрим на результат.

1 2	# посчитаем количество пропусков в каждом столбце passengers.isnull().sum()

reference 0

target 28

missing 116

dtype: int64

1	passengers.head(3)

пропуски во временных рядах, датасет passengers

Обсудим.

В столбце reference сохранились все данные без пропусков.
В столбце target мы случайным образом создали 20 процентов пропущенных значений. Именно этот столбец мы будем использовать в процессе заполнения пропусков.
В столбце missing, наоборот, пропусками являются те значения, которые заполнены в target. Этот столбец мы будем использовать исключительно для построения визуализаций.

Проделаем то же самое с датасетом о рождаемости.

random.seed(1)

births.rename(columns = {'Births' : 'reference'}, inplace = True)

births['target'] = births.reference

births['missing'] = births.reference

n_samples = len(births)

how_many = int(0.15 * n_samples)

mask_target = random.sample(list(births.index), how_many)

births.iloc[mask_target, 2] = np.nan

mask_missing = list(set(births.index) - set(mask_target))

births.iloc[mask_missing, 3] = np.nan

births.index = pd.to_datetime(births.Date)

births.drop(columns = ['Date'], inplace = True)

1	births.isnull().sum()

reference 0

target 54

missing 311

dtype: int64

1	births.head(3)

пропуски во временных рядах, датасет births

Визуализация

Выведем данные на графиках. Перед этим в учебных целях сократим временные интервалы.

Это упростит применение методов заполнения пропусков, поскольку на полных временных рядах некоторые методы оставляют отдельные пропуски незаполненными.
Кроме того, иллюстрации станут более наглядными.

passengers = passengers['1956-01':'1960-12']

ax = passengers.plot(style=['--', 'o-', 'o'])

ax.set(title = 'Перевозки пассажиров с 1956 по 1960 год',

xlabel = 'Месяцы',

ylabel = 'Количество пассажиров');

визуализация пропущенных значений во временных рядах: датасет passengers

Сделаем то же самое с данными о рождаемости.

births = births['1959-04-01':'1959-07-01']

ax = births.plot(style=['--', 'o-', 'o'])

ax.set(title = 'Суточная рождаемость девочек в апреле - июне 1959 года в Калифорнии',

xlabel = 'Дни',

ylabel = 'Количество младенцев');

визуализация пропущенных значений во временных рядах: датасет births

Итак, говоря проще, нам нужно заполнить значения зеленых точек на основе значений оранжевых точек.

Заполнение средним и медианой

Самый простой подход к заполнению пропусков — использовать среднее арифметическое или медиану.

Используем метод .assign() для создания новых столбцов, в которые будем помещать результат очередного метода.
Для заполнения пропусков будем использовать метод .fillna(), которому передадим одно или несколько значений для заполнения пропусков.

# передадим в метод .fillna() среднее арифметическое и медиану

passengers = passengers.assign(FillMean = passengers.target.fillna(passengers.target.mean()))

passengers = passengers.assign(FillMedian = passengers.target.fillna(passengers.target.median()))

# сделаем то же самое для данных о рождаемости

births = births.assign(FillMean = births.target.fillna(births.target.mean()))

births = births.assign(FillMedian = births.target.fillna(births.target.median()))

Заполнение предыдущим и последующим значениями

Во временных рядах может присутствовать автокорреляция между значениями, и есть смысл использовать это для заполнения пропусков.

Подход last observation carried forward (LOCF) предполагает, что мы берем предыдущее от пропущенного значение и заполняем им пропуск.
Подход next observation carried backward (NOCB), наоборот, заполняет пропуск последующим значением.

В библиотеке Pandas для реализации этих подходов есть соответственно методы .ffill() и .bfill().

# заполним пропуски предыдущим значением

passengers = passengers.assign(FFill = passengers.target.ffill())

births = births.assign(FFill = births.target.ffill())

# заполним пропуски последующим значением

passengers = passengers.assign(BFill = passengers.target.bfill())

births = births.assign(BFill = births.target.bfill())

Это простые и понятные методы, которые, тем не менее, могут внести систематическую ошибку, особенно если заполнять таким образом несколько пропусков подряд. Например, предположим, что в данных есть тренд, а мы шесть из двенадцати месяцев заполнили одним значением (константой). Как следствие, тренд был удален из данных.

Указанную проблему можно попытаться решить через параметр limit, который ограничивает количество последовательно заполняемых одним и тем же значением пропусков. Другими словами, если пропущено четыре значения подряд, а limit установлен на уровне двух, предыдущим либо последующим наблюдением будут заполены только два из четырех значений.

Заполнение скользящим средним и медианой

Для заполнения пропусков можно использовать не одно предыдущее или последующее значение, а несколько. Вспомним про скользящее среднее, которое рассчитывается с помощью методов .rolling() и .mean(). Помимо среднего арифметического ничто не мешает нам рассчитать медиану окна и заполнить ею пропущенное значение.

Здесь нужно уточнить настройки:

Размер окна (параметр window).
Минимальное количество периодов для расчета среднего и медианы (min_periods). Установим этот параметр на уровне min_periods = 1, чтобы избежать сохранения незаполненных значений.

# рассчитаем скользящее среднее и медиану для данных о пассажирах

passengers = passengers.assign(RollingMean =

passengers.target.fillna(

passengers.target.rolling(window = 5,

min_periods = 1).mean()))

passengers = passengers.assign(RollingMedian =

passengers.target.fillna(

passengers.target.rolling(window = 5,

min_periods = 1).median()))

# рассчитаем скользящее среднее и медиану для данных о рождаемости

births = births.assign(RollingMean =

births.target.fillna(

births.target.rolling(window = 5,

min_periods = 1).mean()))

births = births.assign(RollingMedian =

births.target.fillna(

births.target.rolling(window = 5,

min_periods = 1).median()))

Интерполяция

Понятие интерполяции

Для временных рядов, в которых есть тренд, подойдут различные методы интерполяции (interpolation). По большому счету, мы берем имеющиеся у нас наблюдения и пытаемся найти (вычислить) проходящую через них функцию.

Что важно знать про интерполяцию:

Функция, найденная в процессе интерполяции, проходит строго через известные точки (этим она отличается от аппроксимации (которая стремится с помощью простой функции описать более сложную) и регрессии (которая стремится найти минимизирующую ошибку функцию))
Найденная функция описывает только заданный известными точками интервал и не выходит за его пределы (этим она отличается от экстраполяции)

Введем некоторые термины:

Значения $x$ каждой из известных точек, по которым строится интерполирующая функция, называются узлами (knots)
Совокупность точек — интерполяционной сеткой (grid)
Сама функция называется интерполянтом (interpolant)

Посмотрим на график ниже (код для построения графика можно найти в ноутбуке, он нам сейчас не важен).

график линейной интерполяции и интерполяции кубическим сплайном

Если провести между точками прямые, то получится линейная интерполяция, если попытаться описать точки одним многочленом — полиномиальная, кусочно-заданной функцией, состоящей из нескольких полиномов — сплайн.

Рассмотрим эти способы интерполяции более подробно.

Способы интерполяции

Линейная интерполяция

Самый простой способ — построить линейную функцию, проходящую через две соседние точки. Например, предположим, что соседними наблюдениями ($x_0$, $y_0$) и ($x_1$, $y_1$) являются точки с координатами (1, 3) и (3, 5). Найдем значение в точке $x = 2$.

Так как все три точки лежат на одной прямой, наклон этой прямой между любыми двумя точками одинаков. Из уравнения наклона,

$$ \frac{y-y_0}{x-x_0} = \frac{y_1-y_0}{x_1-x_0} $$

$$ y = \frac{y_0(x_1-x)+y_1(x-x_0)}{x_1-x_0} $$

Тогда в точке $x = 2$

$$ y = \frac{3(3-2)+5(2-1)}{3-1} = 4 $$

Если мы хотим найти функцию прямой линии, проходящей через две точки, то можем построить систему линейных уравнений.

$$ \begin{cases} y_0 = a_0 + a_1 \cdot x_0 \\ y_1 = a_0 + a_1 \cdot x_1 \end{cases} $$

Подставив известные точки,

$$ \begin{cases} 3 = a_0 + a_1 \cdot 1 \\ 5 = a_0 + a_1 \cdot 3 \end{cases} $$

Решив систему линейных уравнений, получим

$$ y = x + 2 $$

Значение функции в точке $x = 2$ равно четырем.

Полиномиальная интерполяция

Не все процессы могут быть точно описаны прямыми линиями. Одним из вариантов решения может быть нахождение полинома второй или большей степени, график которого проходил бы через все известные точки.

Полиномиальная интерполяция имеет ряд недостатков. В частности, с ростом числа точек у кривой могут возникнуть колебания (осциляции), которые негативно скажутся на точности заполнения пропусков. Эта особенность называется феноменом Рунге (Runge’s phenomenon).

Сплайн

При линейной интерполяции мы строили отдельную линейную функцию между каждой парой известных точек. Сплайн (от англ. spline, «чертежное лекало») также состоит из нескольких функций (по одной на каждый отрезок), но не линейных, а полиномиальных.

В частности, это позволяет использовать меньшую (чем при полиномиальной интерполяции) степень каждого из полиномов и, таким образом, преодолеть последствия феномена Рунге.

Перейдем к практике.

Реализация на Питоне

В Питоне интерполяцию можно выполнить либо с помощью модуля interpolate⧉ библиотеки Scipy, либо с помощью во многом опирающегося на этот модуль метода .interpolate()⧉ библиотеки Pandas.

Создадим список из названий методов интерполяции, которые передадим в .interpolate()

1	methods = ['linear', 'polynomial', 'quadratic', 'cubic', 'spline']

Обратите внимание, как видно из документации Scipy, значения параметра method = ‘quadratic’ и method = ‘cubic’ метода .interpolate() в Pandas рассчитывают квадратичный и кубический сплайны, а не полиномы второй и третьей степени.

В цикле for найдем интеполирующую функцию с помощью каждого из методов и используем ее для заполнения пропусков (создания нового столбца с полными значениями).

# применим каждый из методов к данным о пассажирах

for m in methods:

if m == 'polynomial':

# для полиномиальной интерполяции нужно указать степень полинома

# (пока поддерживаются только нечетные степени)

passengers[m] = passengers.target.interpolate(method = m, order = 3)

elif m == 'spline':

# для сплайна порядок должен быть 1 <= k <= 5

passengers[m] = passengers.target.interpolate(method = m, order = 5)

else:

passengers[m] = passengers.target.interpolate(method = m)

# сделаем то же самое с данными о рождаемости

for m in methods:

if m == 'polynomial':

births[m] = births.target.interpolate(method = m, order = 3)

elif m == 'spline':

births[m] = births.target.interpolate(method = m, order = 5)

else:

births[m] = births.target.interpolate(method = m)

Сравнение методов

Так как нам предстоит оценивать отклонение одного количественного показателя от другого, в качестве метрики мы можем выбрать корень среднеквадратической ошибки (RMSE).

1 2	# импортируем функцию для расчета RMSE from sklearn.metrics import mean_squared_error

Напишем функцию для сравнения методов.

def compare_methods(df):

# в цикле list comprehension будем брать по одному столбцу

# (итерируя по названиям столбцов)

# и рассчитывать корень (squared = False) среднеквадратической ошибки

results = [(method, mean_squared_error(df.reference, df[method], squared = False).round(2)) for method in df.columns[3:]]

# преобразуем получившийся список вначале в массив Numpy, затем в датафрейм

results = pd.DataFrame(np.array(results), columns = ['Method', 'RMSE'])

# отсортируем по размеру ошибки в возрастающем (по умолчанию) порядке

results.sort_values(by = 'RMSE', inplace = True)

# сброим индекс

results.reset_index(drop = True, inplace = True)

return results

Сравним методы заполнения пропусков.

# сравним методы для данных о пассажирах

passengers_results = compare_methods(passengers)

passengers_results

# и рождаемости

births_results = compare_methods(births)

births_results

Выведем «лидеров» на графиках и сравним с соответствующими референтными значениями.

# выведем лидера по точности заполнения пропусков в данных о пассажирах

passengers[['reference', 'spline']].plot()

plt.title('Заполнение пропусков в данных о пассажирах методом spline 5-го порядка');

# сделаем то же самое для данных о рождаемости

births[['reference', 'FillMean']].plot()

plt.title('Заполнение пропусков в данных о рождаемости средним арифметическим');

В целом, как мы видим, более сложные методы интерполяции хорошо работают на нестационарных данных с относительно большим шагом временного ряда. При этом в стационарных временных рядах с меньшим шагом между периодами их эффективность заметно ниже.

Библиотека imputena

Еще один способ заполнения пропусков в нестационарных временных рядах заключается в том, чтобы

разложить временной ряд на компоненты
изъять сезонность
выполнить интерполяцию (на тренде и случайных колебаниях) и заполнить пропуски
вновь добавить сезонность во временной ряд

Такой способ называется заполнением пропусков с сезонной корректировкой (seasonal adjustment), и он реализован в библиотеке imputena⧉.

1 2	# установим библиотеку !pip install imputena

1 2	# импортируем ее import imputena

1 2	# сделаем копию столбца target датафрейма passengers_imputena = passengers[['target']].copy()

Прежде чем перейти непосредственно к заполнению пропусков, воспользуемся функцией recommend_method() для получения рекомендации по тому, какой метод использовать.

# передадим данные, по какому столбцу сделать рекомендации,

# а также сообщим, что хотим не только название метода, но и объяснение,

# почему его надо применить

print(imputena.recommend_method(data = passengers_imputena,

column = 'target',

title_only = False))

1. The data is a data frame.

2. The column target contains numerical values.

3. The column target represent a time series.

Therefore you should apply interpolation with seasonal adjustment.

Алгоритм согласился с тем, что интерполяция с сезонной корректировкой будет наиболее удачным методом. Применим ее с помощью функции seasonal_interpolation().

1 2	res_imputena_p = imputena.seasonal_interpolation(data = passengers_imputena, columns = ['target'])

Рассчитаем RMSE.

1 2	mean_squared_error(passengers.reference, res_imputena_p.target, squared = False).round(2)

11.42

Как вы видите, этот метод оказался самым успешным из всех использованных. К данным о рождаемости мы его применять не будем в силу того, что эти данные стационарны.

Подведем итог

Сегодня мы рассмотрели несколько способов заполнения пропусков во временных рядах. В частности мы изучили заполнение пропущенных значений с помощью среднего арифметического, медианы, предыдущего и последующего значений, скользящего среднего и медианы. Кроме того, был рассмотрен метод линейной, полиномиальной и сплайн интерполяции.

Выбор конкретного способа интерполяции во многом зависит от стационарности и шага временного ряда.

Перейдем к теме преобразования количественных переменных.