Словарь

Все курсы > Программирование на Питоне > Занятие 8

Словари, наряду со списками, кортежами и множествами, также относятся к коллекциям (collections), т.е. типам данных, содержащим несколько элементов. Мы уже начали изучать словари на пятом занятии вводного курса. Продолжим этот путь.

Откроем ноутбук к этому занятию

Понятие словаря в Питоне

Словарь — неупорядоченный набор элементов с доступом по ключу.

словарь в Питоне

Создание словаря

Пустой словарь можно инициализировать через фигурные скобки {} или функцию dict().

Словарь можно сразу заполнить ключами и значениями.

Словарь можно также создать из вложенных списков.

Иногда бывает полезно создать словарь с заранее известными ключами и заданным значением. В этом нам поможет метод .fromkeys().

Ключи и значения словаря

Ключами словаря могут быть только неизменяемые типы данных. Например, строки, числа, кортежи или логические значения (Boolean). Кроме того, ключи должны быть уникальными и соответственно не могут повторяться.

Значения словаря, наоборот, могут состоять из чисел, строк, пропущенных (NaN) и логических значений, значения типа None, списков, массивов Numpy и вложенных словарей.

Методы .keys(), .values() и .items()

Создадим словарь с данными сотрудника.

Как мы уже знаем, доступ к ключам и значениям можно получить через методы .keys() и .values() соответственно.

Метод .items() возвращает и то, и другое в формате списка из кортежей.

Использование цикла for

Ключи и значения словаря удобно просматривать с помощью цикла for и метода .items().

Как мы уже знаем, если записать результат метода .items() в одну переменную, будут выведены кортежи из ключа и значения.

Использование в цикле for методов .keys() и .values() выводит только ключи или только значения соответственно.

Доступ по ключу и метод .get()

Конкретное значение в словаре можно получить, введя название словаря и затем название ключа в квадратных скобках.

Если такого ключа нет, Питон выдаст ошибку.

ошибка при вызове несуществующего словаря

Для того чтобы этого не произошло, можно использовать метод .get(). Он также выводит значение по ключу.

Если ключа в словаре нет, метод .get() возвращает значение None.

Проверка наличия ключа и значения в словаре

С помощью оператора in мы можем проверить наличие определенного ключа в словаре.

Важно сказать, что оператор in работает быстрее метода .get().

Метод .values() поможет проверить наличие определенного значения.

Метод .items() поможет проверить наличие пары ключ : значение. Обратите внимание, эту пару мы записываем в форме кортежа.

Операции со словарями

Добавление и изменение элементов

Добавить элемент можно, передав новому ключу новое значение.

Изменить элемент можно передав существующему ключу новое значение.

Метод .update() позволяет соединить два словаря.

Метод .setdefault() не изменяет значение, если указанный ключ уже содержится в словаре.

Если такого ключа нет, ключ и соответствующее значение будут добавлены в словарь.

Удаление элементов

Метод .pop() удаляет элемент по ключу и выводит удаляемое значение.

Убедимся, что этой пары ключа и значения больше нет в словаре.

Ключевое слово del также удаляет элемент по ключу.

Метод .popitem() удаляет и выводит последний добавленный в словарь элемент.

Метод .clear() удаляет все ключи и значения и возвращает пустой словарь.

Ключевое слово del также позволяет удалить словарь целиком.

ошибка при попытке вывести удаленный словарь

Сортировка словарей

Для сортировки словарей можно использовать функцию sorted().

Отсортируем ключи этого словаря.

Теперь отсортируем значения с помощью метода .values().

Если мы хотим отсортировать пары «ключ : значение» по ключу или по значению, вначале воспользуемся методом .items() для извлечения этих пар (кортежей) из словаря.

Затем мы укажем эти кортежи в качестве первого аргумента функции sorted(). Параметру key этой же функции мы передадим lambda-функцию, которая вернет либо ключ lambda x : x[0] каждого кортежа, либо его значение lambda x : x[1]. Именно по ним и будет произведена сортировка.

Копирование словарей

Копирование объектов в Питоне (не только словарей) осуществляется с помощью метода .copy().

Как мы видим, исходный словарь не изменился. Так и должно быть.

Теперь давайте попробуем скопировать словарь с помощью оператора присваивания =.

Данные были удалены из обоих словарей. Так быть не должно и поэтому такой метод копирования использовать не стоит.

Функция dir()

На сегодняшнем занятии мне также хотелось бы показать вам функцию dir(), благодаря которой можно увидеть методы того или иного объекта. Давайте посмотрим на методы словаря.

Вначале всегда идут так называемые специальные методы. Они начинаются и заканчиваются символом двойного подчеркивания __.

Например, когда мы вызываем функцию print() и передаем ей словарь.

На самом деле мы применяем к словарю метод __str__().

В большинстве случаев нас будут интересовать методы без символов двойного подчеркивания.

Со всеми этими методами словаря мы уже познакомились.

Dict comprehension

Dictionary comprehension, как и в случае со списками, позволяет превратить один словарь в другой. В процессе этого превращения, элементы исходного словаря могут быть изменены или отобраны на основе какого-либо условия.

Основной целью использования как list, так и dict comprehension является упрощение и повышение читаемости кода.

Приведем базовую схему dict comprehension.

схема dict comprehension в Питоне

Посмотрим на два несложных примера.

В первом примере умножим каждое значение на два.

Во втором примере сделаем символы всех ключей заглавными с помощью метода .upper().

Теперь предположим, мы хотим отсортировать те пары, в которых значение больше двух, но меньше шести.

Если бы мы выполняли эту задачу с помощью цикла for, то использовали бы оператор И.

Как и в случае list comprehension, применение условия if-else несколько меняет изначальную схему. Предположим, мы хотим определить, какие из значений четные, а какие нечетные.

Dict comprehension можно использовать вместо метода .fromkeys().

Дополнительные примеры

lambda-функция, функции map() и zip()

Пример со списком

Возьмем список фруктов.

Предположим, что мы хотим создать словарь, где ключами будут названия фруктов, а значениями — количество букв в каждом из слов.

словарь, в котором ключи - это слова, а значения - их длина

Вначале создадим список с количеством символов. Для этого нам понадобится функция map(). Эта функция принимает два аргумента: во-первых, что нужно сделать с каждым из элементов, во-вторых, перечень этих самых элементов.

функция map() в Питоне

В нашем случае первым аргументом будет lambda-функция lambda word : len(word), которая просто посчитает длину передаваемого ей слова, а вторым аргументом будет наш список фруктов.

Как вы видите, мы использовали функцию list() для преобразования результата в список.

Остается создать словарь. Для этого с помощью знакомой нам функции zip() мы создадим пары (название фрукта, количество символов) и передадим их функции dict() для создания словаря.

Интересно, что эту же задачу можно решить с помощью list comprehension.

В данном случае функции zip() мы передаем список фруктов и очень простую list comprehension, которая рассчитывает длину слов.

Пример со словарем

Теперь поработаем со словарями. Предположим, что мы продолжаем спрашивать людей об их росте, и у нас есть несколько американцев, которые сообщили свой рост в футах.

Наша задача — создать точно такой же словарь, но чтобы футы были преобразованы в метры. Вначале создадим список с данными о росте в метрах.

Здесь мы снова воспользовались lambda-функцией, которую в качестве аргумента передали в функцию map(). Обратите внимание, вторым аргументом стали значения словаря, полученные через метод .values().

После этого мы можем снова воспользоваться функцией zip(), которой передадим ключи исходного словаря и список данных о росте с округлением до двух знаков после запятой.

Как и в предыдущем примере, эту задачу можно решить с помощью dict comprehension.

Код соответствует основной схеме, приведенной выше, и в целом читается проще, чем конструкция с lambda-функцией и функцией map().

Вложенные словари

Рассмотрим более сложный словарь с информацией о нескольких сотрудниках.

В данном случае ключами словаря выступают id сотрудников, а значениями — вложенные словари с информацией о них.

Базовые операции

Для того чтобы вывести значение элемента вложенного словаря, воспользуемся двойным ключом.

Небольшое отступление от темы. Сложные структуры данных бывает удобно вывести с помощью функции pprint() одноименного модуля.

Функция pprint() расшифровывается как pretty print («красивая печать») и в некоторых случаях справляется со своей задачей лучше обычной функции print().

Посмотрим как можно добавить вложенный словарь.

Изменить значение вложенного словаря можно также с помощью двойного ключа.

Циклы for

Посмотрим, как можно использовать цикл for со вложенными словарями. Давайте заменим тип данных с информацией о возрасте сотрудника с int на float.

Вложенные словари и dict comprehension

Вложенные словари также допускают использование dict comprehension. Предположим, что мы хотим вернуть данные о возрасте из типа float обратно в тип int. Разобьем эту задачу на несколько этапов.

Шаг 1. Просто выведем словарь employees без изменений, используя dict comprehension.

Шаг 2. Создадим еще один dict comprehension, с помощью которого внутри каждого вложенного словаря мы заменим тип данных значения с float на int, если ключ совпадает с age, если не сопадает — оставим значение без изменений (по сути, условие с if-else).

Шаг 3. Вставим второй dict comprehension в первый вместо переменной info. Напомнью, info — это значения внешнего словаря, которые сами по себе являются словарями. Именно к ним мы и применим второй dict comprehension.

С поставленной задачей мы справились. Впрочем, такая сложная схема dict comprehension идет вразрез с самой идеей этого метода, которая заключается в упрощении кода.

Частота слов в тексте

Напоследок разберем очень несложный пример подсчета частоты слов в тексте. Это уже знакомый нам мешок слов (Bag of Words, BoW). В качестве примера возьмем уже известный нам текст про Париж, музеи и искусство.

Предварительная обработка текста

Превратим строку в список слов.

Применим list comprehension, чтобы избавиться от точек и запятых. Помимо этого, переведем все слова в нижний регистр.

Мы готовы создавать мешки слов разными способами.

Способ 1. Условие if-else

Начнем с простых условий if-else.

Способ 2. Метод .get()

Помимо этого мы можем использовать метод .get().

Поясню приведенный код. Метод .get() проверит наличие ключа (слова) в словаре и, если его нет, выведет 0.

Далее мы прибавим к нулю единицу (потому что слово встретилось первый раз) и запишем это слово в наш словарь.

Если такой ключ (слово) уже есть, метод .get() выведет его значение (частоту слова) и мы просто увеличим это значение на один.

Способ 3. Класс Counter модуля collections

Напомню, что этот же функционал реализован в классе Counter модуля collections.

Результат. Обратите внимание, в отличие от мешка слов, который мы создавали на занятии по обработке естественного языка, в число наиболее популярных слов вошли артикли, предлоги и союзы. Они не несут полезной информации о содержании текста. Это так называемые стоп-слова. Кроме того, мы не провели лемматизацию, и поэтому museum и museums считаются разными словами.

На этом мы завершаем наше занятие, полученных знаний должно быть достаточно для дальнейшей работы.

Подведем итог

Сегодня мы подробно рассмотрели, что собой представляет словарь в Питоне.

Мы изучили структуры словаря, основные операции со словарями, использование dict comprehension, а также рассмотрели ряд дополнительных примеров. В частности, мы узнали про возможность создания словаря с помощью lambda-функции, а также функции map() и zip(), вложенные словари и несколько способов подсчета частоты слов в заданном тексте.

Вопросы для закрепления

Вопрос. Есть ли индекс у элементов словаря в Питоне?

Посмотреть правильный ответ

Вопрос. С помощью какого метода можно соединить два словаря в один?

Посмотреть правильный ответ

Вопрос. Почему при копировании объекта в Питоне лучше использовать метод .copy()?

Посмотреть правильный ответ

В следующий раз мы поговорим про массив Numpy.


Ответы на вопросы

Вопрос. А что будет, если в словаре есть одинаковые ключи?

Ответ. Давайте посмотрим на примере. При создании словаря с одинаковыми ключами:

Питон выведет:

Как мы видим, Питон оставил только последний элемент из серии одинаковых ключей. Ошибки при этом не возникает.


Вопрос. Словарь — это изменяемый или неизменяемый тип данных в Питоне?

Ответ. Большое спасибо за отличный вопрос. Давайте в целом разберем, какие типы данных в Питоне считаются изменяемыми (mutable), а какие неизменяемыми (immutable).

Весь код на Питоне представляет собой объекты либо отношения между ними. У каждого объекта есть identity (адрес объекта в памяти компьютера), type (тип) и value (значение).

Создадим строковый объект и посмотрим на identity, type и value.

Теперь попробуем изменить этот объект.

Как вы видите, адрес объекта в памяти изменился, а значит это уже другой объект и тип str относится к неизменяемым типам данных.

Теперь возьмем список, выведем его identity, type и value, добавим в этот список новый элемент и посмотрим как изменятся его свойства.

Список пополнился новым элементом, при этом оставшись в той же ячейке памяти. Это изменяемый тип данных.

  • В целом к изменяемым типам данных относятся: список, словарь, множество и созданные пользователем классы
  • Неизменяемые типы данных: int, float, bool, str, tuple и range.

Теперь посмотрим как свойство изменяемости и неизменяемости влияет на копирование объектов. Начнем со строки.

Благодаря тому, что при изменении строки был создан новый объект, копирование прошло успешно (исходная строка при изменении копии не была затронута). Тот факт, что мы имеем дело с разными объектами можно также проверить через оператор is.

Посмотрим, что будет со списком.

В данном случае копирование через присваивание и последующее добавление новых элементов в список не создало новых объектов. По этой причине изменился как исходный объект, так и его копия.

Как и в случае со словарем, необходимо использовать метод .copy().

Теперь копирование прошло успешно. Прежде чем завершить, давайте добавим число четыре в исходный список и убедимся, что речь идет о разных объектах.

Значения списков совпадают, а вот их адреса — нет.