Jupyter Notebook

Все курсы > Программирование на Питоне > Занятие 14

jupyter notebook

Программа Jupyter Notebook — это локальная программа, которая открывается в браузере и позволяет интерактивно исполнять код на Питоне, записанный в последовательности ячеек.

интерфейс jupyter notebook

Облачной версией Jupyter Notobook является программа Google Colab, которой мы уже давно пользуемся на курсах машинного обучения. Если вы проходили мои занятия, то в работе с этой программой для вас не будет почти ничего нового.

Как установить Jupyter Notebook

Способ 1. Если на вашем компьютере уже установлен Питон, то установить Jupyter Notebook можно через менеджер пакетов pip.

Способ 2 (рекомендуется). Кроме того, Jupyter Notebook входит в дистрибутив Питона под названием Anaconda.

На сегодняшнем занятии мы рассмотрим именно второй вариант установки.

Anaconda

Anaconda — это дистрибутив Питона и репозиторий пакетов, специально предназначенных для анализа данных и машинного обучения.

дистрибутив и репозиторий Anaconda

Основу дистрибутива Anaconda составляет система управления пакетами и окружениями conda.

Conda можно управлять двумя способами, а именно через Anaconda Prompt — программу, аналогичную командной строке Windows, или через Anaconda Navigator — понятный графический интерфейс.

Кроме того, в дистрибутив Anaconda входит несколько полезных программ:

  • Jupyter Notebook и JupyterLab — это программы, позволяющие исполнять код на Питоне (и, как мы увидим, на других языках) и обрабатывать данные.
  • Spyder и PyCharm представляют собой так называемую интегрированную среду разработки (Integrated Development Environment, IDE). IDE — это редактор кода наподобие программы Atom или Sublime Text с дополнительными возможностями автодополнения, компиляции и интерпретации, анализа ошибок, отладки (debugging), подключения к базам данных и др.
  • RStudio — интегрированная среда разработки для программирования на R.

На схеме структура Anaconda выглядит следующим образом:

компоненты Anaconda

Установка дистрибутива Anaconda на Windows

Шаг 1. Скачайте Anaconda⧉ с официального сайта.

Шаг 2. Запустите установщик.

На одном из шагов установки вам предложат поставить две галочки, в частности (1) добавить Anaconda в переменную path и (2) сделать дистрибутив Anaconda версией, которую Windows обнаруживает по умолчанию.

установка дистрибутива Anaconda

Не отмечайте ни один из пунктов!

Так вы сможете использовать два дистрибутива Питона, первый дистрибутив мы установили на прошлом занятии, второй — сейчас.

Как запустить Jupyter Notebook

После того как вы скачали и установили Anaconda, можно переходить к запуску ноутбука.

Шаг 1. Откройте Anaconda Navidator

Открыть Anaconda Navigator можно двумя способами.

Способ 1. Запуск из меню «Пуск». Просто перейдите в меню «Пуск» и выберите Anaconda Navigator.

как открыть Anaconda Navigator

Способ 2. Запуск через Anaconda Prompt. Также из меню «Пуск» откройте терминал Anaconda Prompt.

как открыть Anaconda Navigator через Anaconda Prompt

Введите команду anaconda-navigator.

команда anaconda-navigator в Anaconda Prompt

В результате должно появиться вот такое окно.

интерфейс Anaconda Navigator

Шаг 2. Откройте Jupyter Notebook

Теперь выберите Jupyter Notebook и нажмите Launch («Запустить»).

запуск Jupyter Notebook через Anaconda Navigator

Замечу, что Jupyter Notebook можно открыть не только из Anaconda Navigator, но и через меню «Пуск», а также введя в терминале Anaconda Prompt команду jupyter-notebook.

В результате должен запуститься локальный сервер, и в браузере откроется перечень папок вашего компьютера.

список директорий при запуске Anaconda Navigator

Шаг 3. Выберите папку и создайте ноутбук

Выберите папку, в которой хотите создать ноутбук. В моем случае я выберу Рабочий стол (Desktop).

Теперь в правом верхнем углу нажмите New → Python 3.

создание Jupyter Notebook с ядром на Питоне

Мы готовы писать и исполнять код точно также, как мы это делаем в Google Colab.

ячейка с кодом Jupyter Notebook

Импортируем библиотеку Numpy и создадим массив.

импорт библиотеки Numpy в Jupyter Notebook

Шаг 4. Сохраните ноутбук и закройте Jupyter Notebook

Переименуйте ноутбук в mynotebook (для этого, как и в Google Colab, отредактируйте само название непосредственно в окне ноутбука). Сохранить файл можно через File → Save and Checkpoint.

сохранение ноутбука

Обратите внимание, помимо файла mynotebook.ipynb, Jupyter Notebook создал скрытую папку .ipynb_checkpoints. В ней хранятся файлы, которые позволяют вернуться к предыдущей сохраненной версии ноутбука (предыдущему check point). Сделать это можно, нажав File → Revert to Checkpoint и выбрав дату и время предыдущей сохраненной версии кода.

Когда вы закончили работу, закройте вкладку с ноутбуком. Остается прервать работу локального сервера, нажав Quit в правом верхнем углу.

остановка локального сервера Jupyter Notebook

Особенности работы

Давайте подробнее поговорим про возможности Jupyter Notebook. Снова запустим только что созданный ноутбук любым удобным способом.

Код на Python

В целом мы пишем обычный код на Питоне.

Вкладка Cell

Для управления запуском или исполнением ячеек можно использовать вкладку Cell.

вкладка Cell программы Jupyter Notebook

Здесь мы можем, в частности:

  • Запускать ячейку и оставаться в ней же через Run Cells
  • Исполнять все ячейки в ноутбуке, выбрав Run All
  • Исполнять все ячейки выше (Run All Above) или ниже текущей (Run All Below)
  • Очистить вывод ячеек, нажав All Output → Clear

Вкладка Kernel

Командами вкладки Kernel мы управляем ядром (kernel) или вычислительным «движком» ноутбука.

вкладка Kernel программы Jupyter Notebook

В этой вкладке мы можем, в частности:

  • Прервать исполнение ячейки командой Interrupt. Это бывает полезно, если, например, исполнение кода занимает слишком много времени или в коде есть ошибка и исполнение кода не прервется самостоятельно.
  • Перезапустить kernel можно командой Restart. Кроме того, можно
    • очистить вывод (Restart & Clear Output) и
    • заново запустить все ячейки (Restart & Run All)

Несколько слов про то, что такое ядро и как в целом функционирует Jupyter Notebook.

схема Jupyter Notebook: пользователь, браузер, сервер, ядро, файл

Пользователь взаимодействует с ноутбуком через браузер. Браузер в свою очередь отправляет запросы на сервер. Функция сервера заключается в том, чтобы загружать ноутбук и сохранять внесенные изменения в формате JSON с расширением .ipynb. Одновременно, сервер обращается к ядру в тот момент, когда необходимо обработать код на каком-либо языке (например, на Питоне).

Такое «разделение труда» между браузером, сервером и ядром позволяет во-первых, запускать Jupyter Notebook в любой операционной системе, во-вторых, в одной программе исполнять код на нескольких языках, и в-третьих, сохранять результат в файлах одного и того же формата.

Возможность программирования на нескольких языках (а значит использование нескольких ядер) мы изучим чуть позже, а пока посмотрим как устанавливать новые пакеты для Питона внутри Jupyter Notebook.

Установка новых пакетов

Установить новые пакеты в Anaconda можно непосредственно в ячейке, введя !pip install <package_name>. Например, попробуем установить Numpy.

установка пакетов внутри Jupyter Notebook

Система сообщила нам, что такой пакет уже установлен. Более того, мы видим путь к папке внутри дистрибутива Anaconda, в которой Jupyter «нашел» Numpy.

При подготовке этого занятия я использовал два компьютера, поэтому имя пользователя на скриншотах указано как user или dmvma. На вашем компьютере при указании пути к файлу используйте ваше имя пользователя.

В последующих разделах мы рассмотрим дополнительные возможности по установке пакетов через Anaconda Prompt и Anaconda Navigator.

По ссылке ниже вы можете скачать код, который мы создали в Jupyter Notebook.

Два Питона на одном компьютере

Обращу ваше внимание, что на данный момент на моем компьютере (как и у вас, если вы проделали шаги прошлого занятия) установлено два Питона, один с сайта www.python.org⧉, второй — в составе дистрибутива Anaconda.

Посмотреть на установленные на компьютеры «Питоны» можно, набрав команду where python в Anaconda Prompt.

команда where python в Anaconda Prompt

Указав полный или абсолютный путь (absolute path) к каждому из файлов python.exe, мы можем в интерактивном режиме исполнять код на версии 3.8 (установили с www.python.org) и на версии 3.10 (установили в составе Anaconda). При запуске файла python.exe из папки WindowsApps система предложит установить Питон из Microsoft Store.

В этом смысле нужно быть аккуратным и понимать, какой именно Питон вы используете и куда устанавливаете очередной пакет.

В нашем случае мы настроили работу так, чтобы устанавливать библиотеки для Питона с www.python.org через командную строку Windows, и устанавливать пакеты в Анаконду через Anaconda Prompt.

Убедиться в этом можно, проверив версии Питона через python --version в обеих программах.

команда python --version в командной строке Windows и Anaconda Prompt

Теперь попробуйте ввести в них команду pip list и сравнить установленные библиотеки.

Markdown в Jupyter Notebook

Вернемся к Jupyter Notebook. Помимо ячеек с кодом, можно использовать текстовые ячейки, в которых поддерживается язык разметки Markdown. Мы уже коротко рассмотрели этот язык на прошлом занятии, когда создавали пакет на Питоне.

По большому счету, с помощью несложных команд Markdown, вы говорите Jupyter как отформатировать ту или иную часть текста.

Рассмотрим несколько основных возможностей форматирования (для удобстства и в силу практически полного совпадения два последующих раздела приведены в ноутбуке Google Colab).

Откроем ноутбук к этому занятию

Заголовки

Заголовки создаются с помощью символа решетки.

заголовки в markdown

Если перед первым символом решетки поставить знак \, Markdown просто выведет символы решетки.

символ "\" перед символом решетки в markdown

Абзацы

Абзацы отделяются друг от друга пробелами.

абзацы в markdown

Мы также можем разделять абзацы прямой линией.

горизонтальная линия в markdown

Выделение текста

выделение текста в markdown

Форматирование кода и выделенные абзацы

Мы можем выделять код внутри строки или отдельным абзацем.

форматирование кода в markdown

Возможно выделение и текстовых абзацев ( так называемые blockquotes).

выделенный абзац в markdown

Списки

Посмотрим на создание упорядоченных и неупорядоченных списков.

упорядоченные и неупорядоченные списки в markdown

Ссылки и изображения

Текст ссылки заключается в квадратные скобки, сама ссылка — в круглые.

ссылка в markdown

Изображение форматируется похожим образом.

логотип Jupyter Notebook и Python

Таблицы

таблица в markdown

Таблицы для Markdown бывает удобно создавать с помощью специального инструмента⧉.

Формулы на LaTeX

В текстовых полях можно вставлять формулы и математические символы с помощью системы верстки, которая называется LaTeX (произносится «латэк»). Они заключаются в одинарные или двойные символы $.

Если использовать одинарный символ $, то расположенная внутри формула останется в пределах того же абзаца. Например, запись $ y = x^2 $ даст $ y = x^2 $.

В то время как $$ y = x^2 $$ поместит формулу в новый абзац.

$$ y = x^2 $$

Одинарный символ \ добавляет пробел. Двойной символ \\ переводит текст на новую строку.

символы \ (пробел) и \\ (перенос строки) в LaTeX

Рассмотрим некоторые элементы синтаксиса LaTeX.

Форматирование текста

форматирование текста в LaTeX

Надстрочные и подстрочные знаки

надстрочные и подстрочные знаки в LaTeX

Скобки

Вначале рассмотрим код для скобок в пределах высоты строки.

скобки в пределах высоты строки в LaTeX

Кроме того, с помощью \left(, \right), а также \left[, \right] и так далее можно увеличить высоту скобки. Сравните.

круглые скобки с увеличенной высотой в LaTeX

Также можно использовать отдельные команды для скобок различного размера.

скобки различного размера в LaTeX

Дробь и квадратный корень

дробь и квадратный корень в LaTeX

Греческие буквы

греческий алфавит в LaTeX
греческий алфавит в LaTeX 2

Латинские обозначения

латинские обозначения в LaTeX

Логические символы и символы множества

логические символы и символы множества в LaTeX

Другие символы

другие символы в LaTeX

Кусочная функция и система уравнений

Посмотрим на запись функции sgn (sign function) средствами LaTeX.

функция sgn в LaTeX

Схожим образом записывается система линейных уравнений.

система линейных уравнений в LaTeX

Горизонтальная фигурная скобка

горизонтальная фигурная скобка в LaTeX

Предел, производная, интеграл

пределы, производная, интеграл в LaTeX

Сумма и произведение

сумма и произведение в LaTeX

Матрица

матрица в LaTeX

Программирование на R

Jupyter Notebook позволяет писать код на других языках программирования, не только на Питоне. Попробуем написать и исполнить код на R, языке, который специально разрабатывался для data science.

Вначале нам понадобится установить kernel для R. Откроем Anaconda Prompt и введем следующую команду conda install -c r r-irkernel. В процессе установки система спросит продолжать или нет (Proceed ([y]/n)?). Нажмите y + Enter.

Откройте Jupyter Notebook. В списке файлов создайте ноутбук на R. Назовем его rprogramming.

создание Jupyter Notebook с ядром на R

После установки нового ядра и создания еще одного файла .ipynb схема работы нашего Jupyter Notebook немного изменилась.

схема Jupyter Notebook: пользователь, браузер, сервер, ядра (Python и R), файлы

Теперь мы готовы писать код на R. Мы уже начали знакомиться с этим языком, когда изучали парадигмы программирования. Сегодня мы рассмотрим основные типы данных и особенности синтаксиса.

Переменные в R

Числовые, строковые и логические переменные

Как и в Питоне, в R мы можем создавать числовые (numeric), строковые (character) и логические (logical) переменные.

Для присвоения значений можно использовать как оператор =, так и операторы присваивания <- и ->. Обратите внимание, используя -> мы можем поместить значение слева, а переменную справа.

Посмотрим на результат (в Jupyter Notebook можно обойтись без функции print()).

Выведем класс созданных нами объектов с помощью функции class().

Тип данных можно посмотреть с помощью функции typeof().

Хотя вывод этих функций очень похож, мы, тем не менее, видим, что классу numeric соответствует тип данных double (число с плавающей точкой с двумя знаками после запятой).

Числовые переменные: numeric, double, integer

По умолчанию, в R и целые числа, и дроби хранятся в формате double.

Принудительно перевести 42 в целочисленное значение можно с помощью функции as.integer().

Кроме того, если после числа поставить L, это число автоматически превратится в integer.

Превратить integer обратно в double можно с помощью функций as.double() и as.numeric().

Если число хранится в формате строки, его можно перевести обратно в число (integer или double).

Вектор

Вектор (vector) — это одномерная структура, которая может содержать множество элементов одного типа. Вектор можно создать с помощью функции c().

С помощью функций length() и typeof() мы можем посмотреть соответственно общее количество элементов и тип данных каждого из них.

У вектора есть индекс, который (в отличие, например, от списков в Питоне), начинается с единицы.

При указании диапазона выводятся и первый, и последний его элементы.

Отрицательный индекс убирает элементы из вектора.

Именованный вектор (named vector) создается с помощью функции names().

Выводить элементы именованного вектора можно не только по числовому индексу, но и по их названиям.

Список

В отличие от вектора, список (list) может содержать множество элементов различных типов.

Матрица

Матрица (matrix) в R — это двумерная структура, содержащая одинаковый тип данных (чаще всего числовой). Матрица создается с помощью функции matrix() с параметрами data, nrow, ncol и byrow.

  • data — данные для создания матрицы
  • nrow и ncol — количество строк и столбцов
  • byrow — параметр, указывающий заполнять ли элементы матрицы построчно (TRUE) или по столбцам (FALSE)

Рассмотрим несколько примеров. Cоздадим последовательность целых чисел (по сути, тоже вектор).

Используем эту последовательность для создания двух матриц.

матрица на R, значения заполнены построчно
матрица на R, значения заполнены по столбцам

Зададим названия для строк и столбцов второй матрицы.

матрица на R с названиями столбцов и строк

Посмотрим на размерность этой матрицы с помощью функции dim().

Массив

В отличие от матрицы, массив (array) — это многомерная структура. Создадим трехмерный массив размерностью 3 х 2 х 3. Вначале создадим три матрицы размером 3 х 2.

Теперь соединим их с помощью функции array(). Передадим этой функции два параметра в форме векторов: данные (data) и размерность (dim).

Факторная переменная

Факторная переменная или фактор (factor) — специальная структура для хранения категориальных данных. Вначале немного теории.

Как мы узнаем на курсе анализа данных, категориальные данные бывают номинальными и порядковыми. Номинальные категориальные (nominal categorical) данные представлены категориями, в которых нет естественного внутреннего порядка. Например, пол или цвет волос человека, марка автомобиля могут быть отнесены к определенным категориям, но не могут быть упорядочены.

Порядковые категориальные (ordinal categorical) данные наоборот обладают внутренним, свойственным им порядком. К таким данным относятся шкала удовлетворенности потребителей, класс железнодорожного билета, должность или звание, а также любая количественная переменная, разбитая на категории (например, низкий, средний и высокий уровень зарплат).

Посмотрим, как учесть такие данные с помощью R. Начнем с номинальных данных.

номинальный фактор на R

Как вы видите, функция factor() разбила данные на категории, при этом эти категории остались неупорядоченными. Посмотрим на класс созданного объекта.

Теперь поработаем с порядковыми данными.

порядковый фактор на R

Выведем класс созданного объекта.

Добавлю, что количество элементов в каждой из категорий можно посмотреть с помощью функции summary().

количество элементов в каждой из категорий порядкового фактора

Датафрейм

Датафрейм в R выполняет примерно ту же функцию, что и в Питоне. С помощью функции data.frame() создадим простой датафрейм, гда параметрами будут названия столбцов, а аргументами — векторы их значений.

датафрейм на R

Доступ к элементам датафрейма можно получить по индексам строк и столбцов, которые также начинаются с единицы.

индекс ячеек датафрейма на R
первая строка датафрейма на R

Получить доступ к столбцам можно и так.

Дополнительные пакеты

Как и в Питоне, в R мы можем установить дополнительные пакеты через Anaconda Prompt. Например, установим пакет ggplot2 для визуализации данных. Для этого введем команду conda install r-ggplot2.

В целом команда установки пакетов для R следующая: conda install r-<package_name>.

Продемонстрируем работу с этим пакетом с помощью несложного датасета mtcars.

датасет mtcars на R
Примечание. Здесь приведена лишь часть датасета.

Теперь импортируем установленную ранее библиотеку ggplot2.

Построим гистограмму по столбцу mpg (miles per galon, расход в милях на галлон топлива). Для построения гистограммы нам потребуется через «+» объединить две функции:

  • функцию ggplot(), которой мы передадим наши данные и еще одну функцию aes(), от англ. aesthetics, которая свяжет ось x нашего графика и столбец данных mpg, а также
  • функцию geom_histogram() с параметрами bins (количество интервалов) и binwidth (их ширина), которая и будет отвечать за создание гистограммы
гистограмма в R

Примерно также мы можем построить график плотности распределения (density plot). Только теперь мы передадим функции aes() еще один параметр fill = as.factor(vs), который (предварительно превратив столбец в фактор через as.factor()) позволит разбить данные на две категории по столбцу vs. В этом датасете признак vs указывает на конфигурацию двигателя (расположение цилиндров), v-образное, v-shaped (vs == 0) или рядное, straight (vs == 1).

Кроме того, для непосредственного построения графика мы будем использовать новую функцию geom_density() с параметром alpha, отвечающим за прозрачность заполнения пространства под кривыми.

график плотности в R

Дополнительно замечу, что к столбцам датафрейма можно применять множество различных функций, например, рассчитать среднее арифметическое или медиану с помощью несложных для запоминания mean() и median().

Кроме того, мы можем применить уже знакомую нам функцию summary(), которая для количественного столбца выдаст минимальное и максимальное значения, первый (Q1) и третий (Q2) квартили, а также медиану и среднее значение.

В файле ниже содержится созданный нами код на R.

Вернемся к основной теме занятия.

Подробнее про Anaconda

Conda

Программа conda, как уже было сказано, объединяет в себе систему управления пакетами (как pip) и, кроме того, позволяет создавать окружения.

Идея виртуального окружения (virtual environment) заключается в том, что если в рамках вашего проекта вы, например, используете определенную версию библиотеки Numpy и установка более ранней или более поздней версии приведет к сбоям в работе вашего кода, хорошим решением была бы изоляция нужной версии Numpy, а также всех остальных используемых вами библиотек. Именно для этого и нужно виртуальное окружение.

Рассмотрим, как мы можем устанавливать пакеты и создавать окружения через Anaconda Prompt и через Anaconda Navigator.

Anaconda Prompt

Про пакеты. По аналогии с pip, установленные (в текущем окружении) пакеты можно посмотреть с помощью команды conda list.

Установить пакет можно с помощью команды conda install <package_name>. Обновить пакет можно через conda update <package_name>. Например, снова попробуем установить Numpy. о

установка пакета через Anaconda Prompt

Про окружения. По умолчанию мы работаем в базовом окружении (base environment). Посмотреть, какие в целом установлены окружения можно с помощью команды conda info --envs.

перечень виртуальных сред в Anaconda Prompt

Как вы видите, пока у нас есть только одно окружение. Давайте создадим еще одно виртуальное окружение и назовем его, например, waterfall.

Введите команду conda create --name waterfall.

создание новой виртуальной среды в Anaconda Prompt

Введем две команды

  • conda activate waterfall для активации нового окружения
  • conda list для того, чтобы посмотреть установленные в нем пакеты
пакеты, установленные в новой виртуальной среде

Как вы видите, в новом окружении нет ни одного пакета. Введем conda search seaborn, чтобы посмотреть какие версии этого пакета доступны для скачивания.

доступные для скачивания из репозитория Anaconda версии пакета seaborn

Скачаем этот пакет через conda install seaborn. Проверим установку с помощью conda list.

установка пакета seaborn через Anaconda Prompt

Как вы видите, помимо seaborn было установлено множество других необходимых для работы пакета библиотек. Вернуться в базовое окружение можно с помощью команд conda activate base или conda deactivate.

Импорт модулей и переменная path

На прошлом занятии мы научились импортировать собственный модуль в командной строке Windows (cmd).

Посмотрим, отличается ли содержимое списка path для двух установленных версий Питона. Для этого в командной строке Windows и в Anaconda Prompt перейдем в интерактивный режим с помощью python. Затем введем

содержимое переменной path в двух дистрибутивах Питона (python.org и Anaconda)

Как мы видим, пути в переменной path будут отличаться и это нужно учитывать, если мы хотим локально запускать собственные модули.

Anaconda Navigator

Запускать программы, управлять окружениями и устанавливать необходимые библиотеки можно также через Anaconda Nagivator. На вкладке Home вы видите программы, которые можно открыть (launch) или установить (install) для текущего окружения.

Anaconda Navigator: вкладка Home

На вкладке Environments отображаются созданные нами окружения (в частности, окружение waterfall, которое мы создали ранее) и содержащиеся в них пакеты.

Anaconda Navigator: вкладка Environments

В целом интерфейс интуитивно понятен, и так как мы уже познакомились с принципом создания окружений и установки в них дополнительных пакетов, уверен, работа с Anaconda Navigator сложностей не вызовет.

Прежде чем завершить, обратимся к еще одной программе для интерактивного программирования JupyterLab.

JupyterLab

JupyterLab — расширенная версия Jupyter Notebook, которая также входит в дистрибутив Anaconda. Запустить эту программу можно через Anaconda Navigator или введя команду jupyter lab в Anaconda Prompt.

После запуска вы увидите вкладку Launcher, в которой можно создать новый ноутбук (Notebook) на Питоне или R, открыть консоль (Console) на этих языках, а также создать файлы в различных форматах (Other). Слева вы видите список папок компьютера.

JupyterLab: вкладка Launcher

В разделе Console нажмем на Python 3 (ipykernel). Введем несложный код (см. ниже) и исполним его, нажимая Shift + Enter.

консоль на Python в JupyterLab

Как вы видите, здесь мы можем писать код на Питоне так же, как мы это делали в командной строке Windows на прошлом занятии. Закроем консоль.

В файловой системе слева мы можем открывать уже созданные ноутбуки. Например, откроем ноутбук на R rprogramming.ipynb.

ноутбук на R в JupyterLab

В левом меню на второй сверху вкладке мы видим открытые горизонтальные вкладки (Launcher и rprogramming.ipynb), а также запущенные ядра (kernels).

открытые ноутбуки и запущенные ядра в JupyterLab

Консольные ядра (Console 1 и Console 2) можно открыть (по сути, мы снова запустим консоль).

консоль на R в JupyterLab

Две оставшиеся вертикальные вкладки открывают доступ к автоматическому оглавлению (content) и расширениям (extensions).

автоматическое оглавление в JupyterLab
расширения в JupyterLab

Вкладки Run и Kernel в верхнем меню JupyterLab в целом аналогичны вкладкам Cell и Kernel в JupyterNotebook.

Подведем итог

На сегодняшнем занятии мы познакомились с программой Jupyter Notebook, а также изучили дистрибутив Anaconda, в состав которого входит эта программа.

Говоря о программе Jupyter Notebook, мы узнали про возможности работы с ячейками и ядром программы. Кроме того, мы познакомились с языком разметки Markdown и написанием формул с помощью языка верстки LaTeX.

После этого мы установили ядро для программирования на R и рассмотрели основы этого языка.

При изучении дистрибутива Anaconda мы позникомились с системой conda и попрактиковались в установке библиотек и создании окружений через Anaconda Prompt и Anaconda Navigator.

Наконец мы узнали про особенности программы JupyterLab.

Вопросы для закрепления

Вопрос. Что такое Anaconda?

Ответ: Anaconda — это дистрибутив Питона (с репозиторием пакетов) и отдельной программой управления окружениями и пакетами conda. Пользователь может взаимодействовать с этой программой через терминал (Anaconda Prompt) и графический интерфейс (Anaconda Navigator).

Помимо этого, в дистрибутив Anaconda входят, среди прочих, программы Jupyter Notebook и JupyterLab.

Вопрос. Какой тип ячеек доступен в Jupyter Notebook?

Ответ: в Jupyter Notebook есть два основных типа ячеек — ячейки для написания кода (в частности, на Питоне и R) и текстовые ячейки, поддерживающие Markdown и LaTeX.

Вопрос. Для чего нужно виртуальное окружение?

Ответ: виртуальное окружение (virtual environment) позволяет установить и изолировать определенные версии Питона и его пакетов. Таким образом код, написанный с учетом конкретной версии Питона и дополнительных библиотек, исполнится без ошибок.


Ответы на вопросы

Вопрос. Можно ли исполнить код на R в Google Colab?

Ответ. Да, это возможно. Причем двумя способами.

Способ 1. Откройте ноутбук. Введите и исполните команду %load_ext rpy2.ipython. В последующих ячейках введите %R, чтобы в этой же строке написать код на R или %%R, если хотите, чтобы вся ячейка исполнилась как код на R (так называемые магические команды).

В этом случае мы можем исполнять код на двух языках внутри одного ноутбука.

Приведенный выше код можно найти в дополнительных материалах⧉ к занятию.

Способ 2. Если вы хотите, чтобы весь код исполнялся на R (как мы это делали в Jupyter Notebook), создайте новый ноутбук используя одну из ссылок ниже:

Теперь, если вы зайдете на вкладку Runtime → Change runtime type, то увидите, что можете выбирать между Python и R.

ноутбук на R в Google Colab

Выведем версию R в Google Colab.

Посмотреть на установленные пакеты можно с помощью installed.packages(). Созданный ноутбук Google Colab на R доступен по ссылке⧉.


Вопрос. Очень медленно загружается Anaconda. Можно ли что-то сделать?

Ответ. Можно работать через Anaconda Prompt, эта программа быстрее графического интерфейса Anaconda Navigator.

Кроме того, можно использовать дистрибутив Miniconda⧉, в который входит conda, Питон и несколько ключевых пакетов. Остальные пакеты устанавливаются вручную по мере необходимости.


Вопрос. Разве Jupyter не должен писаться через i, как Jupiter?

Ответ. Вы правы в том плане, что название Jupyter Notebook происходит не от планеты Юпитер, которая по-английски как раз пишется через i (Jupiter), а представляет собой акроним от названий языков программирования Julia, Python и R.

При этом, как утверждают разработчики⧉, слово Jupyter также отсылает к тетрадям (notebooks) Галилея, в которых он, в частности, документировал наблюдение за лунами Юпитера.


Вопрос. В каких еще программах можно писать код на Питоне и R?

Ответ. Таких программ несколько. Довольно удобно пользоваться облачным решением Kaggle. Там можно создавать как скрипты (scripts, в том числе RMarkdown Scripts), так и ноутбуки на Питоне и R. Подробнее можно почитать в документации⧉ на их сайте.


Вопрос. Можно ли создать виртуальное окружение каким-либо другим способом помимо программы conda?

Ответ. Да, можно. Вот здесь⧉ есть хорошая видео-инструкция.

Вот коротко какие шаги нужно выполнить.

Вначале убедитесь, что у вас уже установлен Питон. В нем по умолчанию содержится модуль venv, который как раз предназначен для создания виртуального окружения.

Шаг 1. Создайте папку с вашим проектом, например, пусть это будет папка webapp для веб-приложения на популярном фреймворке для Питона Django.

папка с проектом веб-приложения

Шаг 2. В командной строке перейдите в папку webapp.

переход в папку с проектом веб-приложения в командной строке

Затем введите команду для создания виртуального окружения.

По сути мы говорим Питону создать окружение djenv (название может быть любым) с помощью модуля venv. Переключатель (flag или switch) -m подсказывает питону, что venv — это модуль, а не файл.

После выполнения этой команды создается папка djenv виртуального окружения.

папка виртуального окружения

Шаг 3. Активируем это виртуальное окружение следующей командой.

активация виртуального окружения в командной строке

Здесь мы обращаемся к файлу activate внутри папки Scripts. Как вы видите, название окружения появилось слева от пути к папке.

Теперь через pip можно устанавливать пакеты, которые будут «видны» только внутри виртуального окружения djenv.

Шаг 4. Выйти из этого виртуального окружения можно с помощью команды deactivate. Если вам нужно удалить окружение, сначала деактивируйте его, а затем вручную удалите соответствующую папку.

На следующем занятии мы поговорим про такую важную тему, как регулярные выражения.