Базовая инструкция по работе с вычислительным комплексом на основе GPU NVidia

Южно-Уральский государственный университет (национальный исследовательский университет)
НАУЧНО-ОБРАЗОВАТЕЛЬНЫЙ ЦЕНТР "ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И КВАНТОВЫЕ ТЕХНОЛОГИИ" ЛАБОРАТОРИЯ СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ

Главная / Пользователям / Инструкции / Базовая инструкция по работе с вычислительным комплексом на основе GPU NVidia

Подключение к комплексу «GPU»

Пользователям для доступа необходимо пройти процедуру регистрации

Дополнительные инструкции по запуску задач, запуску Jupyter Notebook, а также настройке окружений Anaconda вы можете получить по ссылкам ниже:

Запуск задач

Запуск Jupyter Notebook

Конфигурация окружений Anaconda

Удаленный доступ к комплексу

Удаленное подключение к головному узлу осуществляется через головной узел Торнадо по протоколу SSH по адресу nv.hpc.susu.ru на порту 3322 используя следующую команду

ssh -p 3322 nv.hpc.susu.ru

В операционных системах Linux и Mac OS для подключения используется приложение ssh, для Microsoft Windows рекомендуется свободно распространяемая программа PuTTY.

Вход в систему начинается с системного приглашения login: в ответ на него следует ввести имя пользователя и нажать клавишу [ENTER]. Затем система запросит пароль пользователя. Введите пароль и нажмите клавишу [ENTER]. Обратите внимание, при вводе пароля символы на экране не печатаются, тем не менее, сам пароль вводится.

Для смены своего пароля после входа в систему необходимо воспользоваться командой passwd и дважды ввести новый пароль в ответ на приглашение. Вводимые символы отображаться не будут.

Передача файлов на головной узел

Для передачи файлов на вычислительный комплекс воспользуйтесь программами, поддерживающими протокол SFTP. Для MS Windows рекомендуется программа WinSCP, для ОС Linux — scp, для MacOS — программы scp/Cyberduck/Mountain Duck.

Хранение файлов

В соответствии с правилами, пользователь самостоятельно обеспечивает резервное копирование своих данных. Хранение данных, которые уже не участвуют в вычислениях, на логин сервере не допускается.

Пользовательские директории имеют вид /home/<имя_пользователя> и физически размещены на хранилище Panasas ActiveStor 8

Настройка окружения

Для управления версиями прикладных программных пакетов и библиотек установлен программный пакет Environmental Modules. Он позволяет гибко настраивать переменные окружения для использования тех или иных версий ПО и отслеживания их зависимостей (в том числе, при запуске в пакетном режиме с помощью sbatch). Также использование Environmental Modules позволяет гибко управлять разными версиями приложения (например, можно быстро переключаться между различными версиям компиляторов и версиями Anaconda).

Использование пакета Environmental Modules

Основные команды работы с пакетом Environmental Modules

module avail – вывести список доступных модулей
module list – вывести список загруженных модулей
module load module1 – загрузить модуль module1 версии version
module unload module1 – выгрузить модуль module1 версии version
module swap module1 module2 – заменить загруженный модуль module1 на module2
module purge – выгрузить все загруженные модули
module whatis module1 – показать информацию о модуле module1
module save [env_name] – сохранить текущий набор загруженных модулей под именем env_name. Если не указывать имя, то набор будет перезаписан набор по умолчанию
module restore [env_name] – загрузить набор сохранённых модулей
module describe [env_name] – показать состав набора сохранённых модулей

Примеры использования пакета Environmental Modules

Просмотр загруженных модулей:

$ module list
Currently Loaded Modules:
1)cuda/10.2 2) anaconda/2020.07

Просмотр доступных модулей:

$ module avail
anaconda/2020.07 gcc/4.8.5

cuda/10.2 cuda/cudnn/8.0.2.39

Выгрузка всех модулей и загрузка модулей cuda/10.2 и anaconda/2020.07:

$ module purge
  $ module add cuda/10.2 anaconda/2020.07
  $ module list
  Currently Loaded Modules:
  1) cuda/10.2  2) anaconda/2020.07

Сохранение набора модулей по умолчанию:

$ module save
Saved current collection of modules to: «default»

Постановка задачи в очередь

Для запуска расчётов пользователи обязаны использовать систему управления заданиями Slurm. Данная система (планировщик задач) управляет доступными ресурсами и размещает задачи.

Для постановки задачи в очередь рекомендуется использовать команду sbatch. Для её работы необходимо подготовить скрипт-файл с нужными ключами и командами:

#!/bin/bash
#SBATCH <ключ sbatch> <значение>
#SBATCH <ключ sbatch> <значение>
<пользовательские команды>

Другим способом запуска задачи в очереди является команда srun, выполняющая задачу интерактивно. Например: srun [опции] my_python_task.py

Подробная информация по запуску задач доступна в отдельной инструкции.

Просмотр состояния очереди

Посмотреть текущее состояние очереди задач можно командой squeue.

Удаление задачи из очереди

Для удаления задачи из очереди используйте команду scancel [номер задачи].

Для более подробного знакомства с ОС Linux Вы можете пройти бесплатные курсы, например:

В случае проблем

Для решения возникающих вопросов по использованию сервера обратитесь к специалистам суперкомпьютерного центра лаборатории суперкомпьютерного моделирования, создав заявку на портале поддержки https://mantis.hpc.susu.ru/, либо по электронной почте: supercomputer@susu.ru. В заявке следует подробно описать возникшую проблему и шаги по её воспроизведению.

Приоритет 2030

Суперкомпьютерный консорциум университетов России

Кафедра системного программирования

Высшая школа электроники и компьютерных наук

Supercomputing Frontiers and Innovations

Вестник ЮУрГУ

Центр компетенции ЮУрГУ-Intel

© Лаборатория суперкомпьютерного моделирования ЮУрГУ, 2008-2024
Разработка сайта: отдел поддержки и обучения пользователей.