Nvidia удалось собрать седьмой по скорости суперкомпьютер всего за один месяц

Компания Nvidia поделилась информацией о процессе сборки суперкомпьютера Селена (Selene), который в июне стал седьмым по скорости суперкомпьютером в мире. Его успели собрать во время пандемии, всего за три с половиной недели, при помощи команды из шести людей и робота по имени Трип.



Селена - довольно уникальный суперкомпьютер. Он использует коммерчески доступную архитектуру DGX SuperPOD с ускорением на GPU от Nvidia, а не специализированные конструкции с тяжелым процессором, которые доминируют в большинстве списка Top500. Кроме того, новый суперкомпьютер занимает второе место в списке самых энергоэффективных суперкомпьютеров Green500.

Если говорить о цифрах, то Селена использует 560 процессоров AMD Epyc 7742 (по 64 ядра) и 2240 графических процессоров Nvidia A100. Его пиковая теоретическая производительность составляет чуть менее 35 тысяч терафлопс.

Отметим, что на создание предыдущих суперкомпьютеров Nvidia уходили месяцы, кроме того - их было чрезвычайно сложно обслуживать и обновлять. Когда дело дошло до разработки Селены, компания постаралась сделать суперкомпьютер максимально простым и модульным. Каждый из 280 узлов Селены представляет собой стандартизированный модуль DGX, содержащий восемь графических процессоров Nvidia A100 и два процессора AMD Epyc. 

Наиболее интересен тот факт, что Nvidia проявила творческий подход к оборудованию для мониторинга Selene. Они купили маленького робота по имени Трип, которым можно управлять дистанционно, чтобы наблюдать за происходящим внутри Селены. Они также создали бота для мессенджера Slack, который отправляет им уведомления, если оборудование работает неправильно или отсоединился кабель.

В настоящее время Селена сейчас обрабатывает около тысячи задач, в основном связанных с разработкой искусственного интеллекта и обучением нейронных сетей. При этом свободные мощности суперкомпьютера посвящены исследованию коронавируса.