NVIDIA удалось вдвое повысить производительность H100 за счет применения TensorRT-LLM

NVIDIA не собирается никому отдавать лидерство в сегменте искусственного интеллекта, постоянно предлагая как новые ускорители, или модернизированные версии существующих, так и работая над программной оболочкой, предлагающей дополнительные оптимизации и прирост производительности.

Компания заявила о разработке программного обеспечения с открытым исходным кодом TensorRT-LLM, предназначенного для повышения производительности при работе с большими языковыми моделями, такими как GPT-J. Оно работает за счет инновационной технологии пакетной обработки данных на лету, оптимизируя планирование динамических и разнообразных рабочих нагрузок, максимально задействуя возможности графического процессора.

Внутренние тесты TensorRT-LLM показали 2-кратный прирост производительности ускорителя H100, а также 8-кратный прирост по сравнению с ускорителем прошлого поколения A100. Этот прирост применим к рабочей нагрузке GPT-J с применением 6 миллиардов параметров. Помимо этого, отмечается существенное улучшение энергосбережения.

«TensorRT-LLM прост в использовании, обладает множеством функций, включая потоковую передачу токенов, пакетную обработку в реальном времени, страничное внимание, квантование и многое другое. Он обеспечивает высокую производительность для LLM с использованием графических процессоров NVIDIA и позволяет нам экономить средства для наших клиентов», – Навин Рао (Naveen Rao), вице-президент по разработкам в Databricks.