Для обучения DeepSeek было потрачено значительно больше средств, чем заявили разработчики

Недавно среди крупнейших разработчиков нейросетей появился новый конкурент — китайская компания DeepSeek. Она выпустила в свободный доступ одноименную нейросеть, которая продемонстрировала высокую эффективность, не уступающую, а иногда даже превосходящую решения других компаний.  

Особое внимание к компании привлекает тот факт, что она базируется в Китае. Это означает, что разработка велась в условиях многочисленных санкций со стороны США, которые стремятся ограничить Китай в сфере полупроводников и ускорителей для работы с искусственным интеллектом. Однако, судя по всему, это не помешало создать мощную языковую модель.  

По словам разработчиков, на создание и обучение DeepSeek было потрачено всего $6 миллионов и использовано 2048 ускорителей. Такая сумма и количество оборудования считаются крайне скромными для проекта такого масштаба, что вызвало удивление у конкурентов, которые начали активно работать над более доступными и совершенными нейросетями, чтобы пользователи не перешли на китайский аналог.  

Однако, согласно анализу экспертов из SemiAnalysis, реальные затраты оказались гораздо выше. На разработку и обучение DeepSeek было потрачено около $1,6 миллиарда и задействовано примерно 60 тысяч ускорителей. Среди них — 10 тысяч H800, 10 тысяч H100, 10 тысяч A100 и большое количество H20 от NVIDIA. Это сумма без учета четырехлетних операционных расходов, с которыми финальное значение увеличивается почти до $2.6 миллиарда.