Исследователи Nvidia представляют фреймворк рендеринга, который может создавать 3D-объекты из 2D-изображений

Исследователи Nvidia создали фреймворк для рендеринга, который использует искуственный интеллект для обработки 2D-информации и ее точного преобразования в 3D-объект. Фрейморк получил название DIB-R, сокращенно от "differentiable interpolation-based renderer" (дифференцируемого рендерера на основе интерполяции), и построена на PyTorch, фреймворке машинного обучения. На этой неделе команда представит свои результаты на ежегодной конференции по системам обработки нейронной информации в Ванкувере, штат Вашингтон.



По сути, фреймворк делает полностью противоположность того, чем обычно заняты графические процессоры. Он анализирует изображение, а затем формирует высококачественный трехмерный объект, включая форму, текстуру, цвет и освещение. Архитектура кодера-декодера начинается с многоугольной сферы и преобразует ее с использованием заданной в 2D-изображении информации.

Процесс занимает всего одну десятую секунды, но нейронной сети требуется два дня для обучения с использованием одного графического процессора Nvidia V100. Nvidia утверждает, что обучение с использованием других графических процессоров займет несколько недель. После подачи в него нескольких наборов данных, содержащих изображения птиц, DIB-R смог точно создать 3D-модели при наличии одного изображения.



Несмотря на то, что эксперимент проводился на изображениях птиц, соавтор исследовательской работы по этому вопросу, Цзюнь Гао, сказал, что система может преобразовать любое 2D-изображение в 3D-модель.

Исследователи полагают, что фреймворк может быть использован, чтобы предоставить автономным роботам восприятие глубины, тем самым повышая безопасность и точность при работе в окружающей среде. Способность понимать трехмерность вещей вокруг позволит роботам лучше ориентироваться, а также манипулировать объектами, с которыми им поручено работать.

Nvidia добавила DIB-R в Kaolin, свою трехмерную библиотеку глубокого обучения PyTorch GitHub. Kaolin помогает исследователям ускорить эксперименты по глубокому обучению в 3D.