Более подробно изучаем строение ускорителей AMD Instinct MI350

Мы уже познакомились с ускорителями высокопроизводительных вычислений AMD Instinct MI350 нового поколения, но в прошлом материале мы лишь вкратце затронули ключевые характеристики и строение. Предлагаем исправиться в этом материале, более подробно изучив их графический процессор.

MI350X и MI355X полагаются на один и тот же графический процессор, использующий 2-нм технологический процесс N3P в случае вычислительных чиплетов, они же Accelerator Complex Die (XCD). Каждый из них оснащён 36 вычислительными блоками на микроархитектуре CDNA 4 и предлагает 2304 потоковых процессора, что в сумме должно давать 18432 ядра, но на деле компания ограничилась лишь 32 CU и 2048 потоковыми процессорами, что даёт 16384 ядра. Видимо, это было сделано для повышения выхода годной продукции.

Четыре таких чиплета объединяются в единое целое при помощи плитки ввода-вывода, использующей более зрелый техпроцесс N6, а в процессоре таких плиток две, поэтому у нас имеется 8 XCD. Между собой плитки I/O связаны интерконнектом Infinity Fabric четвёртого поколения с пропускной способностью 5,5 Тбайт/с.

Также каждая из них использует один хост-контроллер PCI Express 5.0, четыре контроллера HBM3e, то есть может работать только с четырьмя стеками памяти, а в совокупности они обеспечивают поддержку 288 Гбайт памяти с пропускной способностью 8 Тбайт/с, и по три Infinity Fabric Link со скоростью 1075 Гбайт/с для общения с другими ускорителями. Каждый XCD получил 4 Мбайта кэша второго уровня, а значительно расширить пул получилось при помощи 256 Мбайт общего кэша третьего уровня, он же Infinity Cache.