17 сентября 2019

Видеокарты Intel Xe: все, что мы знаем и не знаем

К 2020 году Intel намеревается вернуться в бизнес дискретной графики, представив свой новый GPU для геймеров. Есть два варианта: либо графику Intel засмеют, либо произойдёт чудо и им действительно удастся выйти на рынок, на котором с самого начала тысячелетия господствуют всего лишь два игрока.

Вот краткая хронология того, как анонсировалось предстоящее событие:

12 июня 2018 года. Бывший CEO Intel Брайан Крзанич (Brian Krzanich) на закрытом совещании сообщает инвесторам, что Intel уже несколько лет по-тихой разрабатывает архитектуру дискретного графического процессора «Arctic Sound» и выпустит ее в 2020 году.
8 января 2019 года. Старший вице-президент по работе с клиентами Грегори Брайант (Gregory Bryant) на международной выставке CES сообщает, что новый GPU будет изготовлен по 10-нм техпроцессу Intel.
21 марта 2019 года. Intel представляет внешний вид двух своих графических процессоров. Их дизайн напоминает SSD Optane, и судя по размерам, они обладают средней охлаждающей способностью.
1 мая 2019 года. Джим Джефферс (Jim Jeffers), главный инженер и директор группы рендеринга и визуализации, на конференции FMX 2019 объявляет о возможности трассировки лучей в Xe. Кроме того, Intel продолжает нанимать много специалистов.

Кроме того, между этими датами – многочисленные утечки и слухи, и благодаря всей этой накопленной информации, мы можем углубиться в основы архитектуры Intel. Об этом и будет наша статья.

Разработка

Не желая рисковать, Intel решила набрать свою графическую команду из экспертов, переманенных из AMD и Nvidia. Именно так мы впервые узнали, что Intel намерена создавать дискретные графические процессоры: они «увели» из AMD их директора по графической архитектуре и менеджера графического бизнеса Раджу Кодури (Raja Koduri), чтобы тот в 2017 году стал старшим вице-президентом по графическому ядру и графическим вычислениям в Intel.

Затем на должность старшего вице-президента по кремниевой инженерии пришел Джим Келлер (Jim Keller), ведущий разработчик архитектуры AMD Zen. Ведущим маркетологом по дискретным GPU в Intel стал Крис Хук (Chris Hook), бывший в AMD главным директором по глобальному маркетингу продуктов. Далее к ним присоединились Даррен МакФи (Darren McPhee), бывший директор по маркетингу продуктов AMD; Дэмиен Триолет (Damien Triolet), бывший маркетолог AMD, который до этого работал техническим журналистом; Том Петерсон (Tom Peterson), бывший разработчик чипов и директор технического маркетинга из Nvidia; и, наконец, Хизер Леннон (Heather Lennon), бывший менеджер AMD по графическому маркетингу и связям.

Это, конечно, лишь в основе всех тех открытых наймов, проведённых Intel для своей графической команды, которая в итоге насчитывает 4500 человек. Просто невозможно сделать что-то, хотя бы чуточку интересное, имея столь внушительный штат людей, да ещё таких талантливых.

Раджа Кодури

Архитектура

Количество ядер

Хотя Xe принадлежит будущему, любая технология неотделима от поколений прошлых продуктов и разработок, её породивших – поколений, которые достаточно хорошо известны и описаны. В первой линейке продуктов Xe будет использоваться архитектура, разработанная на основе современной «Gen11», но все еще тесно связанная с ней, исходя из заявлений Intel на CES. Таким образом, мы можем получить некоторую интригующую информацию, изучив документацию Intel по «Gen11».

Как вы, возможно, помните из нашего сравнения Navi и Turing, все графические архитектуры состоят из постепенно усложняющихся частей. Например, у Nvidia 16 ядер CUDA сгруппированы в блоки – четыре таких блока составляют потоковый мультипроцессор, который в паре образует кластер обработки текстур (TPC), и четыре или шесть таких TPC-кластеров составляют, наконец, один кластер графической обработки (GPC). Таким образом, каждый GPC содержит 512 или 768 ядер CUDA.

Как видно из таблицы, количество GPC и количество TPC на один GPC определяют количество ядер каждого кристалла. Обратите внимание, что в продажу графические процессоры могут поступать с несколькими отключенными ядрами. Например, RTX 2070 Super использует кристалл TU104 с включенными 83% ядер, ограничивая его до 2560 ядер CUDA.

	6 кластеров графической обработки (GPC)	3 кластера графической обработки (GPC)
768 CUDA per GPC (6 TPCs per GPC)	768 x 6 = 4608 CUDA (TU102)	768 x 3 = 2304 CUDA (TU106)
512 CUDA per GPC (4 TPCs per GPC)	512 x 6 = 3072 CUDA (TU104)	512 x 3 = 1536 CUDA (TU116)

Давайте применим ту же концепцию к архитектуре Intel.

Ядра Intel не похожи на CUDA от Nvidia, но они похожи на потоковые процессоры AMD, поэтому давайте рассмотрим их. Каждый такой потоковый процессор построен на одном логико-арифметическом устройстве, способном выполнять одну операцию с плавающей запятой или целочисленную операцию за такт. Логико-арифметические блоки Intel могут выполнять четыре операции за такт, поэтому назовем их эквивалентными четырем ядрам.

Intel начинает с объединения двух логико-арифметических блоков в один исполнительный модуль (восемь ядер), затем из восьми таких модулей образуется полу-слайс (64 ядра), и наконец восемь таких полу-слайсов составляют один полный слайс (512 ядер).

Процессоры Intel следующего поколения будут иметь один объединенный слайс, но, как вы уже догадались, линейка дискретных Xe будет состоять из нескольких слайсов. По сути, это означает, что Intel, так же как и Nvidia, может производить кристаллы только с числом ядер, кратным 512. Число ядер кристалла – это количество слайсов, умноженное на 512.

Слайсы	2	3	4	5	6	7	8
Ядра	1024	1536	2048	2560	3072	3584	4096
Имя*	iDG2HP128		iDG2HP256				iDG2HP512

*Имена взяты из «утёкшего» драйвера, подробности читайте на нашем сайте.

Заметьте, мы предполагаем, что Intel сохранит базовую конфигурацию слайсов «Gen11», потому что, откровенно говоря, у них может не хватить времени полностью перестроить свою графическую архитектуру к следующему году. Конечно, «Gen11» хорошо подходит как для интеграции, так и для дискретного проектирования, но некоторые её элементы требуют серьёзной модификации – такие, как рендер-бэкенд, который, если оставить его без изменений, станет узким местом в мультислайсовом дизайне.

Возможная архитектура Xe с 2048 ядрами (четыре слайса)

Изображение основано на чертежах Intel. Один маленький синий квадрат – это «исполнительный модуль» с восемью ядрами, большой серый прямоугольник – это один «слайс». Различные маленькие прямоугольники представляют компоненты рендер-бэкенда и кэша. Источник: techspot.com

Доказательства

К нашему удобству, Intel предоставила убедительные доказательства в поддержку нашим предположениям. Случайно опубликованный в конце июля драйвер содержал названия различных неизданных продуктов; «iDG2HP512», «iDG2HP256» и «iDG2HP128»; и мы расшифровали эти коды как «дискретная графика Intel [модель] 2 высокой мощности» («Intel discrete graphics [model] 2 high-power»), и количество исполнительных модулей в конце.

Каждый исполнительный модуль состоит из восьми ядер, так что «512» соответствует четырём слайсам и 4096 ядрам, «256» - двум слайсам и 2048 ядрам, и «128» - двум слайсам и 1024 ядрам. Эти конфигурации прекрасно поддерживают наш анализ.

Intel также проявляет заинтересованность в разработке способов объединения слайсов. В начале 2018 года Intel продемонстрировала прототип дискретного графического процессора, состоящего из двух слайсов «Gen9», объединенных на одном кристалле, и применила это на практике в своей недавно выпущенной Iris Plus Graphics 650, которая объединяет на одном кристалле два слайса «Gen9.5». Кроме того, они также экспериментировали с чипсетным подходом, использующим EMIB (embedded multi-die interconnect bridge – встроенный многокристальный соединительный мост), который впервые был использован в Kaby Lake G.

Архитектура EMIB

Источник: techspot.com

EMIB «экономически эффективно объединяет несколько разнородных кристаллов в один пакет», по существу объединяя два или более физических кристалла в один виртуальный кристалл для значительного удешевления при некотором снижении производительности.

Как утверждается в исследовательской работе Nvidia 2017 года, это связано с тем, что «чересчур большие кристаллы имеют чрезвычайно низкую результативность из-за большого количества неисправимых производственных ошибок».

Создавая множество маленьких кристаллов и объединяя их, Intel снижает вероятность ошибок при их изготовлении и делает эти ошибки более дешевыми для исправления. Хотя технология EMIB не совсем готова к массовому производству, в апреле Intel подтвердила порталу Anandtech, что намерена использовать EMIB для поддержки своих графических процессоров в ближайшее время.

Тактовые частоты

Время графиков. Мы нашли убедительный способ подсчета ядер, и теперь давайте посмотрим на их работу при худшем сценарии, чтоб определить базовую планку. А именно, мы проанализируем взаимосвязь между числом ядер и тактовой частотой, на которой работает лучшая на сегодня интегрированная графика Intel – 1150 МГц. Чтобы объединить на графике скорость и число ядер, мы построим его в терафлопсах (TFLOPS) – теоретическом показателе производительности, основанном на этих двух переменных. Стоит отметить, что хотя метод оценки в TFLOPS является отличным показателем производительности для графических процессоров одного поколения, созданных одним производителем, он менее надежен для сравнения двух разных производителей.

TFLOPS на частоте 1.2 Ггц

Примечание: TFLOPS рассчитывается с использованием базовых тактовых частот для компонентов Nvidia.

Мы видим, что несмотря на то, что Intel конкурирует на фронте количества ядер, на частоте 1150 МГц они вообще не конкуренты. Но к счастью, это не такая уж грустная ситуация. Ведь мы знаем, что Intel могут, по крайней мере, увеличить интегрированные скорости, поскольку они ограничиваются тепловой мощностью процессора, что не является проблемой, когда процессора нет. Во-вторых, новые чипы Intel Xe будут использовать более быстрый и производительный 10-нм техпроцесс.

Техпроцесс Intel 10 нм считается в худшем случае эквивалентным 7 нм TSMC, который обеспечивает гейминг на частоте 1800 МГц при хорошо охлажденном Radeon 5700XT. Intel также имеет долгую историю выжимания бо́льших скоростей из своих процессов, чем ее конкуренты. Так или иначе, это первое поколение графических процессоров Intel за долгое и долгое время, поэтому, чтобы не ошибиться, скажем осторожно: допустим, Intel сможет работать по крайней мере на частоте 1700 МГц.

TFLOPS на частоте 1.7 Ггц

На этих потенциально более реалистичных скоростях Intel выглядит весьма конкурентоспособной в плане TFLOPS. Имейте в виду, однако, что эти оценки лишь весьма приблизительные, особенно при сравнении расчетов по количеству ядер.

Таким образом, вполне вероятно, что дискретные графические процессоры Xe появятся с 512-кратными ядрами по примерно той же цене за ядро, что и Nvidia, и с конкурентоспособными частотами 1,7 ГГц.

Программное обеспечение

Графические процессоры – это гораздо больше, чем просто железо. Nvidia, как известно, программистов нанимает больше, чем разработчиков оборудования. Поддержка каждой игры является дорогостоящим и трудоемким вложением, что является одной из причин, по которой практически не существует новых участников рынка игровых графических процессоров. За исключением Intel, которая хоть и новичок в сфере дискретного оборудования, но уж точно не новичок в программном обеспечении. Конвертировать существующие встроенные драйвера в дискретные – дело для Intel несложное.

Такого рода драйвера всё ещё недостаточно хорошо поддерживаются, и за это Intel критикуют уже давно. Среднее время между их последними десятью выпусками драйверов составляло двадцать пять дней, в то время как как у Nvidia – восемнадцать дней, и всего десять – у AMD. К счастью, есть большая вероятность, что Intel подтянется в этом плане ради Xe, учитывая, насколько важнее драйверы для дискретных графических процессоров по сравнению с интегрированными.

Однако не все так плохо. В прошлом году Intel добилась больших успехов, отбив позиции у Nvidia и AMD с помощью своего нового Command Center, обеспечивающего более тонкий и мягкий контроль над графическими процессорами и играми, чем у Nvidia GeForce Experience. Он предлагает оптимизацию игры с подробным объяснением того, что делает каждый параметр и какого его влияние на производительность, быструю настройку нескольких дисплеев с частотой обновления и синхронизацией вращения, настройку точности цветопередачи и стиля, а также управление драйвером. И, как тривиальная, но приятная деталь, Intel также поддерживает асинхронность, поэтому все продукты Xe будут поддерживать мониторы FreeSync и их внешнюю экосистему.

Продажи

Немного толку в разговорах об архитектуре или экосистеме, если не определена рыночная позиция продуктов. Об этом мы знаем очень мало. Они будут стоить 100 или 1000 долларов? Одна модель, две, десять? Когда недавно спросили, рассчитывает ли Xe на хай-энд рынок, Раджа Кодури ответил:

«Не каждый купит видеокарту за 500–600 долларов, но всё же их неплохо покупают – так что это отличный рынок. Таким образом, стратегия, которую мы используем, заключается в том, что нас не очень беспокоит диапазон производительности, диапазон затрат и все остальное, потому что в конечном итоге наша архитектура, как я уже говорил публично, должна охватывать весь диапазон – от мейнстрима, который начинается чуть ли не со 100 долларов, заканчивая дорогостоящим графическим оборудованием уровня дата-центров с HBM-памятью, и тому подобного.

Мы нацелены на все ниши; вопрос лишь – с какой начать: с первой, второй, третьей? И наша стратегия, рассчитанная на период примерно – ну, допустим, 2-3 года – охватить рынок полностью».

Вот оно: Intel выпустит несколько графических процессоров. Не совсем ценная информация, но ожидается, что Intel будет очень ревностно относиться к своим видеокартам. И поскольку это единственное официальное слово по этому вопросу, мы должны теперь обратиться к альтернативному источнику: «утёкшему» драйверу.

Три графических процессора, упомянутые в драйверах Intel, и которые, возможно, предназначены для первого выпуска, имеют 1024, 2048 и 4096 ядер. Это сделало бы их конкурентоспособными по производительности с RTX 1650, RTX 2060 и RTX 2080 Ti, соответственно, по цене 150$, 350$ и более 1000$. Intel может предпочесть превзойти Nvidia более высокими скоростями, либо более низкими ценами, или же просто поставить в один ряд, предложив более удачный, на её взгляд, функционал.

Драйвер также дает представление о долгосрочной перспективе с двумя картами «для разработчика». Вместе с другими тремя, сгруппированные в «iDG1LPDEV», что расшифровывается нами как «дискретная графика Intel [модель] 1 для разработчиков мало-мощных систем» («Intel discrete graphics [model] 1 low power developer»). Можно предположить, что Intel экспериментируют с маломощными графическими процессорами для ноутбуков. Существует также отдельный список «iATSHPDEV», где мы видим отсылку на кодовое имя «Arctic Sound» для архитектуры Xe, но невозможно подтвердить, что это дискретный графический процессор.

Кое-что нужно напомнить... То, что Intel в конечном итоге выпустит – неизвестно, и наши предположения не являются советом к покупке. Тем не менее, всё выглядит весьма многообещающе.