В 2022 году на рынке дискретных видеокарт появился долгожданный третий игрок. Им стала компания Intel, представившая модели серии Arc на графической архитектуре Xe-HPG. А в конце 2024 года увидела свет первая видеокарта на втором поколении Xe-HPG, заметно доработанном и улучшенном. Как устроены графические процессоры Intel, и чем они отличаются от NVIDIA и AMD?
Дебют «синей» компании на рынке дискретной графики состоялся в далеком 1998 году. Тогда была выпущена видеокарта Intel 740, оказавшаяся не очень удачной и не сыскавшая популярности. Но Intel не дала пропасть имеющимся наработкам и использовала их для создания встроенной графики. В первые годы она обосновалась в чипсетах материнских плат. В 2010 году компания перенесла ГП в виде отдельного чипа под крышку своих центральных процессоров. А спустя год интегрировала графическое ядро прямо в кристалл ЦП.
С каждым поколением графическая архитектура Intel совершенствовалась. Сначала в ней потихоньку появлялись различные аппаратные блоки, с помощью которых были ликвидированы программные расчеты шейдеров на ЦП. А затем упор был сделан на повышение производительности и поддержку современных графических API.
Первые шаги к возвращению на рынок «большой» графики компания сделала в 2019 году. Тогда Intel объявила о разработке новой графической архитектуры Xe, которая станет основой и встроенных решений, и дискретных видеокарт. Ее упрощенная реализация Xe-LP дебютировала в начале 2021 года вместе со встроенным видеоядром процессоров Core 11-го поколения. А полноценная Xe-HPG, предназначенная для производительных решений, увидела свет в конце следующего года с выходом линейки видеокарт Arc A под кодовым названием Alchemist.
Устройство вычислительных блоков
Базовой единицей, выполняющей графические вычисления, у ГП Intel являются ядра Xe — элемент, схожий с потоковым мультипроцессором SM у NVIDIA
или вычислительным блоком CU у AMD.
В ядре архитектуры Xe-HPG первого поколения находятся:
128 блоков для вычислений с плавающей запятой (FP)
128 блоков для целочисленных вычислений (INT)
32 блока расширенной математики для выполнения сложных инструкций (EM)
16 блоков матричных вычислений (XMX)
Блок загрузки/выгрузки данных (Load/Store)
Кеш первого уровня (L1) объемом 192 Кб
Ядро Xe поделено на 16 равнозначных частей, которые называются векторными движками Xe (Xe Vector Engine, XVE). Движки объединены попарно и управляются общим потоком от планировщика задач.
К каждому XVE прикреплен блок XMX, а внутри находятся по 8 блоков FP и INT (выполняют шейдерные вычисления), два блока EM и регистровый файл. Все виды расчетов — плавающие, целочисленные и матричные — могут производиться параллельно, не мешая друг другу.
Графические процессоры Intel состоят из крупных вычислительных блоков Render Slice. В каждом таком блоке находится все необходимое для работы с графикой — четыре ядра Xe, четыре диспетчера управления потоками, четыре блока трассировки лучей (RTU), блок работы с геометрией, 16 растровых блоков (ROP) и 32 текстурных (TMU).
В первом поколении для игровых видеокарт было выпущено два графических чипа — ACM-G10 и ACM-G11. Оба производятся по техпроцессу TSMC N6. Старший получил в свое распоряжение восемь Render Slice и 256-битную шину памяти. А младший — всего два таких блока вместе с 96-битной памятью.
В архитектуре Xe2-HPG общий принцип строения ядер Xe сохранился, но было внесено несколько важных изменений. Вместо объединения движков XVE попарно Intel наделила каждый из них вдвое большим количеством исполнительных блоков: по 16 FP/INT и четыре EM. А для полной нагрузки векторных движков теперь можно использовать вычисления в 16 потоков. XVE первого поколения для этого нуждались в 32 потоках, поэтому в большинстве сценариев были гораздо менее эффективными.
При этом общее количество шейдерных блоков в ядре Xe осталось прежним, поэтому число XVE сократилось с 16 до 8. Похожему расширению подверглись и движки XMX — теперь их вдвое меньше, но каждый обладает вдвое более широкими вычислительными возможностями. Вместе с этим подрос и кэш L1, объем которого был увеличен до 256 Кб.
Второе поколение ГП Intel легло в основу видеокарт серии Arc B с кодовым названием Battlemage. На начало 2025 года оно представлено единственным чипом BMG-G21, который выпускается по техпроцессу TSMC N5. Он имеет пять блоков Render Slice и 192-битную шину памяти.
Трассировка лучей
Графические процессоры Intel оснащены полноценными блоками трассировки лучей. Все RT-вычисления выполняются внутри них, не требуя каких-либо ресурсов от шейдеров, аналогично тому, как работают RT-ядра NVIDIA.
Внутри каждого блока трассировки (RTU) первого поколения находятся два конвейера для расчетов пересечений лучей с иерархией ограничивающих объемов (BVH) и один конвейер для определения пересечений с полигонами, а также собственный кэш для структур BVH объемом 8 Кб. За один такт RTU может просчитывать до 12 пересечений с боксами BVH и одно пересечение с полигоном. Оба вида операций могут выполняться параллельно.
Работа Xe-ядра и привязанного к нему блока RTU координируется с помощью диспетчера Thread Sorting Unit (TSU). Этот планировщик переупорядочивает вычисления для шейдеров так, чтобы одинаковые операции выполнялись не в разброс, а друг за другом.
Таким образом достигается большая эффективность при задействовании трассировки лучей. Причем работает планировщик TSU, в отличие от схожего блока Shader Execution Reordering у ГП NVIDIA, автоматически — управление со стороны игры ему не требуется. Intel называет такой подход «асинхронным рейтрейсингом».
В архитектуре Xe2-HPG блоки трассировки были расширены. Теперь у каждого из них три конвейера для расчетов пересечений лучей с боксами BVH и два конвейера для тестирования пересечений с полигонами. Благодаря этому производительность поиска возросла до 18 и двух пересечений за такт, соответственно. Дополнительно повышает эффективность расчетов удвоенный кэш структур BVH объемом 16 Кб.
Матричные вычисления
Блоки XMX — это матричные ускорители, предназначенные для вычислений с низкой точностью. Они умеют выполнять такие расчеты в разы быстрее, чем универсальные шейдерные блоки.
XMX умеют работать как с плавающими (FP16/BF16), так и с целочисленными вычислениями (INT8/INT4/INT2). Для архитектур Xe-HPG обоих поколений этот набор схож, но в Xe2-HPG дополнительно поддерживается еще и формат TF32.
Как и тензорные ядра NVIDIA, блоки XMX могут использоваться для нейронных вычислений. В играх они обеспечивают подавление шумов, возникающих при трассировке лучей, а также работу фирменного комплекса повышения производительности Intel XeSS 2. Эта технология сочетает как временное масштабирование, доступное в первой версии XeSS, так и генерацию кадров.
При работе масштабирования XeSS исходные кадры рендерятся со сдвигом в пониженном разрешении. Полученная картинка комбинируется с информацией от векторов движения и обрабатывается нейросетью, работающей на движках XMX.
Для генерации кадров вдобавок к этому используется анализ оптического потока и данные из буфера глубины.
Также в составе комплекса XeSS 2 используется технология Xe Low Latency. Она сокращает время перед командой на подготовку нового кадра, чтобы запустить ее буквально за мгновение до отрисовки текущего. Таким образом исключается формирование длинных очередей кадров и сокращаются задержки.
Вывод изображения и мультимедийный движок
Для вывода картинки графические процессоры на архитектуре Xe-HPG поддерживают интерфейсы HDMI 2.0b и DisplayPort 2.0 с режимом UHBR10. Такой тандем позволяет организовать подключение двух 8К-дисплеев при 60 Гц, но только с использованием сжатия Display Stream Compression. При этом для экранов с разрешением 4K или ниже реальных ограничений по использованию практически нет.
Для работы с мониторами, которые поддерживают переменную частоту кадров, видеокарты Arc могут использовать технологию VESA Adaptive Sync. А для моделей с фиксированной частотой предлагается собственная разработка в лице Smooth Sync. Эта технология позволяет отключить вертикальную синхронизацию, но при этом избежать видимых разрывов экрана с помощью шейдерного постфильтра, который будет их размывать.
Кодированием и декодированием видео здесь занимаются движки Xe Media Engine, по скорости работы сравнимые с решениями от NVIDIA и AMD. В каждом ГП их по два. Поддерживаются все актуальные разрешения и современные форматы: AV1, VP9, HEVC, AVC.
Возможности графических чипов на архитектуре Xe2-HPG слегка шире. Здесь для вывода изображения поддерживаются HDMI 2.1 и DisplayPort 2.1 с режимом UHBR 13.5. Правда, в последнем случае такая скорость доступна только для одного порта. Вдобавок к этому движки Xe Media Engine получили возможность кодирования формата HEVC с субдискретизацией 4:2:2, что пригодится для монтажа видео.
Сравнение характеристик и производительности
Характеристики модельного ряда видеокарт Intel Arc на март 2025 года можно сравнить в таблице ниже.
У первого поколения результаты достаточно скромные. Средний A580 выступает на уровне AMD RX 6600. Старшие A750 и A770 находятся примерно между AMD RX 6600 XT и NVIDIA RTX 3060, но с ростом разрешения начинают их опережать.
Второе поколение в лице B580 заметно быстрее, чем A580. Эта карта обеспечивает уровень более современных AMD RX 7600 XT/NVIDIA RTX 4060 в Full HD и отрывается от них в более высоких разрешениях. При этом не стоит забывать, что B580 — это среднее решение из линейки Arc 5. Старшие модели Arc 7 Battlemage ожидаются позже и смогут показать более существенную производительность.
Итоги
Видеокарты Intel Arc появились на рынке чуть более двух лет назад. Особой популярности за столь короткое время они не завоевали, но смогли привлечь к себе заметное внимание. Стратегия Intel в их отношении довольно верная — компания не пытается сразу прыгнуть выше головы, выпуская сложные чипы для конкуренции с топами NVIDIA и AMD. Вместо этого она опробовала первое поколение архитектуры Xe-HPG в чипах наиболее популярных ценовых сегментов — среднего и бюджетного.
Второе поколение в лице Xe2-HPG дебютировало совсем недавно. Однако прогресс в нем налицо — при одинаковом количестве исполнительных блоков графические процессоры Battlemage более, чем в полтора раза опережают Alchemist. Если Intel продолжит развивать свою архитектуру схожими темпами и дальше, то в будущих поколениях Celestial и Druid ее решения явно смогут подняться по производительности на несколько ступеней выше.
Однако для популярности линейке Arc необходимо не только это, но еще и устранение текущих недостатков. Один из них — низкая производительность и проблемы при работе со старыми играми, использующими графический API DirectX 11 и старше. Архитектура Xe-HPG и драйвер Intel изначально оптимизированы для современных DirectX 12 и Vulkan, поэтому добиться этого будет на так-то просто.
Второй минус, не менее важный — высокая процессорозависимость. Из-за нее карты Arc обеспечивают максимальную производительность только с ЦП последних поколений, заметно замедляясь со старыми процессорами. В ту же копилку можно добавить снижение скорости работы при отсутствии поддержки у материнской платы технологии Resizable Bar, хотя для большинства современных моделей плат эта проблема уже неактуальна.
Из-за таких нюансов на сегодняшний день видеокарты Arc — это неплохое решение среднего уровня для систем на базе современных процессоров, лучше всего подходящее для игр не старше восьми-девяти лет. Смогут ли они в будущем стать более универсальным вариантом, наравне конкурируя с продукцией NVIDIA и AMD — покажет только время.