В марте 2025 года состоялся выход первых видеокарт AMD из долгожданной линейки Radeon RX 9000. Их основой стала архитектура RDNA четвертого поколения, в которой было сделано множество доработок как для улучшения производительности, так и для поддержки современных графических технологий.
Направление развития технологий, использующихся для 3D-графики реального времени, не раз менялось. Его последний крупный поворот был совершен компанией NVIDIA в 2018 году, когда была представлена графическая архитектура Turing. Ориентация на трассировку лучей и сопутствующие технологии для ее адекватной работы потребовали добавления в графические процессоры новых блоков, которые не участвовали в традиционной растеризации.
Подобный подход был встречен прохладно. Линейку видеокарт RTX 2000 критиковали за низкий прирост «чистой» производительности, а первые реализации трассировки лучей в играх выглядели не очень впечатляюще. Многие сходились во мнении, что «Транзисторный бюджет, выделенный на RT-ядра и тензоры, потрачен зря. Лучше бы шейдеров добавили».
За этой ситуацией наблюдал и давний конкурент в лице AMD, который тогда разрабатывал новую графическую архитектуру под названием Radeon DNA. Решив, что для аппаратной трассировки лучей слишком рано, компания не стала наспех вносить какие-то изменения в RDNA. Летом 2019 года она выпустила первые видеокарты серии RX 5000, у которых поддержки этой новомодной технологии еще не было.
Но время шло, и менее чем через год после выхода RX 5000 появились слухи о следующей линейке NVIDIA — RTX 3000. Поняв, что для конкуренции без трассировки лучей никак, AMD стала работать над интеграцией технологии в архитектуру RDNA второго поколения. Но, в отличие от конкурента, компания не стала тратить на это огромный транзисторный бюджет. Она сделала собственные блоки Ray Accelerator проще, переложив часть работы по трассировке на универсальные шейдерные процессоры.
С выходом серий RTX 3000 и RX 6000 конкурирующие карты «зеленых» и «красных» явно отличались только производительностью трассировки — у решений от AMD она была заметно меньше. В 2022 году ситуация повторилась: хотя в линейке RX 7000 на архитектуре RDNA 3 производительность трассировки была улучшена, конкурировать в этом плане с RTX 4000 она не могла. А одновременное появление на рынке видеокарт третьего игрока в лице Intel, с ходу показавшего неплохие достижения в рейтрейсинге, усугубило ситуацию еще больше: AMD в этой тройке «лучистых» была явным аутсайдером.
Но компания понимала, что рано или поздно придется «раскошелиться» на производительное решение для трассировки лучей. Главной дилеммой было то, как при ограниченном транзисторном бюджете добиться в этом высокой производительности. И, похоже, AMD наконец ее решила. Встречайте — Radeon RX 9000 на новой графической архитектуре RDNA 4.
Строение графических процессоров
Базовым элементом в графических процессорах AMD являются вычислительные блоки Compute Unit (CU). В состав CU RDNA 4 входят 64 универсальных шейдерных процессора (SP), два планировщика исполнения, кэш нулевого уровня (L0), регистровый файл, блок трассировки лучей (RA), четыре текстурных блока (TMU), два ускорителя вычислений искусственного интеллекта (AI Accelerator) и другие вспомогательные блоки.
Как и прошлые поколения ГП AMD, графические чипы RDNA 4 состоят из шейдерных движков Shader Engine (SE). В каждом из них находится 16 CU, объединенных попарно в более крупные блоки Compute Engine (CE), а также блоки растеризации (ROP) и прочая обвязка. Всего один такой движок содержит:
16 вычислительных блоков CU (объединенных попарно в 8 блоков CE)
1024 шейдерных процессора SP
64 текстурных блока TMU
32 растровых блока ROP
16 RA-блоков для трассировки лучей
32 блока матричных вычислений AI Accelerator
Первым ГП на базе новой архитектуры стал Navi 48. Он включает в себя:
4 шейдерных движка SE
64 вычислительных блока CU
4096 шейдерных процессоров SP
256 текстурных блоков TMU
128 растровых блоков ROP
64 RA-блока для трассировки лучей
128 блоков матричных вычислений AI Accelerator
Как можно видеть по характеристикам, Navi 48 не является заменой флагманскому чипу Navi 31, на котором основаны модели серии RX 7900. Этот ГП — прямой последователь Navi 32, на базе которого в прошлом поколении видеокарт были выпущены RX 7700 XT и RX 7800 XT. Теперь для их замены предлагаются новинки в лице RX 9070 и RX 9070 XT. Обе оснащены 16 ГБ видеопамяти.
Аналогично чипу Navi 32, Navi 48 имеет 256-битную шину памяти GDDR6 и 64 МБ кэш-памяти Infinity Cache. Скорость работы в последней была увеличена, а кэш второго уровня заметно подрос — с 1 до 2 МБ на SE, что дает общий объем в 8 МБ на весь ГП. Вдобавок к этому появилась поддержка шины PCI-E 5.0 с полноценными 16 линиями, которая позволяет «общаться» видеокарте с системой вдвое быстрее, чем в прошлом поколении. Самое интересное в том, что в этот раз AMD не стала использовать для подобного ГП чиплетную компоновку, как в прошлом поколении. Navi 48 является монолитным чипом с площадью 356 мм2, что сравнимо с Navi 32. Но транзисторов в нем почти вдвое больше — 53,9 млрд против 28,1 млрд у предшественника. Новые вычислительные блоки, о которых мы расскажем далее, сделали ГП заметно сложнее, приблизив его по этому параметру к флагманскому чипу прошлого поколения Navi 31 с 57,7 млрд транзисторов.
Для производства нового ГП используется техпроцесс TSMC N4C — третье поколение 5 нм, оптимизированное для более низкой себестоимости выходной продукции. В связи с этим работа, проделанная AMD, впечатляет вдвойне: Navi 48 обладает рекордной плотностью транзисторов в 150 млн/мм2. Это на четверть больше, чем в чипах NVIDIA Blackwell на схожем техпроцессе TSMC 4N, которые используются в линейке видеокарт RTX 5000.
Устройство вычислительных блоков
В основе чипов RDNA 4 лежат обновленные сдвоенные вычислительные блоки, получившие название Compute Engine. В целом, их устройство довольно схоже с Dual Compute Unit в архитектуре RDNA 3. В каждом CU содержится:
64 векторных блока для вычислений с плавающей запятой (FMA)
64 векторных суперскалярных блока, умеющих работать одновременно с целочисленными и плавающими вычислениями (FMA/INT)
16 трансцендентных блоков вычислений (TLU) для выполнения сложных инструкций
Четыре текстурных блока (TMU)
Два блока скалярных вычислений (SU)
Два блока матричных вычислений (AI Accelerator)
Блок загрузки/выгрузки данных (Load/Store)
Вычислительные блоки в CU поделены на две части. Каждая из них имеет планировщик исполнения (Scheduler) и собственные регистровые файлы — 192 Кб для векторной и 8 Кб для скалярной вычислительной части. Помимо этого, CU обладает собственным кэшем L0 для данных объемом 32 Кб. При этом кэш шейдерных инструкций объемом 32 Кб и скалярный кэш объемом 16 Кб для обоих CU являются общими. А для эффективного обмена данными в процессе вычислений оба CU связаны 128 Кб общей памяти.
Как видим, AMD все так же считает количество шейдерных процессоров по суперскалярным вычислительным блокам, работающим с двумя типами вычислений — плавающими (FP32) и целочисленными (INT32). На самом же деле, как и в RDNA 3, блоков вычислений с плавающей запятой тут вдвое больше — не 64, а 128 на CU. Поэтому вычислительную мощность в терафлопсах у чипов с этими двумя родственными архитектурами сравнивать можно (без учета улучшений других блоков), а вот с более старыми на базе RDNA 2 — нельзя.
По диаграммам, представленным AMD, CU RDNA 4 до полутора раз быстрее вычислительного блока прошлого поколения в растеризации. А с блоком RDNA 2 разрыв двукратный. Но в этом сравнении стоит учитывать, что ГП RDNA 4 могут работать на заметно более высокой частоте, чем предшественники — до 3 ГГц и выше.
При задействовании трассировки лучей отрыв CU новой архитектуры еще более высокий. Рассмотрим, за счет чего это достигается.
Доработки для продвинутой трассировки лучей
Одна из самых главных и ожидаемых новинок в RDNA 4. AMD долго противилась необходимости делать сложные блоки для трассировки. Но наконец наступил момент, когда для сохранения конкурентоспособности видеокарт компании пришлось на это пойти. Встречайте — Ray Accelerators третьего поколения.
Первая реализация блоков трассировки в RDNA 2 умела просчитывать четыре пересечения луча с боксами иерархии ограничивающих объемов (BVH) либо одно пересечение с полигоном. В RDNA 3 темп расчетов остался тем же, но благодаря новой контрольной логике блоки стали работать до 80 % эффективнее. У RDNA 4 RA-блоки наконец «расширили», позволив им выполнять вдвое больше операций за такт — восемь пересечений с боксами либо два пересечения с полигонами.
Теперь часть операций, необходимых для рейтрейсинга, ускорена аппаратно — для этого в составе Ray Accelerators появились выделенные блоки для преобразования экземпляров и управления стеком трассировки. Вычислительные ресурсы RA-блоков стали расходоваться экономнее благодаря технологии ориентированных боксов. Она предназначена для уменьшения объемов BVH, в которых необходимо просчитывать пересечения лучей за счет изменения их ориентации. При стандартном подходе эти объемы формируются в виде боксов, находящихся в пространстве строго вертикально или горизонтально. Ориентированные боксы можно размещать под любым углом, подгоняя их под форму и расположение объекта в кадре. Благодаря этому можно избавить RA-блоки от приличного объема ненужной работы.
Несмотря на перевод некоторых операций на отдельные аппаратные блоки, часть вычислений для трассировки все так же выполняется на шейдерах. Но и тут не обошлось без заметных улучшений. Шейдерные процессоры RDNA получили возможность внеочередного выполнения кода и динамические регистры. Благодаря этому они могут комбинировать расчеты для трассировки и выполнение шейдерного кода гораздо эффективнее, чем это было в предшествующей RDNA 3.
AMD заявляет, что производительность трассировки возросла вдвое благодаря всем улучшениям. На самом деле, учитывая заметную реорганизацию RT-конвейера, реальный прирост при большом количестве лучей в кадре может быть даже больше. Так что на видеокартах AMD наконец с достаточной производительностью можно будет использовать трассировку пути.
Вдобавок к этому подавление шумов, возникающих при трассировке, было переведено с шейдеров на выделенные блоки AI Accelerators. Давайте посмотрим, что они из себя представляют.
Ускорители вычислений искусственного интеллекта
Именно так AMD называет новые блоки матричных вычислений. И не зря. В отличие от предшественников в RDNA 3, просто переназначавших SIMD векторных блоков для выполнения подобных операций, AI Accelerators являются самостоятельными вычислительными блоками — аналогично тензорным ядрам в ГП NVIDIA или матричным блокам XMX в ГП Intel.
По сравнению с блоками прошлого поколения, ИИ-ускорители обзавелись вдвое более широким конвейером и поддержкой расчетов низкой точности FP8/BF8. Но, что самое важное, они научились работать с разреженными вычислениями (sparse compute). Это позволяет увеличить темп исполнения расчетов еще в два или четыре раза, в зависимости от точности.
Благодаря этому общий прирост скорости матричных вычислений на одной частоте составляет от четырех до восьми раз. И не забываем, что на такие вычисления теперь не тратятся ресурсы шейдерных процессоров.
За счет совокупности всех улучшений, заметно повысивших производительность тензорных расчетов, блоки AI Accelerators стало возможным использовать не только для подавления шумов при трассировке, но и для работы нового алгоритма фирменной технологии повышения производительности FSR 4.
Технология FSR 4
Технология масштабирования на основе глубокого обучения. Теперь это не только NVIDIA DLSS и Intel XeSS, но и AMD FSR четвертого поколения. Базовые техники ее работы схожи с FSR 2.х: это рендер кадров со сдвигом на основе векторов движения, а затем — комбинация временной информации из нескольких кадров и карты глубин для создания картинки целевого разрешения. Ключевое отличие в том, что для этого используются не расчеты на шейдерных процессорах, а нейросеть, работающая на ИИ-ускорителях.
Такое масштабирование заметно качественнее и гораздо внимательнее к деталям, чем упрощенная обработка FSR второго и третьего поколения.
Нейросеть FSR 4 предварительно обучена на игровых данных с помощью серверных ГП AMD. Это позволяет совершенствовать алгоритм ее работы с каждым новым выпуском драйверов.
Никуда не делась и поддержка генерации кадров, дебютировавшая в FSR 3. FSR 4 Frame Generation, как и ее предшественница, может вставлять один сгенерированный кадр между двумя отрендеренными на основе информации из оптического потока и векторов движения. На данный момент AMD не уточняет, как обрабатываются новые кадры при генерации. Судя по слайдам из официальной презентации, пока для этого используются универсальные шейдеры, как и в FSR 3.x. Но с будущими обновлениями и к этому процессу будут подключены ИИ-ускорители. FSR 4 использует API, обратно совместимый с FSR 3.1. Это значит, что ее интеграция в существующие игры с FSR третьего поколения будет довольно простой. Вдобавок к этому новая технология полностью совместима с нейронным рендерингом.
Вывод изображения и мультимедийный движок
Чипы архитектуры RDNA 4 получили новый движок дисплея Radiance 2 Display Engine. Им поддерживается вывод изображения с помощью современных интерфейсов DisplayPort 2.1a и HDMI 2.1b. Главные улучшения: сниженное энергопотребление в режиме ожидания при использовании двух мониторов, новый блок повышения резкости и аппаратная поддержка технологии Flip Metering — той самой, которую NVIDIA использует в чипах Blackwell для мультигенерации кадров в DLSS 4. Не исключено, что AMD тоже готовит похожую технологию, но представит ее позже.
Чип Navi 48 получил мультимедийный движок с двумя кодировщиками и двумя декодерами. Качество кодирования популярных форматов H.264 и HEVC было заметно улучшено — на 25 и 11 %, соответственно. Это особенно заметно при низких битрейтах.
Для более «молодого» формата AV1 был увеличен максимальный битрейт и появилась поддержка B-кадров. Общая производительность мультимедийного движка по сравнению с прошлым поколением возросла более чем на 50 %.
Итоги
Новую графическую архитектуру RDNA 4 можно охарактеризовать короткой фразой: «Все, чего нам так давно не хватало». AMD наконец заметно подтянула скорость работы с трассировкой лучей, оснастила чипы полноценными матричными ускорителями AI Accelerators, разработала собственную технологию масштабирования на основе глубокого обучения FSR 4, а также произвела множество других мелких доработок архитектуры, которые необходимы для эффективной работы с нейронным рендерингом.
Теперь видеокарты компании и при задействовании современных графических технологий могут практически наравне конкурировать с решениями от NVIDIA и Intel. Стоп, все же чего-то не хватает. Да, флагманского чипа! Но в этом поколении AMD вновь заявила, что «топовых видеокарт не будет». Такое уже было и в 2016 году при появлении видеокарт серии RX 400, и в 2019 году, когда была представлена линейка RX 5000.
Впрочем, как показывает история, каждый раз после подобных заявлений уже через год AMD собиралась и представляла ГП на базе доработанной архитектуры, конкурирующий с топами NVIDIA. И хотя сейчас «зеленые» с огромным чипом GB202 кажутся вне досягаемости, с RDNA 4 шанс у AMD есть. Удвоив возможности Navi 48 (что вполне реально с использованием текущего техпроцесса), она вполне может приблизиться к текущему флагману NVIDIA по скорости.
Вопрос в том, а нужно ли это компании? На данный момент — точно нет. Сейчас AMD сосредоточена на росте новой линейки «вширь». Во втором квартале 2025 года будут выпущены карты серии RX 9060, а затем ожидаются и бюджетные RX 9050. Если ценовая политика компании будет правильной, то за счет линейки RX 9000 к AMD вновь должна вернуться заметная часть рынка видеокарт, как это было несколько поколений назад.