Архитектура NVIDIA GeForce Ampere + дизайн платы, игровые технологии и софт

В прошедший вторник NVIDIA представила свою новейшую архитектуру GeForce Ampere. Само событие предвещает появление следующего поколения игровых видеокарт GeForce RTX-серии GeForce 3000. Свой первый коммерческий выход Ampere получил ещё со скалярным процессором A100 Tensor Core, запущенного ещё весной, и хотя общественность действительно получила техническую информацию о вычислительной мощности A100, но GeForce Ampere — совершенно другой зверь.

Начнём с того, что A100 — скалярный процессор, которому не достаёт большей части оборудования для обработки графики. Это также означает, что линейка GeForce Ampere включает в себя многие SIMD — инновации A100, но по существу это другой кристалл, поскольку его потоковый мультипроцессор — самая маленькая субъединица GPU — вмещает графическое оборудование, такое как RT-ядра, отсутствующие у A100. Здесь по аналогии, A100 обладает другим вычислительным оборудованием, таким как ядра FP64, не найденные в GeForce Ampere.

Компания NVIDIA потрясла индустрию потребительской графики в 2018 году представив серию GeForce RTX 20 «Turing», являющейся первой потребительской серией GPU, способной к аппаратному ускорению трассировки лучей в реальном времени. С серией GeForce RTX 30 «Ampere» ожидания очень высоки. Основное внимание NVIDIA при разработке архитектуры Ampere уделило производительности не только «сырых» растров, конечно улучшенной по сравнению с предыдущим поколением, но и значительно улучшенной аппаратной реализации RTX, снижающей затраты на производительность при добавлении множества новых функций. Это также первый суб-10-нанометровый потребительский GPU NVIDIA, построенный на 8-нм процессе Samsung, что дало инженерам NVIDIA больше возможностей из-за значительного увеличения плотности транзисторов и увеличения iso-мощности по сравнению с TSMC N12.

всё про GeForce Ampere

NVIDIA не считает, что её ответственность перед геймерами заканчивается продажей им всего лишь оборудования для визуализации пикселей. Скорее на текущий момент компания стремится предоставить всеобъемлющее решение для улучшения игр на платформе ПК. Что включает в себя множество безплатных программных функций для геймеров, позволяющих лучше оптимизировать их аппаратное обеспечение, потоковую передачу и запись, повысить качество изображения. Плюс также попытаться решить некоторые фундаментальные проблемы современных ПК, такие как задержка системы и накладные расходы на хранилище, которые обычно адресованы поставщикам платформ, таким как Intel и AMD.

NVIDIA также пересмотрела «эталонный дизайн» своего бренда Founders Edition. Традиционно референсный дизайн считался «базовым» продуктом для партнёров производителей видеокарт, уступая место значительно превосходящим кулерам, дизайну продукта и многому другому. NVIDIA старается, чтобы её графические карты Founders Edition ушли от «базы» и стали стандартными картами кастомного дизайна. Создавая GeForce Ampere, компания стремится сделать именно это и многое другое, с инновационным новым дизайном воздушного охлаждения более эффективно использующего воздушный поток, доступный в типичных игровых ПК.

В предсталенной статье можно познакомиться со всеми техническими деталями, углубившись в основы архитектуры GeForce RTX 3000 Ampere, чтобы узнать, какие вкусности нового поколения ожидают геймеров.

Обзоры производительности видеокарт GeForce RTX 3070, RTX 3080 и RTX 3090 будут опубликованы позже — очень скоро.

GeForce RTX 3080

rtx 3080

GeForce RTX 3080 — первый продукт, запущенный на новой архитектуре, и почему-то NVIDIA называет именно его «новым флагманом». RTX 3080 «стартует» по цене $699 и приходит на смену RTX 2080 и RTX 2080 Super предыдущего поколения. Основанный на кристалле GA102, RTX 3080 снабжён 8704 ядрами CUDA в 68 SM (34 TPC), 68 RT-ядрами, 272 тензорными ядрами, 272 TMU и 96 ROP. Чип оснащен интерфейсом памяти GDDR6X шириной 320 бит, который управляет 10 ГБ памяти со скоростью 19 Гбит/с, что обеспечивает пропускную способность 760 ГБ/с. NVIDIA оценивает мощность платы RTX 3080 на уровне 320 Вт. Целевое приложение — игры 4K UHD.

NVIDIA заявляет о значительном почти 2-кратном приросте производительности для RTX 3080 по сравнению с RTX 2080 предыдущего поколения в разрешении 4K UHD!

GeForce RTX 3090

rtx 3090

GeForce RTX 3090 станет вторым продуктом, основанным на новой архитектуре, и позиционируется в сегменте «Halo», обычно занимаемый брендом TITAN, что также возможно означает, что TITAN Ampere, скорее всего, не будет в природе. МОНСТР «начинается» с $1499, а в маркетинговых слайдах и презентациях NVIDIA его часто сравнивают с TITAN RTX. RTX 3090 скорее всего максимально использует кристалл GA102 с 10 496 ядрами CUDA на 82 SM (41 TPC), 82 RT-ядрами, 328 тензорными ядрами, 328 TMU и, вероятно, 112 ROP. Чип максимально использует 384-битный интерфейс памяти GDDR6X, потребляя 24 ГБ памяти со скоростью 19.5 Гбит/с, что обеспечивает пропускную способность памяти 940 ГБ/с. NVIDIA оценивает мощность платы в 350 Вт. Эта карта не только рассчитана на поддержку 4K с высокой частотой обновления, но и поддерживает 8K.

NVIDIA заявляет о приросте производительности на 50–70% RTX 3090 относительно TITAN RTX за $2500.

GeForce RTX 3070

rtx 3070

Выпуск GeForce RTX 3070 запланирован на октябрь 2020 года, и он должен понравиться более широкой аудитории по стартовой цене в $499. Он по-прежнему ориентирован на игры с высокой частотой обновления в 1440p, хотя NVIDIA утверждает, что эта карта «быстрее, чем RTX 2080 Ti», которая в значительной степени является игровой картой 4K. На данный момент нет официальной информации о том, на каком кристалле основана RTX 3070, хотя таковым может оказаться GA104. NVIDIA показала, что количество ядер CUDA составляет 5888 — больше, чем у TITAN RTX. Эти CUDA ядра распределены по 46 SM (23 TPC) и имеют 46 ядер RT, 184 тензорных ядра, 184 TMU и, вероятно, 64 ROP. Карта оснащена обычным 256-битным интерфейсом памяти GDDR6 с объёмом 8 ГБ, и пока неизвестно, будет ли NVIDIA использовать её со скоростью 14 или 16 Гбит/с. Типичная мощность платы составит 220 Вт.

RTX 3070 обещает почти 60% «скачок» производительности по сравнению с RTX 2070, помогая ему не только управлять сегментом 1440p, но и быть способным к играм 4K UHD, поскольку RTX 2070 + 60% приближается к уровню производительности RTX 2080 Ti.

Архитектура GeForce Ampere

Архитектура Ampere

«Ampere» представляет 2-е поколение технологии NVIDIA GeForce RTX. Трассировка лучей в реальном времени дебютировала в сегменте потребительской графики, опередив свое время, так как считалось, что она требует слишком больших вычислительных ресурсов даже при большом количестве программируемых шейдерных ядер. NVIDIA RTX сумела решить эту проблему, представив новый гибрид растр + трассировка лучей, в котором большая часть 3D-сцены визуализируется традиционной растровой графикой, а отдельные элементы, заметно выигрывающие от RT, трассируются. Для этого NVIDIA пришлось разработать инновации, минимизирующие количество необходимых лучей для трассировки лучей, в значительной степени полагаясь на подавление шумов на основе ИИ. Следовательно, это потребовало разработки специально созданного (а иногда и фиксированного) оборудования, такого как ядра RT, обрабатывающих BVH и пересечения, и ядра тензорного типа, ускоряющие умножение матриц, используемое в нейронных ИИ-сетях.

В «Ampere» мы видим введение новых потоковых мультипроцессоров (SM) — основной программируемой шейдерной мускулы GPU NVIDIA — и RT ядра 2-го поколения плюс тензорные 3-го поколения (тензорные ядра появились ещё до «Turing» и были представлены с «Volta»). Ключевым фактором этих трех является не только улучшение растровой производительности поколений, но и снижение влияния на производительность RTX. Первая волна видеокарт NVIDIA GeForce Ampere состоит из GeForce RTX 3080, предлагаемой в качестве флагманской игровой видеокарты по цене $700, и RTX 3090 в сегменте «Halo» по цене $1500, предназначенной исключительно для энтузиастов. Удивительно, что обе карты основаны на вариантах одного и того же кристалла «GA102», поскольку NVIDIA не сработала GeForce RTX 3080 на меньшем варианте.

Дивидендом от перехода на 8 нм, возможно, будет огромный выигрыш в iso-мощности, который NVIDIA может использовать для увеличения производительности, непосредственно влияя на показатель производительность/ватт. NVIDIA заявляет о массовом увеличении производительности на 90%/ватт, так что эти карты имеют гораздо большее значение, чем их очевидное резкое увеличение типичной мощности платы.

Кристалл NVIDIA GA102

Чип NVIDIA GA102 построен на 8-нм производственном узле «8N» от Samsung. Этот узел предлагает сравнимую плотность транзисторов и iso-мощность с узлами класса TSMC N7, на которых NVIDIA создает процессор A100 Tensor Core. Кристалл имеет колоссальные 28 миллиардов транзисторов, а его обрезка RTX 3080 предлагает чистую вычислительную пропускную способность до 30 TFLOP с FP32, до 58 TFLOP с трассировкой лучей и до 238 тензорных TFLOP.

Выше представлена блок-схема архитектуры GA102, реализованная на RTX 3080, созданную ресурсом TPU, потому что блок-схема, предоставленная NVIDIA, является упрощенной версией. Итак, GA102 имеет 8704 ядер CUDA, распределенных по 68 потоковым мультипроцессорам (SM), что на 183% больше, чем у RTX 2080 Super. Это в сочетании с улучшениями IPC на уровне SM приводит к значительному увеличению пропускной способности FP32 на 172% по сравнению с RTX 2080 Super (11 TFLOP против 30 TFLOP). Группы из двух SM, называемые кластерами обработки текстур (TPC), остаются наименьшими единицами сегментации архитектуры Ampere. RTX 3080 имеет 34 TPC (68 SM) в шести кластерах обработки графики (GPC).

На внешнем уровне GA102 — как реализовано на RTX 3080 — имеет хост-интерфейс PCI-Express 4.0 x16, GigaThread, который отправляет и координирует работу между GPC, кэш L2 (последнего уровня), служащий городской площадью для GPC и интерфейс памяти GDDR6X шириной 320-бит. На RTX 3090 этот интерфейс памяти расширен до 384-бит, и в нём 41 TPC, распределенных по большему количеству GPC. В RTX 3080 отсутствует интерфейс с несколькими графическими процессорами NVLink, а вот в RTX 3090 он есть. NVIDIA изменила разъём NVLink для экономии места на плате (подробнее об этом позже).

Вот блок-схема микросхема GA102, реализованная на RTX 3090. Она имеет полный 384-битный интерфейс памяти, включая все его GPC, но один TPC (два SM) вырезан для лучшего сбора урожая. При включенных 82 SM, каждый из которых имеет 128 ядер CUDA, RTX 3090 достигает своего волшебного количества ядер CUDA в 10 000+ (10490). Другой компонент, недоступный в RTX 3080, — интерфейс NVLink. С каждым новым поколением NVIDIA отодвигает SLI в более высокие сегменты своего стека продуктов, поскольку мульти-GPU — умирающая технология, и только энтузиасты, гоняющиеся за результатами тестов, захотят её использовать. Те, кто после списка лидеров, в любом случае инвестируют в самый дорогой графический процессор. Таким образом, SLI стремительно вытирается из памяти геймера.

Новый SM

SM Ampere

Мультипроцессор потоковой передачи (SM) — это то, на что была направлена ​​основная часть инженерных усилий NVIDIA. Это ключевой компонент графического процессора. NVIDIA утверждает, что Ampere SM имеет вдвое большую вычислительную мощность, чем Turing SM. Мы по-прежнему начинаем с четырех warp планировщиков, которые распределяют рабочие нагрузки для компонентов SIMD, но теперь каждый субблок имеет 32 ядра FP32 CUDA. Из них 16 могут выполнять одновременно математические операции FP32 + INT32.

SM Turing

Это не похоже на Ampere SM (изображенный выше для сравнения) на скалярном процессоре A100 Tensor Core, имеющего 16 ядер FP32 и INT32 плюс 8 ядер FP64 (двойной точности). Каждый субблок дополнительно имеет тензорное ядро ​​3-го поколения, четыре блока загрузки-хранения и регистровый файл. Четыре таких субблока добавляют к GeForce Ampere SM до 128 ядер FP32 CUDA, из которых 64 могут обрабатывать одновременные операции INT32 + FP32. Каждый SM имеет одно ядро ​​RT 2-го поколения, кэш данных L1 128 КБ и четыре TMU. Благодаря новому каналу передачи данных GeForce Ampere SM обеспечивает удвоенную производительность FP32 или 128 операций умножения-сложения (FMA) за такт. Ядро RT 2-го поколения предположительно предлагает вдвое большую частоту пересечения треугольников по сравнению с предыдущим поколением, в то время как новое тензорное ядро ​​3-го поколения предлагает вдвое большую вычислительную пропускную способность с использованием высокой разрежённости, представленной в Ampere.

Память GDDR6X

Micron GDDR6X

Насколько известно, NVIDIA объединила усилия Micron Technology в разработке GDDR6X, которая, похоже, является эксклюзивной технологией памяти NVIDIA. Тип GDDR6X основан на стандарте JEDEC GDDR6, используя многоуровневую сигнализацию физического уровня PAM4 (амплитудно-импульсная модуляция 4), позволяющая передавать четыре возможных значения за цикл. Помните, когда вам говорили, что двоичный код — это всего лишь два значения: «включено» или «выключено», «единица» и «ноль». Что ж, это изменилось — PAM4 передает на четырех разных уровнях напряжения, чтобы упаковывать вдвое больше данных в каждый такт.

GDDR6X

Задача состоит в том, чтобы избежать ухудшения сигнала, чтобы можно было чётко различать уровни напряжения. С «включением» и «выключением» это как бы легко, но различить четыре разных уровня сигнала сложнее, поэтому для данных используется новое кодирование. Вместо того, чтобы передавать необработанные значения напрямую, 0 означает отсутствие напряжения и 3 как максимальное напряжение каждый раз, схема кодирования MTA (maximum transition avoidance — максимальное предотвращение перехода) выбирает уровни напряжения в зависимости от предыдущего уровня, так что разница от такта к такту не является полным колебанием напряжения.

И последнее, но не менее важное: NVIDIA улучшила алгоритм обучения в контроллере памяти — он стал более надёжным. Теперь он будет время от времени переучиваться и может адаптироваться к изменениям окружающей среды, таким как температура или электромагнитные помехи.

Благодаря этому NVIDIA смогла увеличить скорость передачи данных до 19.5 Гбит/с для RTX 3090 и 19 Гбит/с для RTX 3080. Для RTX 3090 это приводит к пропускной способности памяти, приближающейся к отметке 940 ГБ/с, близко к тому, что может быть достигнуто с гораздо более дорогими решениями VRAM, такими как 4096-битный HBM2.

Новые RT- и тензорные ядра

С архитектурой Ampere NVIDIA представляет ​RT-ядро 2-го поколения, целью которого является улучшение ускорения трассировки лучей, а также новые эффекты, такие как размытие движения с трассировкой лучей. Ядро RT — аппаратный компонент с фиксированной функцией, обрабатывающей две из наиболее сложных задач для программируемых шейдеров SIMD: обход и пересечение иерархии ограничивающих объемов (BVH); т.е. вычисление точной точки, в которой луч сталкивается с поверхностью, чтобы можно было нанести на карту его следующий курс. Типичные рабочие нагрузки по трассировке лучей в пути гибридного рендеринга растр + трассировка лучей включают вычисление шагов обхода и пересечения через BVH и пересечения ограничивающего прямоугольника / треугольника, что является очень неподходящей рабочей нагрузкой для типичных графических процессоров из-за характера задействованного доступа к памяти. Этот вид отслеживания указателей плохо масштабируется с архитектурами SIMD (читай: программируемыми шейдерами) и лучше подходит для специального оборудования с фиксированными функциями, такого как ядра MIMD RT.

Не называя имен, NVIDIA отметила, что минималистичный подход к трассировке лучей (возможно, то, что AMD задумала с RDNA2) оказывает влияние на производительность из-за чрезмерной зависимости от потоковых SIMD-процессоров. Ядра NVIDIA RT предлагают полностью аппаратный стек обхода BVH, специализированный исполнительный модуль MIMD и, по сути, меньшую задержку от аппаратного стека. Ядро RT 2-го поколения, представленное с Ampere, добавляет ещё один аппаратный компонент.

Ampere представляет новый логический блок, интерполирующий положения треугольников по шкале времени в координации с блоком пересечения треугольников. NVIDIA сообщает нам, что это полезно для создания эффектов размытия движения при трассировке лучей в реальном времени. Скорее всего, NVIDIA, скорее, реализует это как оптимизацию производительности для трассировки лучей. Поскольку за два кадра, скорее всего, изменится очень мало, нет необходимости пересчитывать все результаты для следующего кадра после того, как были вычислены все пересечения лучей для текущего кадра — игрок переместил или изменил камеру, и объекты в мире позиционируется лишь немного иначе. Есть подозрения, что NVIDIA объединила алгоритм оценки движения с RTX, запоминающий последние пересечения как «хорошие кандидаты» и проверяет их на ранних этапах всего процесса, что может привести к правильному результату на ранних этапах теста и означает приличное количество записей в BVH, вообще не нужно обрабатывать.

Тензорные ядра 3-го поколения

Новое тензорное ядро ​​3-го поколения в значительной степени заимствовано из процессора A100 Tensor Core, представленного NVIDIA этой весной, который специально создан для работы с глубоким обучением ИИ. Для повышения производительности тензорные ядра Ampere предназначены для использования разрежённости в нейронных сетях глубокого обучения. Разрежённость — явление, при котором плотную матрицу можно обрезать, не влияя на её точность — это похоже на то, как цель в Jenga состоит в том, чтобы сохранить столбец нетронутым, несмотря на вытаскивание частей из середины. Разрежённые матрицы на порядок увеличивают производительность логического вывода ИИ.

Кулер Founders Edition

Как упоминалось ранее, NVIDIA больше не рассматривает свой «референсный дизайн» в качестве основы для развития AIC-партнеров, а скорее как высокий стандарт дизайна и производительности, к которому партнеры стремятся. В GeForce RTX 3080 и RTX 3090 реализовано новое инновационное решение для воздушного охлаждения, предусматривющее два независимых канала воздушного потока и наличие вентилятора с обеих сторон карты.

Вентилятор на лицевой стороне был помещён прямо над графическим процессором и проталкивает воздух через алюминиевые ребра, которые выводят нагретый выхлоп через вентиляционные отверстия на задней скобе ввода-вывода. Вентилятор на обратной стороне втягивает холодный воздух, направляет его через вторую стойку алюминиевых ребер карты и выпускает его в область, где задний вытяжной вентилятор типичного игрового компьютера выпускает воздух из корпуса.

NVIDIA подробно рассказала, как они смоделировали определенные ситуации с воздушным потоком в корпусе, и поняли, что воздух должен проходить «сквозь» видеокарту, чтобы он протекал наиболее оптимальным образом для стандартных конфигураций корпусных вентиляторов.

Для этого печатная плата короче карты, и почти одна треть длины составляет всего лишь второй стек алюминиевых ребер с вентилятором. В принципе, такая конструкция кулера не нова. Sapphire Radeon RX Vega 56 Pulse использует аналогичную концепцию воздушного потока, хотя оба вентилятора находятся на лицевой стороне. Оба стека алюминиевых ребер кулера Ampere FE укреплены четырьмя медными тепловыми трубками, сходящимися на пластине паровой камеры, служащей основной точкой контакта почти для всех горячих компонентов на лицевой стороне печатной платы — GPU, VRAM, VRM и т. д. RTX 3090, по сути, является увеличенной версией этого кулера, за исключением того, что его задняя панель должна охлаждать дополнительный набор микросхем памяти, расположенных на обратной стороне печатной платы.

Оба вентилятора кулера имеют независимую регулировку скорости (вращение с разной скоростью), но NVIDIA не сказала, есть ли у них блокировка вертушек на холостом ходу. Ответ на этот вопрос будет опубликован в обзоре производительности. Крыльчатки вентиляторов имеют перепонки по краям, как у вентиляторов Axial-Tech от ASUS. Эти вентиляторы направляют весь воздушный поток в осевом направлении, и ни один из них не выпускается в боковом направлении. Идея состоит в том, чтобы позволить клиновидным ребрам в стеке направлять воздух.

Эти заявления о тепловых характеристиках очень многообещающие. Новый кулер работает намного холоднее и тише, чем предыдущие карты Founders Edition, даже при более высоких термальных нагрузках.

Дизайн печатной платы

Для карты такого класса производительности печатная плата NVIDIA Founders Edition для RTX 3080 и RTX 3090 шокирующе компактна, как и флагманские карты AMD, использующие графические процессоры MCM с HBM, за исключением того, что в основе печатной платы лежит массивный пакет GPU, окруженный до 12 чипами памяти GDDR6X и чрезвычайно плотным решением VRM. NVIDIA использовав конструкцию с перекрестным потоком воздуха, пришлось предложить очень инновационное VRM-решение.

Во-первых, массивный 20-фазный VRM во многом полагается на обе стороны печатной платы. Дроссели и DrMOS находятся на лицевой стороне печатной платы, а большинство танталовых конденсаторов — на обратной стороне. Следующее большое нововведение — потребляемая мощность. RTX 3090 имеет стандартную мощность платы 350 Вт, которая является высокой и требует двух 8-контактных входов питания PCIe (150 Вт на вход) и зависит от мощности слота. Для любого значимого запаса хода для разгона необходим третий 8-pin коннектор. А места на плате уже нет.

NVIDIA обратилась за решением к Molex, экспертам в области дизайна разъёмов и слотов. Вводя 12-контактный разъём Molex MicroFit. Он примерно размером с один 8-контактный разъём PCIe, может быть ориентирован на печатной плате боком, чтобы занимать ту же площадь, что и 2-контактный вход блока питания постоянного тока, и имеет огромный запас мощности 300 Вт! Это возможно главным образом потому, что используется провод более высокого калибра, а также улучшения пинов и контактов. NVIDIA разрешает своим партнерам AIC использовать разъем; однако они должны связать со своими картами кабель-переходник 2x 8-pin — 1x 12-pin. NVIDIA даже не запрещает AMD или Intel использовать новый коннектор в своих будущих видеокартах.

8K-гейминг

8K Gaming уже здесь! Если уже можете заполучить 8K-дисплей — доступный только на телевизорах high-end класса и мониторах Dell, — ваши глаза могут «сверлить» 7680 x 4320 пикселей. Это в четыре раза больше пикселей, чем у 4K, и в шестнадцать раз больше, чем у Full HD (1080p). Некоторые из новых поколений игр могут иметь предварительную поддержку 8K.

Поскольку 8K по-прежнему является разрешением с соотношением сторон 16:9, теоретически вы должны иметь возможность растянуть любую игру или приложение, разработанное для разрешений 16:9, но если игры не имеют текстур чрезвычайно высокого разрешения, спрайтов, моделей и других активов, вы обязательно получите слегка блочные/смазанные поверхности. Это связано с тем, что игровой движок просто вслепую масштабирует все игровые ресурсы с помощью самого простого билинейного метода, к которому NVIDIA обращается с большим вниманием.

NVIDIA DLSS 8K

Чтобы решить проблему сегодняшних игр, которые на самом деле не имеют текстурных ресурсов, масштабируемых до 8K, приводящим к тусклым, размытым изображениям, NVIDIA разработала DLSS 8K. Расширение DLSS, DLSS 8K, визуализирует игру в более низком разрешении, например 1440p, а затем использует ИИ-суперсэмплинг для восстановления деталей. Это работает как любая обычная реализация DLSS, где игра отображается с более низким разрешением, а детали восстанавливаются с желаемым выходным разрешением.

NVIDIA продемонстрировала значительные улучшения производительности с использованием DLSS, и во многих случаях с превосходным качеством изображения по сравнению с исходным 4K-разрешением.

HDMI 2.1

GeForce Ampere — первый потребительский графический процессор, реализующий стандарт HDMI 2.1, позволяющий заполучить 8K HDR 60 Гц с одним кабелем. Раньше требовалось либо наличие двух разъемов DisplayPort 1.3, либо четырех кабелей HDMI 2.0. В общем HDMI 2.1 широко использует сжатие потока изображения (формат сжатия «практически без потерь», хотя и с потерями).

RTX IO

Хранилище — самый медленный аппаратный компонент компьютера, и твердотельные накопители SATA помогли в некоторой степени смягчить это, особенно со временем доступа и IO; однако SATA SSD по-прежнему бесконечно медленнее, чем 2-канальная память DDR4-4000, кэш L3 центрального процессора или даже память GDDR6X на 19 Гбит/с на картах Ampere. Твердотельные накопители M.2 NVMe, использующие PCIe в качестве межсоединения, оказали трансформирующее влияние на систему хранения, в основном потому, что их пропускная способность увеличивается с каждым новым поколением PCIe.

Твердотельные накопители M.2 NVMe предыдущего поколения на базе PCIe Gen 3 могут обеспечивать до 3.5 ГБ/с последовательных передач, а SSD на базе PCIe Gen 4, как ожидается, станут обеспечивать скорость 7 ГБ/с. Уже предпринимаются попытки сделать твердотельные накопители будущего даже быстрее, чем PCIe, при этом Intel работает над Optane Persistent Memory, твердотельным накопителем, который использует ввод-вывод DRAM и может напрямую взаимодействовать с контроллером памяти совместимого процессора, как это сделал бы модуль DRAM. Будущее выглядит ярким?

Хранилище не лишено накладных расходов, и каждый запрос ввода-вывода хранилища в традиционной архитектуре ПК по-прежнему полагается на ЦП для обработки запроса ввода-вывода. Согласно тестам NVIDIA, чтение несжатых данных с SSD накопителя на скорости 7 ГБ/с — максимальная скорость последовательного чтения SSD накопителей PCIe Gen 4 M.2 NVMe — требует полного использования двух ядер ЦП. ОС обычно распределяет эту рабочую нагрузку по всем доступным ядрам/потокам ЦП на современном многоядерном ЦП. Ситуация резко меняется, когда сжатые данные, такие как игровые ресурсы, считываются в игровом сценарии с большим количеством IO-запросов.

Современные AAA-игры содержат сотни тысяч отдельных ресурсов, упакованных в сжатые файлы пакетов ресурсов. Хотя на IO-уровне диска единицы и нули по-прежнему перемещаются со скоростью до 7 ГБ/с, поток распакованных данных на уровне ЦП может достигать 14 ГБ/с (сжатие в лучшем случае). Добавьте к этому, что каждый запрос ввода-вывода сопровождается собственными накладными расходами — набором инструкций для ЦП по извлечению ресурса x из файла y и доставке его в буфер z вместе с инструкциями по распаковке или расшифровке ресурса.

Это может потребовать огромных ресурсов ЦП при высоком масштабе пропускной IO-способности, и NVIDIA устанавливает необходимое количество ядер ЦП до 24. Microsoft стремилась решить эту проблему, представив API DirectStorage, позволяющий GPU извлекать сжатые данные непосредственно с запоминающего устройства, распаковывая и проводя декомпрессию данные на GPU. NVIDIA RTX IO основывается на этом. NVIDIA RTX IO — концентрический внешний слой DirectStorage, который дополнительно оптимизирован для игр и архитектуры графического процессора NVIDIA.

RTX IO обеспечивает ускоренную GPU декомпрессию данных без потерь в таблицу, что означает, что данные остаются сжатыми и сгруппированными при перемещении с диска на GPU, используя DirectStorage. NVIDIA утверждает, что это улучшает производительность ввода-вывода в два раза. NVIDIA также заявляет, что графические процессоры GeForce RTX, благодаря большому количеству ядер CUDA, способны разгружать «десятки» ядер ЦП, повышая производительность декомпрессии, превышающую даже ту, которую могут создать твердотельные накопители PCIe Gen 4 при сжатии данных.

NVIDIA Reflex

NVIDIA Reflex — новейшая инновация, разработанная для минимизации задержки ввода в киберспортивных играх. Когда она появится позже в этом месяце с патчами для популярных e-sports игр, таких как Fortnite, Apex Legends и Valorant, а также с обновлением драйвера GeForce, эта функция может улучшить задержки в системе даже без специального оборудования. Системная задержка определяется как время, необходимое для того, чтобы пользовательский ввод (например, клик мыши) в игре отразился как вывод на экране, или время, необходимое для того, чтобы клик мышью зарегистрировался как выстрел в онлайн-шутере и появляются на экране. NVIDIA называет это «задержкой системы». Reflex будет поддерживаться в серии GeForce GTX 900 и новее.

NVIDIA кратко рассказала, как это работает. Что касается программного обеспечения, то драйвер NVIDIA взаимодействует с совместимым игровым движком для оптимизации конвейера 3D-рендеринга игры. Это достигается за счёт динамического уменьшения очереди рендеринга, поэтому меньшее количество кадров ставится в очередь для рендеринга. NVIDIA утверждает, что эта технология также может поддерживать полную синхронизацию графического процессора с центральным процессором (очередь рендеринга 1:1), уменьшая «обратное давление» на GPU, позволяя игре воспроизводить ввод данных с мыши в последний возможный момент.

NVIDIA выпускает Reflex для геймеров в виде обновлений драйверов GeForce, а для разработчиков игр — в виде Reflex SDK. Это позволяет им интегрировать технологию в свой игровой движок, обеспечивая переключение между технологиями, а также выводить показатели производительности в игре.

Мониторы G-SYNC eSports 360

NVIDIA разработала новый стандарт игровых мониторов G-SYNC eSports 360 вместе с такими компаниями, как Acer, Alienware, ASUS, MSI и GIGABYTE, поставляющими совместимые мониторы. Судя по названию, вы, вероятно, догадались, что изюминкой этого стандарта является его милая максимальная частота обновления 360 Гц, смягченная технологией NVIDIA G-SYNC. Что вы, вероятно, не знали, так это то, что частота 360 Гц достигается с использованием IPS-панелей дисплея, а не TN-film, ухудшающих качество изображения. Чтобы IPS поддерживал такую ​​высокую частоту обновления, NVIDIA предписывает использовать двойные драйверы (два набора панельной электроники). Эти мониторы имеют расширение Reflex, называемое Reflex Latency Analyzer.

В игровых дисплеях G-SYNC 360 Гц IPS вы найдете 2-портовый USB-хаб, встроенный в дисплей. Вы подключаете этот хаб к компьютеру с помощью прилагаемого USB-кабеля и подключаете игровую мышь к одному из двух выходных USB-портов на мониторе. Это может быть любая мышь, но сертифицированная NVIDIA мышь (ASUS, Razer или Logitech) станет предлагать дополнительные функции. Подключив мышь, вы запускаете утилиту Reflex Latency Analyzer из настроек экранного меню монитора и запускаете игру с включенным переключателем Reflex metrics. Каждый раз, когда вы кликаете мышью, клик регистрируется в USB-хабе монитора, который затем измеряет время, необходимое для появления на экране «выходных» пикселей вспышки пистолета. Вы можете обучить утилиту искать пиксели дульной вспышки оружия. Таким образом, вы получаете чрезвычайно точные измерения не только задержки ввода, но и задержки всей системы. Что-то вроде этого требовало высокоскоростных камер и ручной математики для вычислений в прошлом. Задержки ввода вместе с данными о сквозных задержках можно просмотреть на экране «Показатели производительности» наложения GeForce Experience при запуске в совместимой игре.

Omniverse Machinima

Это, пожалуй, самый впечатляющий программный анонс NVIDIA наряду с Ampere. Несколько лет назад Ansel представлял средство, позволяющее людям останавливать игру и фотографировать игровой контент, включая изменение сцены с помощью настраиваемого освещения и фильтров. Omiverse Machinima — это, по сути, Ansel для создания 3D-анимационных фильмов. Приложение позволяет использовать игровые ресурсы совместимой игры для создания фильмов. Возможности безграничны. Может быть, фанат DOOM Eternal наконец-то сможет делать ролики из легенд Кодекса, используя игровые ресурсы, или созданные фанатами ролики Star Trek с использованием ресурсов STO.

NVIDIA считает, что Omniverse Machinima — первый шаг к демократизации 3D-анимационных фильмов, как YouTube демократизировал видео или создание блогов и музыку Spotify.

Глобальное освещение с трассировкой лучей в реальном времени

NVIDIA имеет долгую историю предоставления SDK разработчикам игр для упрощения общих задач. В прошлом GameWorks занималась такими темами, как освещение, временное сглаживание, рендеринг волос, симуляция жидкости и другие.

Теперь NVIDIA предлагает комплексное решение для глобального освещения, предстающее Святым Граалем освещения в компьютерной графике. GI (Global Illumination) выполняет физически правильную симуляцию источников света и может справиться со многими недостатками традиционных методов освещения, хотя оно и гораздо более требовательнее к оборудованию.

Чтобы использовать RTXGI, разработчики должны размещать световые зонды по всей своей среде, используемые для записи и анализа того, как свет проходит через пустое пространство в сценах. При рендеринге эти (несколько) световых зондов могут предоставить данные об освещении для объектов, которые физически близки к зондам, с учётом отраженного света и правильного смешивания цветов.

Хотя очевидно, что RTXGI будет лучше всего работать на оборудовании Ampere, NVIDIA позаботилась о том, чтобы технология также работала на более старых архитектурах, даже на Pascal, который не имеет встроенной поддержки трассировки лучей. А также не видно причин, по которым технология не могла работать на оборудовании AMD. Прелесть в том, что разработчики могут легко настроить количество выборок на кадр, чтобы точно настроить качество изображения в соответствии с доступными аппаратными ресурсами. Это означает, разработчику не нужно создавать отдельные ассеты или пути рендеринга: в конце концов, время равняется деньгам.

NVIDIA также указала, что RTXGI работает асинхронно с циклом рендеринга, что означает, теперь можно настроить его скорость моделирования не для каждого отдельного кадра, а только через фиксированные интервалы времени, что еще больше повышает производительность за счёт некоторой точности моделирования, которая будет едва заметна во время гейминга.

Отзыв

Естественно пока нет возможности опубликовать тесты видеокарт NVIDIA Ampere, но презентация продукта NVIDIA 1 сентября стала одним из многих сюрпризов. Из утечек спецификаций, в том числе от партнеров, определенного количества ядер CUDA и чисел TFLOP, привело к предположению, что Ampere может быть однообразным, постепенным обновлением от Turing, как Pascal от Maxwell, с новым узлом менее 10 нм значительно повышая энергоэффективность. Оказалось, это заблуждение.

Первым открытием, возможно, стало решение NVIDIA сделать большую ставку на узел Samsung 8 нм вместо опоры компании, узла TSMC, такого как N7, на котором компания уже выпускает A100. Следующим большим открытием стало гигантское увеличение количества ядер CUDA, которые, по утверждениям NVIDIA, обеспечивают удвоение производительности по сравнению с поколением на основе чистых цифр. Естественно брать за чистую монету такие смелые утверждения никто не станет без обзоров производительности самих карт.

Ampere — больше, чем просто рост производительности от поколения к поколению. Улучшение RT ядра — теперь второе поколение — представляет новую оптимизацию производительности трассировки лучей, в то время как ядро ​​Tensor уже 3-го поколения использует разреженность для повышения производительности логического вывода ИИ, что должно повлиять на производительность, поскольку ИИ используется NVIDIA для снижения шума RTX и DLSS. Новая память GDDR6X впервые сокращает разрыв между стандартами GDDR и HBM без безумного увеличения ширины шины. А интерфейс PCI-Express Gen 4 может пригодиться энтузиастам, тестирующим RTX 3090 SLI, поскольку каждая карта будет иметь пропускную способность ввода-вывода, эквивалентную Gen 3 x16.

Как упоминалось ранее, NVIDIA не видит, что её ответственность перед геймерами заканчивается только графическим оборудованием, и хочет решить некоторые фундаментальные проблемы современного ПК. Технология RTX IO стремится значительно снизить влияние накладных расходов ввода-вывода быстрых новых твердотельных накопителей на ЦП, опираясь на Microsoft DirectStorage API, в то время как Reflex стремится дать конкурентное преимущество в киберспорте, устраняя задержки на системном уровне, что больше под контролем, чем пинг сети. Компания также хочет демократизировать создание 3D-анимационных фильмов, не заставляя людей изучать 3D с нуля — Omniverse Machinima — это, по сути, Ansel для движущихся изображений, и его возможности для рассказчиков безграничны.

В общем, GeForce RTX 3000 Ampere очень понравился, и многим ресурсам не терпится рассказать больше о том, как он работает, чего можно ожидать за свои деньги и пришло ли время для обновления.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *