Концепция Threadripper


Ryzen Threadripper 2950X — мульти-чиповый модуль, состоящий из двух 8-ядерных 12 нм кристаллов «Pinnacle Ridge», каждый из которых управляет двумя каналами памяти DDR4 и 32 линиями PCIe; для комбинированного 4-канального интерфейса памяти DDR4 и 64-полосной PCIe соответственно. Наверное, грубым способом описания 2950X станет формулировка «2P-on-a-stick». Под IHS активных кристалла, располагаются по диагонали, как и две пустышки — «манекены». Это либо чистые плитки из кремния, либо кристаллы, полностью не прошедшие проверку. Их функция, поддерживать IHS равномерно распределяя давление.

arch9

arch9a

Infinity Fabric — новое высокоскоростное соединение AMD, увидевшее свет вместе с «Zen». Он соединяет не только два quad-core CCX модуля на кристалле «Pinnacle Ridge», но также обрабатывает связь между самими кристаллами. На Threadripper 2950X одна связь Infinity Fabric между двумя активными кристаллами с двунаправленной полосой пропускания 50 ГБ/с при работе на частоте 1600 МГц (фактическая частота DRAM). Поэтому, при использовании более быстрой или медленной памяти, пропускная способность Infinity Fabric станет масштабироваться соответствующим образом. Процессорному ядру потребуется около 105 наносекунд (нс) для доступа к памяти, контролируемой соседним кристаллом, и менее 65 нс для доступа к памяти, управляемой его собственным кристаллом.

arch22

arch33

В отличие от процессоров Core X, построенных с четырьмя каналами памяти, подключенными к одному кристаллу, Threadripper получил два двухканальных интерфейса, которые уже вместе составляют четыре канала. Приложение может распределять память по всем четырём каналам для доступа к расширенной полосе пропускания, но с большей задержкой. А вот менее параллельные приложения, такие как компьютерные игры (которым ещё пока не требуется >16 ГБ ОЗУ), получают приз в виде меньшей латентности. AMD разработала способ предоставить пользователям и их операционным системам контроль над распределением памяти посредством UMA и NUMA.

arch44

arch45

С этой целью существует несколько выбираемых пользовательских режимов через Ryzen Master, переконфигурирующие процессор «на лету» (потребуется перезагрузка). Режим доступа к памяти можно переключать между «Distributed Mode» (по умолчанию) и «Local Mode». Distributed максимизирует пропускную способность памяти для приложений и пытается поддерживать постоянные задержки (но выше), независимо от того, на каком ядре работает программное обеспечение. Local с другой стороны, разбивает систему на два узла NUMA (думаю, «группы процессоров»), позволяющих Windows узнать, какие ядра подключены к интерфейсу памяти, чтобы предложить нагрузку именно на эти ядра в первую очередь, запуская их с меньшей задержкой памяти. Вторая группа имеет более высокую задержку памяти, в результате чего приложения работают медленнее. Этот режим может быть полезен для малопоточных приложений и игр. Наши результаты производительности включают дополнительный набор данных для «Local Mode».

Третий вариант конфигурации — «Legacy Compatibility Mode», позволяющий настроить количество выделенных ядер. Некоторые древние игры испытывают трудности при запуске в системах с более чем 16 ядрами и со старта крашатся. Используя эту опцию можно уменьшить количество ядер в Threadripper.

В отличие от чипов Ryzen под сокет AM4, Threadrippers получил неизмененную конфигурацию контроллера памяти от корпоративных процессоров AMD EPYC. Ryzen Threadripper 2950X поддерживает до 2 ТБ четырёхканальной памяти с поддержкой ECC (что-то подобное ограничено брендом Xeon на платформе Intel). Опять же, возникают сомнения. Потребуется ли пользователям HEDT свыше 128 ГБ оперативки, поддерживаемых процессорами Core X?

Весьма интересна конфигурация PCI-Express. MCM выпускает в общей сложности 64 линии PCIe gen 3.0. На типичной материнской плате все линии распределяются следующим образом: два слота PCI-Express 3.0 x16 (всегда x16), два дополнительных слота x16 (всегда x8 и без отъёма пропускной способности у других), три слота M.2-NVMe с x4 (каждый), а оставшиеся 4 линии, служат шиной чипсета.

Архитектура Zen+


arch1

Каждая из двух кристаллов в MCM Threadripper 2950X представляет собой новый 12 нм кристалл «Pinnacle Ridge» от AMD. Чип основан на новой микро-архитектуре «Zen+», в которой «+» означает уточнение, а не крупное архитектурное обновление.

arch3

AMD делегирует «+» в «Zen» как совокупность нового 12-нм техпроцесса, обеспечивающего более высокие тактовые частоты, обновленный набор функций SenseMI, обновленный алгоритм Precision Boost, который улучшает Boost частоты в стрессе, физические улучшения в кэше и подсистеме памяти, добавляя 3% (clock-for-clock) к IPC по сравнению с первым поколением «Zen».

Наибольшим изменение «Pinnacle Ridge» всё же остается его технологический узел. Переход на 12 нм привёл к уменьшению напряжения Vcore на 50 мВ при любой заданной тактовой частоте, что позволило AMD увеличить тактовые частоты примерно на 0.25 ГГц. Переключатель позволяет выполнять разгон всех ядер намного выше отметки 4 ГГц, до 4.20 ГГц. И последнее, но самое интересное: повышение энергоэффективности позволило AMD высвободить 32-ядерный Threadripper 2990WX, что ранее было невозможно.

AMD также развернула более быструю кэш-память SRAM и усовершенствовала контроллеры памяти, чтобы значительно снизить задержки. Латентность кэша L3 стала на 16%, L2 на 34%, L1 на 13%, а задержки DRAM (память) на 11%. Именно здесь происходит почти все поднятие IPC. AMD также увеличила максимальные частоты ОЗУ. Теперь процессор поддерживает до DDR4-2933 (JEDEC).

arch6

arch7

Обновления для логики SenseMI включают в себя Precision Boost 2 и Extended Frequency Range (XFR). Precision Boost 2 теперь переключается с произвольных двух ядер и all-core (Boost целей) на постоянно действующий алгоритм увеличения мощности всех ядер, который повышает максимально лучшие ядра до самых высоких Boost состояний линейным образом (т.е. частота повышается с нагрузкой). Каждое ядро ​​работает выше номинальных частот, когда процессор не находится в режиме ожидания, что способствует повышению производительности многоядерных процессоров. Помимо нагрузки, алгоритм учитывает температуру, ток и Vcore. Степень градации составляет 0.25X базовых часов (25 МГц).

arch8

Extended Frequency Range 2 (XFR 2) основывается на успехе XFR с новым all-core поднятием за максимальные Boost частоты. Если охлаждение достаточно хорошее (60 °C), XFR теперь подтолкнёт все ядра за пределы Boost, а не только лучших несколько ядер. AMD утверждает, что с идеальным охлаждением функция XFR 2.0 увеличивает производительность на потрясающие семь процентов без ручного разгона со стороны пользователя.

Чипсет AMD X399


Подавляющее большинство PCIe I/O обрабатывается непосредственно процессорным сокетом TR4. Так как кристалл «Pinnacle Ridge» был спроектирован как самостоятельный SoC, процессор TR4 также выводит некоторые I/O, такие как четыре порта SATA 6 Гбит/с, восемь портов USB 3.0, а также High Definition Audio.

Чипсет X399 имеет почти идентичный набор функций X370. Он выпускает восемь линий PCI-Express gen 2.0, которые управляют бортовыми сетевыми контроллерами или проводкой для некоторых слотов x1. Чипсет предлагает шесть дополнительных портов SATA 6 Гбит/с с поддержкой AHCI-RAID; восемь USB 3.0 и два порта USB 3.1 gen 2. Платформа поддерживает технологии с несколькими GPU NVIDIA SLI и AMD CrossFire X.