Nvidia вступает в битву процессоров с CPU Vera для ИИ
Аппараты не только предназначены для задач искусственного интеллекта, но и обещают значительный рост общей производительности. Вместе с процессорами была показана стоечная система Vera CPU Rack, вмещающая 256 таких CPU; согласно оценкам Nvidia, она обеспечивает увеличение производительности центральных процессоров в шесть раз и удваивает скорость выполнения задач агентного ИИ.
В сравнении с первым поколением Grace, имевшим 72 ядра, новый чип Vera содержит 88 ядер и поддерживает 176 потоков выполнения. Разработчик сообщает о повышении количества исполняемых инструкций за цикл (IPC) на 50%, что является исключительно большим скачком для современных процессорных архитектур, где межгенерационный рост обычно ограничивается несколькими процентами или небольшими двузначными значениями.
Это достижение связано с переходом от стандартных ядер Arm Neoverse в Grace к новым ядрам Olympus в Vera. Последние описываются как разработанные непосредственно Nvidia, что указывает на глубокие модификации базового проекта Arm. Архитектурной основой стала современная спецификация Arm v9.2-A.
Ключевой инновацией стала технология пространственной многопоточности (Spatial Multi-Threading). В отличие от классического SMT, где потоки последовательно используют ресурсы ядра, здесь важные компоненты конвейера — исполнительные модули, кэши и файлы регистров — физически разделены между потоками. Это позволяет двум потокам фактически работать одновременно, повышая параллелизм инструкций, увеличивая пропускную способность и делая производительность более стабильной, поскольку незанятые исполнительные блоки могут мгновенно обрабатывать команды из другого потока. Такая схема особенно эффективна в условиях с множеством независимых пользователей и виртуальных сред.
Все 88 ядер объединены в один вычисляющий домен без разделения по принципу NUMA, характерного для современных многоядерных x86-процессоров. Это должно снизить latency доступа к памяти, повысить predictability работы системы и упростить разработку программ. Для связи между ядрами используется новое поколение собственной шины Nvidia Scalable Coherency Fabric с mesh-топологией. Она основывается на когерентной сетевой архитектуре Arm CMN-700, применявшейся в Grace, но, вероятно, использует более современную реализацию CMN S3 или её адаптированную версию.
Сеточная структура обеспечивает высокую совокупную пропускную способность памяти и позволяет эффективно распределять ресурсы между ядрами. В процессорах Grace общая пропускная способность памяти равнялась 546 ГБ/с, что давало примерно 7,6 ГБ/с на ядро. В Vera этот параметр увеличился более чем двукратно — до 1,2 ТБ/с, которые поддерживаются 1,5 ТБ памяти LPDDR5 в модулях SOCAMM. Объём памяти возрос в три раза, а средняя пропускная способность на ядро при полной нагрузке достигает 13,6 ГБ/с. При неравномерной загрузке отдельное ядро может получить до 80 ГБ/с, что особенно критично для потоков с интенсивными операциями обращения к памяти.
Архитектура также включает десятиканальный блок декодирования инструкций, нейросетевой предсказатель переходов, специализированный механизм предварительной выборки для анализа графовых баз данных и буфер инструкций, оптимизированный для работы с PyTorch. Процессор поддерживает технологию Confidential Computing, позволяющую формировать полностью защищённые вычислительные домены для CPU и GPU.
Для связи между кристаллами применяется интерфейс NVLink-C2C с пропускной способностью до 1,8 ТБ/с — вдвое выше, чем у Grace, и примерно в семь раз быстрее PCI Express 6.0. Процессоры также поддерживают двухсокетные конфигурации и современные стандарты для дата-центров, включая PCIe 6.0 и CXL 3.1.
