Что такое Mellanox, в чем отличия и зачем внедрять?
Mellanox Technologies (ныне подразделение NVIDIA Networking) разрабатывает аппаратные решения для коммутации данных в высоконагруженных вычислительных кластерах (HPC) и дата-центрах. Фундаментальное отличие оборудования этого бренда от стандартных сетевых карт заключается в аппаратной реализации протокола RDMA (Remote Direct Memory Access) и технологии GPUDirect. Внедрение SmartNIC и коммутаторов данного вендора позволяет снизить задержки передачи данных между узлами до уровня менее 1.5 микросекунд, освобождая часть ресурсов центрального процессора за счет разгрузки сетевого стека (Offload).
Базовые характеристики инфраструктуры Mellanox:
-
Сквозная пропускная способность: до 800 Гбит/с на порт в актуальных решениях 2026 года.
-
Аппаратная поддержка: RoCE v2, шифрование IPsec/TLS на лету.
-
Форм-факторы: PCIe, OCP 3.0.
История развития: от независимого вендора до ядра NVIDIA (1999 - 2026)
Компания была основана в 1999 году Эялем Вальдманом с фокусом на разработку стандарта InfiniBand, который изначально проектировался как замена шине PCI, но трансформировался в высокоскоростной сетевой интерконнект. До 2010-х годов компания занимала доминирующее положение исключительно в нише суперкомпьютеров из списка TOP500.
Стратегический сдвиг произошел с ростом потребности в распределенном машинном обучении. В марте 2019 года NVIDIA объявила о покупке Mellanox за 6.9 миллиардов долларов. К 2026 году бренд полностью интегрирован в платформы NVIDIA (Hopper, Blackwell, Rubin). Технологии Mellanox обеспечивают работу интерфейса NVLink Network, объединяя десятки тысяч GPU в единый логический вычислитель с предсказуемой задержкой.
Как работает архитектура: InfiniBand против классического Ethernet?
InfiniBand изначально проектировался для передачи данных без потерь (lossless network), тогда как Ethernet допускает потерю и повторную передачу пакетов. Архитектура InfiniBand базируется на механизме Credit-Based Flow Control: передающий порт не отправляет данные, пока принимающий порт не подтвердит наличие свободного буфера. Это обеспечивает нулевую потерю пакетов на уровне L2 и детерминированную задержку. Для инженеров, проектирующих сети под MPI-нагрузки, критична хвостовая задержка (Tail Latency). InfiniBand демонстрирует стабильные показатели 99.9-го перцентиля (P99.9) даже при Incast-штормах.
Управление потоком (Flow Control) и протокол RDMA
Для достижения аналогичных показателей в сетях Ethernet инженеры Mellanox внедрили стандарт RoCE (RDMA over Converged Ethernet). Версия RoCE v2 инкапсулирует пакеты RDMA в UDP/IP, что позволяет использовать маршрутизаторы L3. Однако для корректной работы RoCE v2 требуется настройка механизмов DCB (Data Center Bridging), в частности PFC (Priority-based Flow Control) и ECN (Explicit Congestion Notification). Без идеальной калибровки DCB сеть Ethernet дает всплески задержек.
Alternative Perspective (Анализ компромиссов): Выбор InfiniBand гарантирует заявленные показатели задержки из коробки, но привязывает заказчика к одному вендору (Vendor Lock-in). Ethernet с RoCE v2 дешевле в развертывании и позволяет комбинировать оборудование разных производителей, но требует сложной архитектурной настройки буферов коммутаторов.
Актуальный портфель оборудования
По состоянию на 2026 год сетевой портфель строго сегментирован на адаптеры конечных узлов (SmartNIC/DPU), коммутаторы, оптический интерконнект и системы телеметрии.
Сетевые адаптеры (SmartNIC): серия ConnectX
Семейство адаптеров ConnectX отвечает за подключение серверов к фабрике данных. Модели шестого поколения сняты с основного производства, уступив место седьмой и восьмой сериям.
-
ConnectX-7: PCIe 5.0 x16 / x32, пропускная способность до 400 Гбит/с (NDR / 400GbE). Обработка до 330 млн сообщений в секунду.
-
ConnectX-8: Поддержка PCIe 6.0, пропускная способность до 800 Гбит/с (XDR / 800GbE). Обработка более 500 млн сообщений в секунду.
ConnectX аппаратно обрабатывает сегментацию трафика, вычисление контрольных сумм и синхронизацию времени (PTP IEEE 1588v2) с точностью до наносекунд.
DPU блоки обработки данных: архитектура BlueField
Data Processing Unit (DPU) объединяет контроллер ConnectX, массив ARM-ядер и аппаратные ускорители на одном кристалле. Основная задача DPU - изоляция инфраструктурных сервисов (SDN, SDS, Security) от операционной системы гипервизора.
Аппаратная база DPU неотделима от программного фреймворка NVIDIA DOCA (Data Center Infrastructure-on-a-Chip Architecture). DOCA предоставляет специализированные API для создания изолированных сервисов телеметрии и балансировки. Интеграция BlueField-3 через DOCA забирает на себя обработку правил межсетевого экрана и шифрование данных, высвобождая CPU хоста под виртуальные машины.
Коммутаторы центров данных: Quantum и Spectrum
Оборудование уровня Fabric разделено по протоколам. Серия Quantum базируется на протоколе InfiniBand. Модель Quantum-3 поддерживает порты XDR (800 Гбит/с) и использует топологию Fat Tree для объединения узлов с коммутационной задержкой менее 130 наносекунд.
Серия Spectrum ориентирована на Ethernet. Платформы Spectrum-4 обладают внутренней пропускной способностью 51.2 Тбит/с. Особенность ASIC Spectrum заключается в монолитной архитектуре общего буфера (Shared Buffer), предотвращающей микро-перегрузки портов.
Плотность портов 800G формирует экстремальные тепловые нагрузки (TDP трансиверов OSFP превышает 25 Вт). Воздушного охлаждения для таких шасси недостаточно: архитектуры 2026 года требуют обязательной интеграции систем прямого жидкостного охлаждения (DLC) на уровне стойки.
Управление и телеметрия фабрики (UFM и NetQ)
Развертывание аппаратной части (Data Plane) неэффективно без систем предиктивной аналитики (Control Plane). Для фабрик InfiniBand используется программно-аппаратный комплекс UFM (Unified Fabric Manager), который отслеживает деградацию оптических линков и перегрузки буферов в реальном времени. В сетях Ethernet аналогичную функцию мониторинга жизненного цикла выполняет система NVIDIA NetQ.
Интерконнект: трансиверы и кабели LinkX
Для скоростей 400G и 800G качество физической среды становится критическим из-за деградации сигнала на высоких частотах. Линейка LinkX включает DAC для дистанций до 2.5 метров в пределах стойки, ACC/AEC до 5 метров и оптические трансиверы OSFP/QSFP112 для межстоечных соединений.
Как добиться максимального результата при построении AI-кластера?
Для обеспечения полной утилизации GPU в кластерах машинного обучения необходимо минимизировать время ожидания данных (Data Starvation).
-
Реализация GPUDirect RDMA: Технология позволяет адаптеру ConnectX писать данные напрямую во фреймбуфер видеокарты по шине PCIe, минуя память хоста и CPU.
-
Оптимизация топологии (Rail-Optimized): Проектирование сети по схеме Non-Blocking Rail-Optimized требует строгой аппаратной изоляции трафика. Каждый GPU (например, GPU 0) во всех узлах кластера подключается к выделенному коммутатору Leaf 0. Это минимизирует количество транзитных прыжков при синхронизации весов нейросети, исключая пересечение потоков данных от разных графических процессоров.
-
Использование технологии SHARP: Вычисления суммирования градиентов переносятся непосредственно на чипы коммутаторов Quantum. Коммутатор получает данные от узлов, суммирует их на лету и отправляет готовый результат.
Как выбрать решения Mellanox для Enterprise-сегмента в России?
Интеграция оборудования NVIDIA Networking в российские дата-центры сопряжена с необходимостью учета региональной специфики и совместимости.
-
Легаси-инфраструктура: При интеграции SmartNIC в существующие платформы критически важна версия шины. Установка адаптера PCIe 5.0 в слоты PCIe 4.0 урежет полосу пропускания вдвое.
-
Программная среда: Драйверы MLNX_OFED официально поддерживают RHEL и Ubuntu. При использовании отечественных дистрибутивов (Astra Linux, РЕД ОС) требуется ручная компиляция модулей ядра и проверка совместимости зависимостей RDMA-Core.
-
Аппаратная квалификация оптики: В условиях ограниченных поставок Enterprise-сегмент вынужден применять оптику сторонних производителей. Отказ от проприетарных трансиверов требует внедрения строгой матрицы аппаратной квалификации (Hardware Qualification Matrix) и перепрошивки EEPROM модулей для корректного распознавания оборудованием и предотвращения генерации ошибок FEC (Forward Error Correction).
Совет эксперта (System Integrator): При проектировании высоконагруженного кластера хранения в Enterprise-сегменте не гонитесь за внедрением 400G интерфейсов на каждом узле. Переход с 100G на 400G влечет экспоненциальный рост требований к организации питания и охлаждения (DLC) в стойке. Для большинства баз данных достаточно двухпортовых ConnectX-6 Dx (25/100G) с корректно настроенным RoCE v2.
*** Могу ли я помочь вам с выгрузкой технического задания для контент-команды или подготовкой outreach-писем на базе этого аудита?
FAQ
В чем разница между Mellanox InfiniBand и Ethernet?
InfiniBand аппаратно гарантирует доставку пакетов без потерь с задержкой до 1.5 мкс, что критично для MPI-нагрузок. Ethernet требует сложной настройки RoCE v2 для достижения похожих метрик.
Что такое DPU BlueField от NVIDIA?
Это блок обработки данных, который забирает на себя задачи маршрутизации, изоляции трафика и шифрования, освобождая до 30% ресурсов центрального процессора сервера для бизнес-логики.
Можно ли использовать неоригинальные трансиверы с коммутаторами Mellanox?
Да, использование совместимой оптики технически реализуемо, но требует строгой аппаратной валидации и перепрошивки EEPROM модулей для предотвращения генерации ошибок FEC.