Высокопроизводительный вычислительный кластер для обучения LLM и работы с Big Data

Описание проекта

Клиент обратился к нам с запросом на создание мощного серверного решения, способного справляться с экстремальными нагрузками в области искусственного интеллекта. Основной фокус — обучение больших языковых моделей (LLM) и сложная аналитика данных.

Сфера деятельности: AI-разработка, глубокое обучение (Deep Learning) и высокопроизводительные вычисления (HPC).
Используемое ПО: Фреймворки PyTorch, TensorFlow, Docker-контейнеры для нейросетевых вычислений, библиотеки обработки данных.

Ключевое требование: Бескомпромиссная вычислительная мощность GPU и максимально быстрая подсистема хранения данных. Важным условием была высокая пропускная способность между видеокартами для параллельных вычислений.

Конфигурация апгрейда

Видеокарта:

4 x NVIDIA H200 (141 ГБ HBM3e, 16 896 CUDA-ядер)
Процессор:

2 x AMD EPYC 9374F (32 ядра, до 4.1 ГГц, 256 МБ L3 cache)
Материнская плата:

ASUS ESC8000A-E13P 4U (двухсокетная, поддержка до 8 GPU)
Оперативная память:

24 x 64ГБ Samsung ECC DDR5 (1536 ГБ)
Накопители:

2 x 960ГБ/4x3.84ТБ Samsung PM9A3
Охлаждение:

HYPERPC CUSTOM
Блок питания:

3000W ASUS PRO WS [80+ Platinum]
Корпус:

CORSAIR h200 White

Процесс подбора и решение

Для реализации такой задачи стандартные серверные решения не подходили. Мы остановили выбор на платформе ASUS ESC8000A-E13P формата 4U, которая является эталоном для GPU-ориентированных систем.

Логика конфигурации:

Графическая мощь: Выбор пал на новейшие ускорители NVIDIA H200 с объемом памяти 141 ГБ каждый. Это «золотой стандарт» для работы с нейросетями в 2026 году. Чтобы объединить их в единую вычислительную экосистему, мы использовали мосты NVLink, обеспечивающие обмен данными на скоростях, недоступных для обычной шины PCIe.
Вычислительный центр: Два процессора AMD EPYC 9374F обеспечивают 64 высокочастотных ядра, что критически важно для подготовки данных (preprocessing) перед их подачей на GPU.
Память и хранение: Мы укомплектовали систему 1.5 ТБ оперативной памяти и передовыми NVMe-накопителями Samsung PM9D3a с поддержкой PCIe 5.0. Скорость чтения в 12 000 МБ/с гарантирует отсутствие «бутылочного горлышка» при работе с огромными датасетами.

Сетевой интерфейс: Для интеграции сервера в существующую инфраструктуру заказчика установлен двухпортовый адаптер Mellanox ConnectX-6, поддерживающий скорость до 25 Гбит/с.

Результат

Инженерами нашей компании был собран и протестирован один из мощнейших серверов в своем классе.

Производительность: Использование мостов NVLink и архитектуры H200 позволило сократить время обучения специфических моделей заказчика в несколько раз по сравнению с предыдущим поколением систем.
Надежность: Сервер прошел 48-часовое стресс-тестирование. Благодаря серверной платформе ASUS с избыточным охлаждением и блоками питания, система готова к эксплуатации в режиме 24/7/365.

Масштабируемость: Конфигурация оставляет возможность для доукомплектования еще 4-мя ускорителями NVIDIA H200 без замены базовых узлов системы.

Понравился апгрейд?

Хотите заказать подобный компьютер или создать свой уникальный проект? Свяжитесь с нами для консультации - обсудим все детали будущего ПК.

Связаться с менеджером Другие проекты

AMPERE