Ультимативный вычислительный кластер для обучения ИИ

Клиент: Банк

Задача: Полная миграция ИИ-инфраструктуры из публичного облака в собственный закрытый контур.

Контекст: Почему свое «железо» побеждает облака?

Ранее банк полагался на арендованные GPU-мощности. Облачная инфраструктура использовалась для двух критически важных направлений:

Предиктивная аналитика: Глубокий анализ Big Data для оценки рисков и персонализации предложений.
Генеративный ИИ: Обучение и инференс собственного LLM-ассистента для поддержки клиентов и сотрудников.

Однако с ростом нагрузки и требований к безопасности, аренда перестала быть оправданной.

Вопрос безопасности: Финансовые данные и веса нейросетей — это коммерческая тайна, которую рискованно доверять сторонним провайдерам.
Экономика: На дистанции стоимость аренды высокопроизводительных кластеров начинает кратно превышать стоимость собственного оборудования.

Решение

Клиент принял стратегическое решение: отказаться от зависимости от облачных провайдеров.

Вызов: Максимальная плотность вычислений

Для обучения современных нейросетей требуется колоссальный объем видеопамяти и пропускной способности. Стандартные решения здесь бессильны. Нашим инженерам требовалась платформа, способная объединить мощь нескольких топовых графических ускорителей и обеспечить их бесперебойную работу под 100% нагрузкой 24/7.

Решение: Архитектура без узких мест

Основой сборки стала серверная платформа ASUS ESC8000A-E13P 4U. Это не просто корпус, это инженерный шедевр, спроектированный для размещения до 8 двухслотовых GPU с оптимизированным воздушным потоком.

1. Графическая мощь: 6x NVIDIA RTX PRO 6000 (Blackwell)

Сердце системы — шесть профессиональных видеокарт NVIDIA RTX PRO 6000 Blackwell Server Edition.

Почему это важно: Каждая карта несет на борту 96 ГБ памяти. В сумме мы получаем 576 ГБ видеопамяти в едином пуле. Это позволяет загружать в память огромные датасеты и модели целиком, избегая медленного обмена данными с накопителями.
Архитектура Blackwell: Новейшее поколение чипов, заточенное под тензорные вычисления и ИИ-задачи, обеспечивающее кратный прирост производительности по сравнению с предыдущими поколениями.

2. Вычислительный центр: 256 ядер AMD EPYC

Чтобы "прокормить" данными шесть таких видеокарт, нужен процессор исключительной мощности. Мы установили не один, а сразу два процессора AMD EPYC 9755.

Характеристики: Каждый процессор имеет 128 физических ядер и работает на частоте до 4.1 ГГц.
Итог: 256 физических ядер и 512 потоков. Это обеспечивает невероятную плотность вычислений для препроцессинга данных и виртуализации.

3. Оперативная память: 3 Терабайта DDR5

Для задач такого уровня понятие «много памяти» меняет свой смысл. В сервере установлено 24 модуля по 128 ГБ серверной памяти Samsung ECC DDR5 с частотой 6400 МГц.

Общий объем: 3072 ГБ (3 ТБ).
Коррекция ошибок (ECC): Критически важна для длительных вычислений, чтобы исключить риск сбоя из-за случайной ошибки в битах памяти.

4. Дисковая подсистема

Скорость доступа к данным должна соответствовать скорости их обработки.

Система и кэш: 2x 3.8TB Samsung PM9A3 (Gen4).
Хранилище данных: 2x 7.68TB Samsung PM9A3 (Gen4). Использование промышленных SSD серии PM9A3 гарантирует не только скорость до 6700 МБ/с, но и повышенную надежность (DWPD) при постоянной перезаписи данных.

Мы часто говорим о мощных компьютерах, но этот проект выходит за рамки привычного понимания производительности. Перед нами стояла задача собрать сервер, который не знает слова «очередь» или «недостаточно памяти». Это инструмент для решения задач промышленного масштаба, где каждая секунда простоя стоит дорого.

Решение от HyperPC: Своё, мощное, безопасное

Мы убеждены: сейчас нет необходимости арендовать чужие сервера и хранить конфиденциальные данные в облаке, когда можно построить собственную крепость данных.

В HyperPC мы спроектировали решение, которое закрывает сразу три потребности банка:

Полная приватность: Данные никогда не покидают периметр компании.
Экономическая эффективность: Разовая инвестиция вместо бесконечной аренды.
Надежность: Серверная архитектура корпоративного класса, рассчитанная на работу в режиме 24/7 со 100% аптаймом (uptime) без отказов и простоев.

Итог

Этот сервер за 17 миллионов — это фундамент цифровой независимости банка. Система позволяет проводить глубокую аналитику и дообучать языковые модели (LLM) внутри закрытого контура, гарантируя мгновенный отклик сервисов и полную сохранность банковской тайны.

Описание проекта

Ультимативный вычислительный кластер для обучения ИИ. Полная миграция ИИ-инфраструктуры из публичного облака в собственный закрытый контур. Сервер, который не знает слова «очередь» или «недостаточно памяти». Инструмент для решения задач промышленного масштаба, где каждая секунда простоя стоит дорого.

Дата создания: 2025

Стоимость: 17 000 000 руб.

Конфигурация

Видеокарты:

6x NVIDIA RTX PRO 6000 Blackwell Server Edition [96GB, 24064 CUDA]
Процессоры:

2x AMD EPYC 9755 [до 4.1GHz, 128 cores]
Платформа:

Server ASUS ESC8000A-E13P 4U
Оперативная память:

24x 128GB Samsung ECC DDR5 6400MHz [Total: 3TB]
Накопители (OS/Cache):

2x 3.8TB Samsung PM9A3 [5500MB/s, Gen4]
Накопители (Data):

2x 7.68TB Samsung PM9A3 [6700MB/s, Gen4]
Контроллер:

Broadcom SAS/SATA/NVMe 9560-16i 8Gb 16-port
Охлаждение:

Профессиональное нанесение термоинтерфейса

Понравился проект?

Хотите заказать подобный компьютер или создать свой уникальный проект? Свяжитесь с нами для консультации - обсудим все детали будущего ПК.

Связаться с менеджером Другие проекты

AMPERE

Рабочая станция. Для профессионалов

Подробнее

AMPERE