Задача клиента
Клиенту требовался локальный вычислительный узел для обучения нейросетевых моделей и работы с большими датасетами. Основная проблема существующих решений заключалась в ограничении объема видеопамяти и перегреве при длительных нагрузках.
- Сфера деятельности: Машинное обучение (ML) и Data Science.
- Используемое ПО: Стек библиотек Python (PyTorch, TensorFlow), NVIDIA CUDA.
Ключевое требование: Возможность параллельной работы четырех флагманских GPU в едином контуре и наличие ОЗУ объемом от 2 ТБ для обработки данных в оперативной памяти.
Процесс подбора и решение
При проектировании системы основной упор был сделан на баланс пропускной способности и эффективный теплоотвод.
- Платформа: Выбран процессор Threadripper PRO 7995WX на базе чипсета WRX90. 96 ядер позволяют эффективно распараллеливать задачи предварительной обработки данных (data preprocessing) перед их подачей на GPU.
- Видеокарты: Установка четырех RTX 6000 Blackwell потребовала использования специализированной материнской платы с достаточным количеством линий PCIe 5.0, работающих в режиме x16/x16/x16/x16.
- Охлаждение: Стандартное воздушное охлаждение для четырех серверных карт в одном корпусе неэффективно из-за плотной компоновки. Мы внедрили кастомную систему жидкостного охлаждения, охватывающую CPU и все GPU. Это позволило поддерживать рабочие температуры в пределах 55–60°C под полной нагрузкой.
- Питание: Энергопотребление системы в пике превышает 2 кВт. Установлен блок питания мощностью 3000W, обеспечивающий необходимый запас по линиям 12V и сертификацию Platinum для снижения теплопотерь.
Результат
Спроектированная система позволила заказчику отказаться от аренды облачных мощностей в пользу локальных вычислений. Станция стабильно работает в режиме 24/7, обеспечивая суммарно 384 ГБ видеопамяти для самых ресурсоемких задач.
Понравился проект?
Хотите заказать подобный компьютер или создать свой уникальный проект? Свяжитесь с нами для консультации - обсудим все детали будущего ПК.