Сборный контейнерный центр обработки данныхМодульный центр обработки данных с проходамиМодульный центр обработки данных RowШкаф модульного центра обработки данных

Что такое контейнерный AIDC? Понимание инфраструктуры искусственного интеллекта нового поколения

поделиться с:

Вы постоянно слышите о вычислительных потребностях ИИ. Но реальным узким местом является не GPU — а инфраструктура вокруг него. Кластеры для обучения ИИ требуют плотности размещения в стойках, намного превышающей возможности традиционных центров обработки данных с воздушным охлаждением, часто от 50 кВт до более 150 кВт на стойку. Именно здесь вступает в игру новый класс инфраструктуры: Контейнерный AIDC (Центр обработки данных для искусственного интеллекта) — сборный модульный центр обработки данных, спроектированный специально для рабочих нагрузок ИИ.

Что такое контейнерный AIDC? Определение и основная концепция

Контейнерный AIDC - это не традиционный центр обработки данных. В отличие от обычных объектов, спроектированных по принципу “храни и работай”, центр обработки данных искусственного интеллекта строится вокруг самих данных, ориентированных на “хорошее использование и контроль”, а не просто на “хранение и работу”.”. Представьте себе интеллектуальный логистический узел, в котором каждый фрагмент данных очищается, маркируется и индексируется в момент поступления, готовый к немедленному использованию моделями искусственного интеллекта..

Каждая функциональная подсистема - ИТ-вычисления, распределение питания, охлаждение, сети и управление - собрана на заводе, предварительно протестирована и отправлена как единое целое, помещенное в стандартные транспортные контейнеры ISO.. После доставки вы просто устанавливаете его на подготовленную бетонную площадку, подключаете внешнее питание и оптоволокно и включаете его.

Контейнер AIDC

Модель доставки “с завода на поле”

Традиционный центр обработки данныхКонтейнер AIDC
Последовательное строительство на местеПараллельное изготовление на заводе и подготовка к строительству
12-24 месяца до ввода в эксплуатацию4-6 месяцев до ввода в эксплуатацию
Предназначен для 5-15 кВт на стойку с воздушным охлаждениемПредназначен для 50-150 кВт на стойку с жидкостным охлаждением

От блоков Lego до центра обработки данных: Как работает архитектура

Контейнер AIDC не строится, а собирается. Каждый контейнер функционирует как независимый строительный блок, предварительно изготовленный на заводе для стандартизированной транспортировки и соединения на месте. Архитектура строится по принципу "сверху вниз", по принципу "система систем".

Многослойная архитектура: От контейнера до кластера

Интеграция на уровне контейнеров: Каждый 20- или 40-футовый контейнер ISO представляет собой полноценную оперативную часть центра обработки данных. Ваши вычислительные узлы, высокоскоростная сетевая структура, блоки распределения питания (PDU), источники бесперебойного питания (UPS), батарейные шкафы, блоки распределения охлаждения (CDU) и контроллеры управления - все это находится в одном герметичном корпусе с регулируемым климатом..

Межмодульное соединение: Контейнеры не изолированы. Предварительно проложенные шины питания, оптоволоконные магистрали и коллекторы жидкостного охлаждения, оснащенные глухими соединителями, позволяют соединить соседние контейнеры в единый логический кластер. Это соединение по принципу "подключи и работай" позволяет обойтись без прокладки кабелей и сантехники, сокращая время развертывания до нескольких недель.

Масштабирование кластера: Нужно больше вычислений? Добавьте параллельно еще один контейнер. Нужно переехать? Отключите контейнер, поднимите его на платформу и передислоцируйте. Эта истинная модульность позволяет использовать модель “плати по мере роста”, избегая чрезмерного выделения ресурсов, характерного для традиционных сборок.

Функциональные модули в контейнере

Каждый контейнер AIDC разделен на специально разработанные функциональные модули, интегрированные на заводе и взаимозаменяемые на месте.:

  • IT-модуль - Стойки серверов с GPU/XPU (например, NVIDIA HGX), а также коммутаторы и узлы хранения данных в верхней части стойки (ToR)..
  • Модуль питания - ИБП высокой плотности, шкафы с литиевыми батареями и распределительные панели. Для сверхвысокой плотности производители, такие как Huawei, предлагают моноблочные блоки Power POD мощностью 3,2 МВт, вмещающие 3,2 МВт в одном транспортном контейнере..
  • Модуль охлаждения - Системы жидкостного охлаждения - от холодных пластин непосредственно на кристалле до резервуаров полного погружения.
  • Сетевой модуль - Высокоскоростные переключатели "спин/лист" со встроенными оптическими приемопередатчиками.
  • Модуль управления - Контроллеры DCIM с функциями удаленного мониторинга, предиктивного обслуживания и оптимизации на основе искусственного интеллекта.

Разбивка на составные части контейнерного AIDC

Теперь давайте откроем дверь контейнера и заглянем внутрь.

Вычислительный корпус высокой плотности (“мозг”)

В вычислительном корпусе размещается вычислительная мощность искусственного интеллекта. Стойки внутри контейнера AIDC рассчитаны на 60-100 кВт на стойку, каждая из которых может вмещать несколько серверов GPU высотой 4U или узлов XPU высотой 2U.. Традиционные стойки с открытыми рамами и вентиляторами на задних дверцах здесь не подойдут; вместо этого герметичные корпуса с блокировкой воздушного потока спереди и сзади и холодными пластинами, установленными непосредственно на процессорах, позволяют достичь экстремальной плотности, необходимой для обучения и вывода выводов ИИ.

Блок распределения питания (“сердце”)

Поскольку плотность мощности определяет инфраструктуру искусственного интеллекта, вся электрическая цепочка спроектирована для обеспечения высокого тока при высокой эффективности. Начиная с подачи электроэнергии, контейнерный AIDC обычно включает в себя:

  • Салазки для средневольтных трансформаторов (если внешняя утилита - MV).
  • Низковольтный главный распределительный щит с автоматическим переключателем (ATS) для обеспечения бесперебойной работы генератора.
  • Модульные ИБП - Для кластера мощностью 1 МВт можно использовать два параллельно подключенных модуля ИБП мощностью 600 кВА. Современные ИБП достигают КПД 99,1% в режиме S-ECO, что значительно снижает потери энергии..
  • Шкафы с литий-ионными батареями - Плотность энергии 4 × свинцово-кислотная, срок службы 15+ лет, с облачной системой BMS для мониторинга на уровне ячеек и обнаружения теплового выхода из строя.
  • Блоки распределения питания (PDU) - Интеллектуальные PDU на стойку сообщают о мощности, напряжении, токе и коэффициенте мощности на каждую розетку в режиме реального времени.

Система жидкостного охлаждения (“Легкие”)

Это самое важное отличие от обычных центров обработки данных. Мощность воздушного охлаждения не превышает 15-20 кВт на стойку, в то время как современные графические процессоры AI требуют 50-150 кВт. Жидкостное охлаждение - обязательное решение.

Контейнерные AIDC поддерживают несколько топологий жидкостного охлаждения:

  • Прямое подключение к чипу (холодная пластина) - Охлаждающая жидкость циркулирует по микроканалам на холодной пластине, установленной непосредственно на процессорной матрице, снимая 500-2000 Вт с каждого чипа. Это основной выбор для кластеров с высокой плотностью графических процессоров.
  • Погружное охлаждение (однофазное или двухфазное) - Все серверы погружены в диэлектрическую жидкость. Жидкость поглощает тепло и циркулирует через внешний теплообменник. Такой подход позволяет полностью отказаться от вентиляторов, обеспечивая коэффициент полезного действия на уровне 1,05.

Оба метода имеют одинаковую архитектуру замкнутого цикла: первичный блок распределения охлаждения (CDU) циркулирует охлаждающую жидкость через стойки, отводя тепло в наружный сухой охладитель, градирню или систему охлажденной воды на объекте.

Контейнер AIDC

Охрана окружающей среды и пожаротушение

Герметичность промышленного класса (IP55 или выше) исключает проникновение пыли, соли и влаги. Для пожаротушения используются сухие трубы предварительного действия или системы с чистыми агентами (Novec 1230 или FM-200), а в каждом отсеке установлены датчики тепла и дыма. Уникальным преимуществом контейнеров с жидкостным погружением является то, что пожаротушение обеспечивается самой диэлектрической жидкостью - дополнительная химическая система не требуется.

Интеллектуальное управление и наблюдаемость

Контейнерный AIDC - это не “тупая коробка”, а полностью оснащенный приборами объект, управляемый искусственным интеллектом. Встроенный шлюз управления инфраструктурой ЦОД (DCIM) объединяет данные датчиков из тысяч точек: температуру каждого GPU, расход охлаждающей жидкости, нагрузку ИБП, ток в ветвях PDU, обнаружение утечек, контакты дверей и многое другое. На основе этих данных алгоритмы искусственного интеллекта выполняют предиктивную аналитику - предупреждают о неисправном вентиляторе ИБП до его срабатывания или перераспределяют нагрузку на вычислительные системы, чтобы избежать тепловых очагов..

Как разворачивается контейнерный AIDC

Развертывание контейнера AIDC происходит по предсказуемому, ускоренному рабочему процессу, обеспечиваемому заводской сборкой и параллельным строительством.

Шаг 1 - Подготовка участка (параллельно с заводской сборкой). На ровной бетонной площадке или асфальтированном участке подготавливаются шлейфы инженерных коммуникаций: силовых кабелей среднего или высокого напряжения, оптоволоконных кабелей и линий водоснабжения/водоотведения (при использовании испарительного охлаждения). Поскольку контейнеры будут устанавливаться на место краном, не требуется строительство здания или установка мостового крана.

Шаг 2 - Интеграция и тестирование на заводе. Пока идет подготовка площадки, производитель собирает каждый контейнер в контролируемых заводских условиях. ИТ-стойки заселяются, кабели прокладываются, батареи ИБП устанавливаются и заряжаются, контуры охлаждающей жидкости заполняются и проверяются под давлением, а полные тесты системной интеграции проводятся в течение 72 с лишним часов.

Шаг 3 - Транспортировка и размещение на месте. Готовые контейнеры грузятся на бортовые грузовики и доставляются на место. Мобильный кран поднимает каждый контейнер на подготовленную площадку, укладывая их рядом друг с другом или до четырех слоев в высоту на площадках с ограниченным пространством.

Шаг 4 - Подключение и включение. Контейнеры соединяются механическими болтами. Предварительно проложенные силовые шины и оптоволоконные магистрали соединяются между собой, а коллекторы жидкостного охлаждения подключаются через глухие муфты. Встроенный шлюз DCIM включается для удаленного мониторинга, а 48-часовой тест на обжиг запускает все подсистемы под имитацией нагрузки.

Общий срок от заказа до начала эксплуатации: 4-6 месяцев для развертывания на новом месте или всего 15 дней для расширения кластера в рамках существующей зоны действия AIDC.

Заводская сборка: Секрет быстрой доставки

Традиционное строительство центров обработки данных происходит последовательно: рытье фундамента, возведение стальных конструкций, заливка полов, прокладка электропроводки, установка механического оборудования, завоз ИТ-оборудования. Любая задержка отражается на всем графике. Контейнер AIDC переворачивает эту модель с ног на голову.

Все происходит параллельно:

  • Строительные работы подготавливают площадку на территории заказчика.
  • Завод производит контейнеры.
  • Поставщик тестирует интегрированную систему.

Поскольку контейнеры изготовлены в соответствии со стандартными размерами ISO и спецификациями интерфейсов, их можно перевозить на любом бортовом грузовике, железнодорожном вагоне или грузовом судне. Для соединения на месте используются стандартизированные шины, оптоволоконные магистрали и жидкостные коллекторы с глухими соединителями, которые подключаются без необходимости изготовления на месте.

Модульная сборка значительно сокращает сроки поставки: проекты могут быть введены в эксплуатацию менее чем за половину времени традиционного строительства.. Ведущие поставщики, такие как Huawei, реализовали более 130 проектов AIDC в мире, используя эту методологию..

Контейнерный AIDC в сравнении с традиционным центром обработки данных: Разбивка по характеристикам

АспектТрадиционный центр обработки данных с воздушным охлаждениемКонтейнер AIDC
Максимальная плотность размещения в стойке10-20 кВт50-150 кВт (с жидкостным охлаждением)
Типичный показатель PUE1.5–1.81.05–1.15
Сроки развертывания12-24 месяца4-6 месяцев
Технология охлажденияВоздух (CRAC/CRAH)Жидкость (непосредственно на чип или погружение)
Эффективность силовой цепиМодуль ИБП 94-96%Режим S-ECO 99.1%
Физическая площадь на МВт~200-300 кв. м~50-100 кв. м
МасштабируемостьРасширение всего зданияДобавляйте контейнеры по модульному принципу
ПеремещаемыйНетДа (транспортировка грузовиками)
Предварительное тестирование на заводеНетПолный комплексный тест перед отправкой
Доступ к услугамГорячие/холодные проходы на основе проходовШасси с задней дверью или выдвижным корпусом

Продуктовый портфель контейнеров

Поставщики контейнерных AIDC предлагают многоуровневую линейку продуктов, соответствующую различным масштабам развертывания. В таблице ниже показана типичная структура портфеля.

СерияФорм-факторОбщая нагрузкаПлотность стоекЛучшее для
Серия I - кластер высокой плотности40 футов ISO1 МВТ100 кВт/стойкаМасштабное обучение LLM, 1 000+ кластеров GPU
Серия II - интегрированный стандарт40 футов ISO480 кВт60 кВт на стойкуБыстрое развертывание, ограниченная внешняя энергетическая инфраструктура
Серия III - Edge Compact20 футов ISO200 кВт50 кВт/стойкаПограничные вычисления, умные города, исследовательские лаборатории с ограниченным пространством
Серия IV - погружное охлаждение40 футов ISO~700 кВт50 кВт/стойкаСуровые условия (пустыни, шахты), тропические регионы, требующие работы без вентилятора

Каждая серия поставляется в виде полностью интегрированного, предварительно протестированного устройства - просто подключите внешние устройства и разверните его.. Такой продуктивный подход превращает мощности ИИ-центров обработки данных в товар из каталога, который заказывается как корпоративное ИТ-оборудование, а не как недвижимость, созданная по индивидуальному заказу.

Готовность к будущему с искусственным интеллектом

Контейнерные решения AIDC фундаментально переопределяют то, чем может быть ИИ-центр обработки данных: заводская точность, жидкостное охлаждение, модульная масштабируемость и развертывание за месяцы, а не годы. В SOETECK платформа AICoolit™ контейнерное жидкостное охлаждение разработана для обеспечения экстремальной плотности — до 100 кВт на стойку, PUE всего 1,15, от периферийных модулей мощностью 200 кВт до суперкомпьютерных кластеров на 1 МВт. Никаких задержек строительства. Никаких ограничений по плотности мощности. Только ИИ-инфраструктура, которая развертывается так же быстро, как обучаются ваши модели.

Об авторе

Гэвин

Гэвин

Гэвин - менеджер по операциям в компании, специализирующейся на вспомогательном оборудовании для центров обработки данных. Он разбирается в источниках бесперебойного питания для центров обработки данных, прецизионных кондиционерах и решениях для центров обработки данных. Он может помочь вам лучше понять эти продукты и выбрать различные решения.

Похожие посты