Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
La implementación de la IA privada requiere cambios de diseño significativos en la infraestructura del centro de datos, incluida la refrigeración de las GPU y la administración de energía, lo que requiere recursos y habilidades especializados.
Los diseñadores de GPU superan las limitaciones físicas del silicio con requisitos de densidad de núcleo nunca antes vistos, lo que supera los límites de la escala y el rendimiento de la IA. El resultado es un inmenso consumo de energía y una generación de calor nunca antes vistos en un centro de datos.
El uso de tecnologías con uso intensivo de datos, como la inteligencia artificial (IA), el aprendizaje automático (ML) y el Internet de las cosas (IoT), está estimulando un crecimiento exponencial del espacio de los servidores, lo que impone demandas térmicas y de energía cada vez mayores a los centros de datos modernos.
Para prepararse para los requisitos futuros de la infraestructura de IA, las empresas están implementando tecnologías que les permitirán introducir densidades de racks más altas y GPU de mayor rendimiento para maximizar el rendimiento de los centros de datos y, al mismo tiempo, ayudarlas a cumplir con los compromisos de sostenibilidad de los recursos y minimizar el impacto ambiental de sus instalaciones.
Las estrategias específicas incluyen la adopción de fuentes de energía renovables y la implementación de infraestructuras energéticamente eficientes, como sistemas de refrigeración innovadores, que incluyen refrigeración directa por chip, refrigeración líquida e inmersión, lo que reduce los costos de energía y respalda sus objetivos de sostenibilidad.
El modelado con IA viene acompañado de un aumento de la densidad de los racks de las GPU, que aumentan rápidamente, con requisitos de energía de hasta 50 kW por rack y más. En concreto, un rack H100 con solo 4 nodos requiere 44 kW. Esto contrasta marcadamente con el promedio del sector de entre 8,6 y 10 kW por rack tradicional para los centros de datos convencionales.
Con esta inmensa potencia informática dentro de los centros de datos modernos, los métodos tradicionales de refrigeración por aire se están topando con barreras de rendimiento, ya que las densidades de los chips y la producción térmica siguen aumentando exponencialmente, lo que aumenta exponencialmente las cargas de calor generadas por los procesadores GPU modernos.
Esto se traduce en un uso ineficiente de la energía, mayores emisiones de carbono y la necesidad de que los centros de datos ocupen cada vez más espacio para disipar el calor. Los puntos críticos dentro de estas instalaciones agravan aún más el problema y provocan ineficiencias térmicas y cuellos de botella en el rendimiento.
Dado que la energía lo dicta todo en el diseño de la infraestructura de IA, Penguin Solutions planifica el diseño físico del espacio del centro de datos teniendo en cuenta tecnologías de refrigeración avanzadas, como la refrigeración líquida y la inmersión en líquidos.
Este método de refrigeración del centro de datos enfría directamente los servidores bombeando refrigerante a una placa fría que contrae los componentes directamente.
Los servidores se sumergen en un fluido refrigerante monofásico no conductor, como aceites, fluorocarbonos o ésteres sintéticos, que absorben el calor.
Los servidores se sumergen en un baño de fluido dieléctrico que se evapora para eliminar el calor.
Años de experiencia
GPU implementadas y administradas
Horas de tiempo de ejecución de la GPU
Con el aumento del consumo de energía de las cargas de trabajo con uso intensivo de cómputos y los requisitos de entrenamiento y ajuste de los modelos de IA, los sistemas no se pueden enfriar de forma sostenible mediante métodos de refrigeración convencionales.
Descubra cómo Penguin Solutions se asoció con AMD y Shell para aumentar el rendimiento con menos emisiones en el centro de datos de Shell en Houston mediante la implementación de sistemas listos para la inmersión.
Póngase en contacto hoy mismo y obtenga más información sobre cómo podemos ayudarlo con el diseño de su centro de datos de IA y HPC, incluidos sus requisitos de alimentación y refrigeración, a la vez que cumple sus objetivos de sostenibilidad.