Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
A diferencia de los sistemas de TI tradicionales, las infraestructuras de HPC e IA utilizan diferentes procesadores, plataformas y redes e implican operaciones de precisión. Estas diferencias pueden afectar a la capacidad de su equipo de TI interno para gestionar el rendimiento y el tiempo de actividad.
Los clústeres de IA y HPC utilizan componentes especiales con características de error únicas. Es posible que sea necesario modificar las herramientas de monitoreo tradicionales para administrar y ajustar los elementos de manera adecuada.
Como ocurre con cualquier clúster, los que se utilizan para la IA y el HPC deben gestionarse de forma continua mediante comprobaciones de estado, ya que los problemas de rendimiento y los patrones de fallos pueden generar un impacto financiero significativo.
La gestión persistente de la supervisión, las alertas y la escalación, realizada por ingenieros de servicios gestionados certificados por NVIDIA con informes de tiempo de actividad basados en SLA, evita los retrasos en la carga de trabajo.
Impulsar el tiempo de actividad y el rendimiento en entornos complejos y de gran escala con más de 2000 millones de horas de tiempo de ejecución de GPU.
Con más de 85 000 GPU implementadas y bajo nuestros servicios de administración, seguimos cumpliendo con los requisitos de infraestructura de IA actuales y en evolución.
Desde la ingeniería hasta las operaciones técnicas, Penguin ofrece conocimientos especializados y organiza las áreas funcionales clave para garantizar un rendimiento óptimo.
Nuestros años de experiencia nos han permitido desarrollar capacidades inigualables para gestionar grandes fábricas de IA. Por ejemplo, estamos ayudando Meta administre el superclúster de Meta Research, con más de 2000 sistemas NVIDIA DGX, 16 000 GPU NVIDIA A100 Tensor Core, 500 PB de almacenamiento y 40 000 enlaces de red NVIDIA InfiniBand.
Penguin Solutions trabajó con el equipo de operaciones de Meta en la integración del hardware para implementar el clúster y configurar las partes principales del plano de control. La experiencia de Penguin en hardware y software ayudó a unir las contribuciones de NVIDIA y Pure Storage.
Juntos, estos tres socios fueron clave para proporcionar a Meta una solución optimizada, el nuevo SuperCluster de investigación de IA (RSC), que permitió a Meta sentar las bases para la Metaverso.
Penguin Solutions sigue proporcionando un tiempo de actividad y una disponibilidad excepcionales para el gran clúster NVIDIA DGX de Meta.
Penguin Solutions ha diseñado grandes clústeres DGX de NVIDIA, con redes NVIDIA InfiniBand de alta velocidad y almacenamiento optimizado. Tenemos relaciones y experiencia con la mayoría de los proveedores de almacenamiento, lo que nos permite ofrecer soluciones a medida para cada cliente.
Acelere el tiempo de obtención de valor basando las arquitecturas de los sistemas en un conjunto comprobado de diseños que se han validado a escala en numerosas implementaciones de producción.
Logre altas tasas de estabilidad del sistema con nuestros expertos en fábrica que validan todos los componentes del clúster de procesamiento, incluida la integración de racks, la configuración de la red y las pruebas de instalación.
Impulse las instalaciones in situ, incluida la coordinación con los socios de almacenamiento de datos, el personal del centro de datos, las infraestructuras de refrigeración del sistema y el uso de nuestro software ClusterWare para validar la preparación de la producción.
Ponte en contacto hoy mismo y descubre cómo podemos ayudar a garantizar la preparación de la producción y la gestión del cambio como proveedor certificado de servicios gestionados de IA listos para DGX de NVIDIA, con un conjunto completo de servicios integrales que incluyen un soporte completo las 24 horas del día, los 7 días de la semana.