Network engineer checking cable connections
Servicios > Administrar

Prestación de servicios gestionados de infraestructura para cargas de trabajo de IA y HPC

A diferencia de los sistemas de TI tradicionales, las infraestructuras de HPC e IA utilizan diferentes procesadores, plataformas y redes e implican operaciones de precisión. Estas diferencias pueden afectar a la capacidad de su equipo de TI interno para gestionar el rendimiento y el tiempo de actividad.

Hablemos

Resolviendo la arquitectura
Gestión de precisión

Equipo sensible

Los clústeres de IA y HPC utilizan componentes especiales con características de error únicas. Es posible que sea necesario modificar las herramientas de monitoreo tradicionales para administrar y ajustar los elementos de manera adecuada.

GPUs caras

Como ocurre con cualquier clúster, los que se utilizan para la IA y el HPC deben gestionarse de forma continua mediante comprobaciones de estado, ya que los problemas de rendimiento y los patrones de fallos pueden generar un impacto financiero significativo.

Métodos confiables

La gestión persistente de la supervisión, las alertas y la escalación, realizada por ingenieros de servicios gestionados certificados por NVIDIA con informes de tiempo de actividad basados en SLA, evita los retrasos en la carga de trabajo.

La mejor arquitectura de su clase

El éxito de la IA requiere pruebas
Experiencia gerencial

Penguin Solutions cuenta con más de 25 años de experiencia en la creación y gestión de clústeres HPC y
más de 8 años de experiencia con clústeres muy grandes. Esto experiencia certificada nos ha permitido desarrollar capacidades inigualables con fábricas de IA muy grandes.

Rack of servers

Más de 2 mil millones de horas

Impulsar el tiempo de actividad y el rendimiento en entornos complejos y de gran escala con más de 2000 millones de horas de tiempo de ejecución de GPU.

GPU chip on motherboard

85 000 GPU

Con más de 85 000 GPU implementadas y bajo nuestros servicios de administración, seguimos cumpliendo con los requisitos de infraestructura de IA actuales y en evolución.

Team members reviewing rack storage

Centros de excelencia (COE)

Desde la ingeniería hasta las operaciones técnicas, Penguin ofrece conocimientos especializados y organiza las áreas funcionales clave para garantizar un rendimiento óptimo.

En las noticias

Experiencia en la gestión de grandes clústeres DGX de NVIDIA

Nuestros años de experiencia nos han permitido desarrollar capacidades inigualables para gestionar grandes fábricas de IA. Por ejemplo, estamos ayudando Meta administre el superclúster de Meta Research, con más de 2000 sistemas NVIDIA DGX, 16 000 GPU NVIDIA A100 Tensor Core, 500 PB de almacenamiento y 40 000 enlaces de red NVIDIA InfiniBand.

Penguin Solutions trabajó con el equipo de operaciones de Meta en la integración del hardware para implementar el clúster y configurar las partes principales del plano de control. La experiencia de Penguin en hardware y software ayudó a unir las contribuciones de NVIDIA y Pure Storage.

Juntos, estos tres socios fueron clave para proporcionar a Meta una solución optimizada, el nuevo SuperCluster de investigación de IA (RSC), que permitió a Meta sentar las bases para la Metaverso.

Lea la historia completa
Lea el comunicado de prensa

Ofreciendo una arquitectura optimizada para la IA y
Servicios gestionados por IA

Penguin Solutions sigue proporcionando un tiempo de actividad y una disponibilidad excepcionales para el gran clúster NVIDIA DGX de Meta.

Meta data center

Compatible con NVIDIA DGX certificado
Socio de servicios gestionados de IA

Penguin Solutions ha diseñado grandes clústeres DGX de NVIDIA, con redes NVIDIA InfiniBand de alta velocidad y almacenamiento optimizado. Tenemos relaciones y experiencia con la mayoría de los proveedores de almacenamiento, lo que nos permite ofrecer soluciones a medida para cada cliente.

Meta server racks
Nuestro proceso: servicios adicionales

Servicios integrales de infraestructura de HPC e IA

Penguin Solutions se dedica al éxito de nuestros clientes. Con 25 años de experiencia en HPC en el diseño, la creación, la implementación y la gestión de clústeres de IA y computación acelerada, hemos habilitado algunas de las cargas de trabajo más sofisticadas del mundo.

Empty server room
Diseño

Servicios de infraestructura de diseño

Acelere el tiempo de obtención de valor basando las arquitecturas de los sistemas en un conjunto comprobado de diseños que se han validado a escala en numerosas implementaciones de producción.

Descubra nuestro servicio de diseño
Descubra nuestro servicio de diseño
Clean room server build cabling
Construir

Servicios de infraestructura de edificios

Logre altas tasas de estabilidad del sistema con nuestros expertos en fábrica que validan todos los componentes del clúster de procesamiento, incluida la integración de racks, la configuración de la red y las pruebas de instalación.

Descubra nuestro servicio de construcción
Descubra nuestro servicio de construcción
Server room network engineers
Despliegue

Servicios de infraestructura de despliegue

Impulse las instalaciones in situ, incluida la coordinación con los socios de almacenamiento de datos, el personal del centro de datos, las infraestructuras de refrigeración del sistema y el uso de nuestro software ClusterWare para validar la preparación de la producción.

Descubra nuestro servicio de implementación
Descubra nuestro servicio de implementación
Woman in data center with tablet
Solicita que te devuelvan la llamada

Hable con los expertos de Penguin Solutions

Ponte en contacto hoy mismo y descubre cómo podemos ayudar a garantizar la preparación de la producción y la gestión del cambio como proveedor certificado de servicios gestionados de IA listos para DGX de NVIDIA, con un conjunto completo de servicios integrales que incluyen un soporte completo las 24 horas del día, los 7 días de la semana.

Hablemos