ICE ClusterWare™ de Penguin Solutions es software de administración de clústeres que permite a los administradores administrar de manera eficiente los recursos de hardware y software y aprovechar al máximo sus clústeres de HPC e AI/ML. Al integrar ICE ClusterWare con herramientas de DevOps conocidas, como Ansible y Git, los administradores pueden automatizar su trabajo, lo que permite a las organizaciones maximizar su productividad de HPC y acelerar la innovación.

La «infraestructura como código» con ClusterWare permite a los administradores mantener una base de código central, como Gitlab, que contiene todas las configuraciones de nodos que se utilizan. Los repositorios de Git, que se pueden alojar en los nodos principales de ClusterWare, se pueden usar para el control de versiones de los datos y los flujos de trabajo, así como del código. Esto hace que la gestión del cambio sea más sencilla, auditable y fácil de rastrear.

Además, este uso de los repositorios de Git permite que la información se comparta más fácilmente internamente, así como con socios, contratistas externos y personal de soporte, según sea necesario.

Automatización de la configuración de imágenes

ICE ClusterWare utiliza un aprovisionamiento rápido basado en imágenes para crear clústeres de procesamiento listos para ejecutarse en entornos físicos, virtualizados o en contenedores. Para algunos clústeres, todo el software posible necesario para un nodo puede estar contenido en su imagen. ClusterWare puede aprovisionar clústeres heterogéneos, por lo que se pueden crear y distribuir varias imágenes en función de los atributos del hardware o el software.

Por ejemplo, los nodos de GPU pueden recibir una imagen diferente a la de los nodos que solo utilizan CPU. Sin embargo, a medida que los clústeres aumentan de tamaño o es necesario aprovisionar más subconjuntos de nodos de forma diferente, los cambios en las imágenes pueden resultar difíciles de rastrear.

Como alternativa, los administradores pueden arrancar desde una imagen ligera que contenga Ansible o Puppet y permitir que esa herramienta proporcione una configuración de imagen adicional. La automatización de la configuración de imágenes de esta manera reduce los posibles errores e introduce la eficiencia y la auditabilidad en esta tarea que, de otro modo, sería manual.

El aprovisionamiento rápido conduce a la flexibilidad

El rápido aprovisionamiento y la capacidad de ICE ClusterWare para soportar entornos heterogéneos pueden llevar a una mayor flexibilidad administrativa. Por ejemplo, los administradores pueden particionar un subconjunto de nodos para probar nuevas imágenes y, al mismo tiempo, mantener la mayor parte del clúster en producción estándar.

Una vez que las pruebas se hayan realizado correctamente, la nueva imagen se puede implementar en el resto del clúster. En los entornos HPC empresariales en los que se requieren actualizaciones frecuentes, este enfoque permite que la producción continúe a escala con menos interrupciones mientras se implementan las actualizaciones.

Implementación de protocolos de seguridad

STIG (Guías de implementación técnica de seguridad), son directrices de seguridad federales que se utilizan para garantizar que las máquinas estén debidamente protegidas de forma auditable. Una forma de automatizar la implementación de STIG en un clúster es aprovisionar imágenes de nodos de procesamiento base mediante ClusterWare y, a continuación, usar Ansible para agregar componentes STIG sobre estas imágenes base.

La configuración STIG deseada se puede guardar como un manual de estrategias de Ansible que se ejecuta automáticamente mediante Ansible pull al arrancar. Esta integración elimina los posibles cuellos de botella que pueden producirse al enviar información desde un nodo de control de Ansible y permite al administrador automatizar el proceso de arranque de los nodos nuevos.

En este ejemplo, el administrador se asegura de que se pueda proteger un gran número de máquinas de forma precisa y eficiente a un nivel granular, al tiempo que reduce la cantidad de trabajo manual requerido.

Diagram of how the Scyld Clusterware works.

Simplificación de la administración del sistema a nivel empresarial

A medida que los clústeres aumentan de tamaño, también lo hacen los equipos administrativos. A gran escala, la administración de clústeres se vuelve más compleja y es posible que un grupo más grande de personas deba compartir más información.

ICE ClusterWare está diseñado para administrar clústeres de decenas a decenas de miles de nodos, lo que garantiza un aprovisionamiento y una supervisión del estado rápidos y confiables para clústeres de cualquier tamaño. Las funciones de alta disponibilidad (HA) de ClusterWare permiten que cualquier nodo principal brinde servicios a cualquier nodo de procesamiento, lo que reduce considerablemente e incluso elimina las interrupciones causadas por fallas en el nodo principal.

Desde el punto de vista de DevOps, los nodos principales de ClusterWare pueden alojar los repositorios de Git antes mencionados. La combinación de esto con Ansible pull produce una configuración ligera que puede permitir a los administradores escalar hasta miles de nodos con facilidad. La portabilidad de los playbooks permite reutilizarlos en varios entornos con diferentes imágenes base y simplifica el control de versiones. Esto facilita la ejecución rápida de nuevos entornos y el arranque uniforme de las imágenes en un estado correcto conocido.

Diseñado para entornos centrados en la seguridad

ClusterWare puede ejecutarse incluso en los entornos más seguros, lo que respalda las mejores prácticas de seguridad de TI. Se admiten las implementaciones aisladas, en las que las ISO se pueden guardar en repositorios internos, lo que permite la creación de imágenes sin necesidad de una conexión pública a Internet.

Además, ClusterWare es compatible con SELinux, incluida la política MLS de RedHat, los protocolos de seguridad federales FIPS y STIG y el cifrado TPM. El uso de la infraestructura como código puede fortalecer aún más la postura de seguridad de una organización, garantizando un control de versiones organizado y la auditabilidad de CI/CD.

Colabore con los expertos en HPC de Penguin Solutions

ICE ClusterWare está desarrollado y respaldado por un equipo de expertos con décadas de experiencia en HPC. Trabajamos en estrecha colaboración con los usuarios para elaborar nuestra hoja de ruta de productos y garantizar que nuestro software siga evolucionando en función de las necesidades de los usuarios.

El uso de las funciones de Ansible-pull y Git para el control de versiones permite a los administradores aprovisionar y administrar clústeres mediante herramientas de DevOps conocidas. Esto ayuda a las organizaciones a operar su entorno de HPC de manera eficiente y segura.

Inscríbase para obtener una demostración para ver cómo Penguin Solutions puede ayudarle a optimizar la administración de clústeres de HPC e AI/ML de nivel empresarial. También puede hablar con un experto y solicitar precios ¡hoy!

Imagen del autor

Artículos relacionados

Server aisle

Hable con los expertos en
Penguin Solutions

En Penguin, nuestro equipo diseña, construye, implementa y administra soluciones empresariales de HPC e IA de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.

Comuníquese hoy mismo y analicemos las necesidades de su proyecto de solución de infraestructura.

Hablemos