Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
Las mejores soluciones de alta disponibilidad en Edge Computing lo ayudan a prevenir de manera proactiva el tiempo de inactividad de sus aplicaciones de misión crítica en el borde de su red.
La disponibilidad es una forma de medir la durabilidad de un sistema. La disponibilidad se puede definir como el período de tiempo que dura un sistema realmente en funcionamiento (o servicio operativo), dividido por el tiempo que dura el sistema podría haber sido trabajando.
Por lo general, los sistemas se segmentan en niveles de disponibilidad según su número de «nueves» y se describen con más detalle con términos como «altamente disponible» y «tolerante a errores». Si un sistema está disponible el 99% del tiempo (dos nueves), significa que no está disponible el 1% del tiempo. En un año dado con 525 600 minutos disponibles, puede esperar que un sistema «dos nueves» no funcione durante 5 256 de esos minutos, o durante unas 88 horas o 4 días. En función del coste particular del tiempo de inactividad, esto puede resultar caro.
Los sistemas que funcionan con niveles de disponibilidad promedio más altos de «cuatro nueves» y «cinco nueves» suelen denominarse sistemas de «alta disponibilidad» o «tolerantes a errores», y «siete nueves» representan evolución de la tolerancia a fallos en plataformas inteligentes y predictivas.
Existen varios métodos comprobados que las empresas utilizan para mejorar la disponibilidad, que van desde mejorar la confiabilidad y la resiliencia del sistema, implementar procedimientos de respaldo y recuperación o implementar clústeres redundantes (físicos o virtuales) con servicios de conmutación por error.
Una forma de mejorar la disponibilidad es usar sistemas más confiables. Cuanto más robusto y fiable sea su sistema, es menos probable que se estropee. Cuanto menos se estropee, más tiempo seguirá funcionando y, por definición, más tiempo estará disponible.
Una forma similar de aumentar la disponibilidad es implementar un sistema más resiliente, que pueda recuperarse rápidamente de un contratiempo. Al reducir el tiempo necesario para reparar el sistema y reanudar los servicios, se reduce el tiempo de inactividad y se aumenta la disponibilidad general. Lo interesante es que si un sistema puede recuperarse rápidamente cada vez, entonces importa menos la frecuencia con la que se interrumpe.
Sin embargo, la confiabilidad y la resiliencia tienen sus límites. En muchos casos, no solo hay que preocuparse por la disponibilidad del sistema, sino también por la protección y la integridad de los datos.
Las empresas que adoptan un enfoque más holístico de la disponibilidad suelen hacer copias de seguridad de sus datos de forma regular y mantener los sistemas de repuesto en el inventario. Si sus sistemas de producción sufren una falla catastrófica, reinician los servicios en sus sistemas de repuesto y recuperan los datos que necesitan de sus archivos.
La configuración de los servicios de copia de seguridad y recuperación requiere cierta habilidad. Además, el tiempo de recuperación puede variar, desde unas pocas horas hasta unos pocos días, según las aplicaciones, la cantidad de datos y la disponibilidad de piezas de repuesto.
Para algunas empresas, la reanudación de los servicios después de unas horas o unos días puede ser aceptable. Sin embargo, aquellos con costos de inactividad relativos más altos necesitan un enfoque más resiliente, tanto para sus aplicaciones como para sus datos.
La agrupación en clústeres y la conmutación por error utilizan el mismo principio que el respaldo y la recuperación, pero reducen el tiempo de recuperación de los servicios al hacer algunas cosas por adelantado, como replicar los sistemas para que estén listos para reanudarse en cualquier momento. Se combinan varios sistemas y estos sistemas redundantes comparten datos. Por lo general, un sistema actúa como el principal y proporciona a los usuarios acceso a las aplicaciones y los datos, mientras que un sistema secundario actúa como respaldo, ya sea que permanezca inactivo hasta que sea necesario (pasivo) o ejecutando otras aplicaciones (activas). En caso de que se produzca un error en el sistema principal, la aplicación realizará una «conmutación por error» en el sistema secundario y reanudará su ejecución allí, siempre y cuando se establezcan las conexiones a los datos compartidos.
Con la aparición de las tecnologías de virtualización, los conceptos de agrupamiento en clústeres y conmutación por error se han extendido a los sistemas virtuales. En la actualidad, las tecnologías de virtualización y agrupamiento en clústeres se utilizan para combinar sistemas físicos y aplicaciones de conmutación por error que se ejecutan en máquinas virtuales (VM), aprovechando la portabilidad de las máquinas virtuales.
Penguin Solutions ofrece una amplia variedad de soluciones de Edge Computing que cubren todo el espectro de disponibilidad. Desde productos exclusivos de software como everRun, para completar soluciones como ztC Endurance, ztC Edge, y ftServer que incluyen hardware, software y servicios, ayudan a los clientes a entregar cargas de trabajo de alta disponibilidad y tolerantes a fallos de manera fácil y asequible. Póngase en contacto con nosotros hoy mismo para hablar sus necesidades de Edge Computing.
En Penguin, nuestro equipo diseña, construye, implementa y administra soluciones empresariales de HPC e IA de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.
Comuníquese hoy mismo y analicemos las necesidades de su proyecto de solución de infraestructura.