Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
Descubra cómo minimizar el impacto de las fallas del sistema con estrategias de tolerancia a fallas. Aprenda ejemplos y pasos prácticos para aumentar la resiliencia y proteger los ingresos.
¿Qué medidas se pueden tomar cuando se produce una falla en los equipos o sistemas? Incluso si se produce una falla, el impacto en los ingresos se puede minimizar tomando medidas y haciendo los preparativos para minimizar el daño. Introduciremos medidas específicas que puedan mejorar la resiliencia frente a los fracasos, junto con ejemplos concretos.
El término tolerancia a fallos se utiliza a veces cuando se habla de problemas que se producen en los equipos o sistemas. ¿Qué significa la tolerancia a fallos y en qué situaciones se utiliza?
Cualquier equipo o sistema inevitablemente sufrirá algún tipo de accidente o problema durante un largo período de uso.
Cualquier sistema terminará inevitablemente en un dispositivo físico si se rastrea a través del entorno operativo, y las partes integradas en él se deteriorarán con el tiempo. Mientras haya un equipo físico allí, incluso si no hay problemas de software, inevitablemente ocurrirá algún tipo de problema de hardware.
Estos accidentes y problemas, o fallos de funcionamiento debidos al envejecimiento, harán que los equipos y sistemas fallen.
En el caso de una falla del sistema que ocurrió en Japan Airlines (JAL) en febrero de 2022, la recuperación tardó unas 10 horas. Las máquinas de facturación automática y los servicios de reserva para los procedimientos de embarque quedaron inutilizables y muchos vuelos en todo el país se retrasaron. Se anunció que la causa del problema era una falla del servidor utilizado en el sistema de infraestructura de conexión.
De esta manera, incluso los sistemas operados a un alto nivel pueden experimentar fallas debido a factores físicos.
Entonces, ¿qué tipo de preparativos debemos hacer, sabiendo que habrá un fracaso en algún momento? Aquí es donde entra en juego la idea de la tolerancia a fallos.
La tolerancia a fallos se refiere a la capacidad de un dispositivo o sistema para mantener su funcionamiento y continuar funcionando cuando se produce una falla, o al mecanismo para hacerlo. Incluso si algunos de los componentes de un dispositivo o sistema dejan de funcionar, la tolerancia a fallos se puede aumentar si se cuenta con un sistema de respaldo o una función que pueda solucionar el problema.
En este sentido, la tolerancia a fallos también se expresa como «tolerancia a fallos».
Hay dos palabras que suenan similares a la tolerancia a errores y tienen significados similares: «evitar errores» y «alta disponibilidad».
La evitación de fallas también se expresa como la capacidad de evitar fallas y los medios para evitar que ocurran fallas. Se llevan a cabo pruebas y un mantenimiento suficientes para aumentar la confiabilidad y evitar la aparición de fallas en sí mismas. Se puede decir que es una forma de pensar que mantiene un funcionamiento continuo utilizando un enfoque diferente al de la tolerancia a fallos. En algunos casos, se incorpora un enfoque para evitar errores en el propio diseño del producto.
El grado de disponibilidad se denomina disponibilidad y la alta disponibilidad se refiere a un estado en el que la disponibilidad es alta. En otras palabras, la alta disponibilidad se puede expresar como un estado en el que un producto puede «usarse durante mucho tiempo». Para lograr una alta disponibilidad, es eficaz abordar la tolerancia y la prevención de errores al mismo tiempo. Al crear un estado en el que es poco probable que se produzcan fallas y al preparar medidas para mantener la operación incluso si se produce una falla, los equipos y sistemas pueden mantenerse disponibles.
La mejora de la tolerancia a fallos tiene las siguientes ventajas:
El BCP (Plan de continuidad empresarial) es una iniciativa para mantener la continuidad de las actividades comerciales, incluidos los fondos y los empleados de una empresa.
Ahora es de conocimiento común en todo el mundo que es esencial preparar medidas en caso de que las actividades comerciales de una empresa se detengan debido a un desastre, un ataque terrorista o un fracaso a gran escala. Aumentar la tolerancia a fallos de los equipos y sistemas es una medida del BCP, ya que ayuda a evitar que se detengan las actividades empresariales. Si los equipos o sistemas son importantes para las actividades comerciales de una empresa, la importancia de la tolerancia a fallos también aumenta.
Si existe un sistema que permite que las operaciones continúen y si se produce una falla real, el tiempo de inactividad se puede reducir al mínimo mediante una respuesta rápida, entonces se puede mantener la credibilidad de la empresa. Esto ayudará a evitar situaciones en las que se perjudique la credibilidad y se pierdan oportunidades de negocio.
El objetivo principal de una empresa es garantizar los beneficios. Se puede decir que los equipos y sistemas se utilizan en última instancia para generar ganancias. Si el funcionamiento de esos equipos y sistemas se detiene, significa que se pierden beneficios durante el tiempo que permanecen parados. En
en otras palabras, se puede decir que establecer un sistema para continuar operando es un esfuerzo por maximizar las ganancias.
La tolerancia a fallos se utiliza a menudo principalmente como un término de TI, y algunas personas pueden pensar que es un término que se utiliza para el software. Sin embargo, la tolerancia a fallos significa prepararse para todas las causas de los fallos y no es una medida limitada al software. Vamos
considere cómo mejorar la tolerancia a fallos utilizando algunos ejemplos.
Los centros de datos suelen almacenar programas y bases de datos que operan sistemas importantes para las empresas clientes, e incluso unos segundos de interrupción del servicio pueden provocar pérdidas importantes.
Por este motivo, la tolerancia a fallos es extremadamente importante para continuar con las operaciones o minimizar el tiempo de inactividad en el improbable caso de que se produzca un problema.
Se pueden considerar las siguientes medidas para mejorar la tolerancia a fallos de los centros de datos:
Por lo tanto, es importante tomar medidas tanto desde el punto de vista del software como del hardware.
Consideremos la tolerancia a fallos de los robots industriales utilizados en las líneas de fabricación.
Los robots industriales están equipados con muchos sensores y muchos modelos utilizan la información obtenida de los sensores para visualizar el estado operativo y el estado del propio robot. Además, los modelos equipados con visión artificial que utilizan IA para juzgar la información capturada y detectada por cámaras y dispositivos ópticos y procesarla de acuerdo con las instrucciones son cada vez más populares.
De este modo, el IoT se ha convertido en un componente indispensable para los robots industriales. En este momento, las medidas de tolerancia a fallos cambian según el lugar al que se envíe la información obtenida por el robot para su procesamiento.
Si el sistema para operar el robot está en la nube, es posible que el funcionamiento del robot se vea obstaculizado por interrupciones o retrasos en la comunicación con la nube.
En el funcionamiento de robots industriales, las siguientes medidas mejorarán la tolerancia a los fallos.
Entre las medidas mencionadas aquí, la adopción de una operación de sistema distribuido es una medida importante en términos de mantener la continuidad de las operaciones.
La computación perimetral es un ejemplo de un mecanismo que proporciona capacidades de procesamiento distribuido. La computación perimetral es una tecnología que considera que la primera línea del lado local de la red es el borde de la red, es decir, el borde, y los procesos no solo en el centro sino también en el borde.
Al distribuir la información que es conveniente procesar en un terminal en el borde y la información que debe almacenarse en la nube, garantiza un procesamiento de alta velocidad e información en tiempo real. Además, incluso si la comunicación con la nube se interrumpe o retrasa, el sistema se distribuye y el procesamiento se puede realizar en el borde, lo que se prepara para las fallas.
De esta manera, el funcionamiento del sistema distribuido aumenta la posibilidad de un funcionamiento continuo.
La tolerancia a fallos significa tener un mecanismo para mantener el funcionamiento incluso si se produce un problema con el equipo o los sistemas.
Hasta ahora, el desarrollo de productos y sistemas de TI ha incluido mejoras en su tolerancia a fallos. Ahora que el IoT se ha convertido en una tecnología fundamental para la industria y la vida diaria, mejorar la tolerancia a fallos es un elemento esencial.
La tolerancia a fallos, que ha sido importante en los centros de datos y sistemas de infraestructura a gran escala, se está extendiendo a una variedad de campos. En el futuro, se espera que la tolerancia a fallos adquiera importancia no solo en los sistemas centralizados, como los centros de datos, sino también en los sistemas in situ en una amplia gama de campos, como la fabricación y la logística.
Para mejorar la tolerancia a los fallos, es necesario tener en cuenta la tolerancia a los fallos de la plataforma utilizada en el campo. El funcionamiento del sistema distribuido es una medida esencial a la hora de considerar la tolerancia a fallos. Es probable que la computación perimetral, que realiza el procesamiento utilizando una estructura distribuida, se convierta en una tecnología indispensable en el futuro.
Lea también este artículo:
Disponibilidad en Edge Computing | Stratus Blog
En Penguin, nuestro equipo diseña, construye, implementa y administra soluciones empresariales de HPC e IA de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.
Comuníquese hoy mismo y analicemos las necesidades de su proyecto de solución de infraestructura.