Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
La alta disponibilidad es un requisito previo para la computación periférica. A continuación se explica qué es la disponibilidad, cómo puede aumentar su disponibilidad y por qué la alta disponibilidad es esencial para la computación periférica.
La alta disponibilidad es un requisito previo para la computación periférica. A continuación se explica qué es la disponibilidad, cómo puede aumentar su disponibilidad y por qué la alta disponibilidad es esencial para la computación periférica.
¿Alguna vez has tenido problemas con tu PC? En tal caso, el PC no se podrá utilizar hasta que se repare para el propósito original. No podrás usar tu PC hasta que lo arregles. Los ordenadores con tasas de utilización bajas en estos casos se denominan «baja disponibilidad». Por otro lado, los sistemas con altas tasas de operación se denominan «de alta disponibilidad» debido a situaciones en las que son difíciles de romper y mantener un funcionamiento estable, o porque tienen un sistema que puede repararse de inmediato incluso si fallan. En otras palabras, puede pensar en la disponibilidad como en cuánto puede usar su sistema cuando quiera usarlo. Es importante tener en cuenta que hay palabras que tienen significados similares, como «confiabilidad» y «mantenibilidad». La «confiabilidad» es principalmente un tipo de dificultad para romper un sistema. El argumento a favor de la rotura es la cantidad de problemas que puede operar después de la puesta en marcha. La confiabilidad generalmente se expresa en función del tiempo mediante un indicador llamado tiempo medio entre fallas (también conocido como MTBF por «tiempo medio entre fallas»). Cuanto mayor sea el valor de MTBF, mayor será el intervalo entre fallos, lo que significa que es más fiable.
Otra «capacidad de mantenimiento» representa la facilidad de mantenimiento y reparación. En otras palabras, ¿cuánto tiempo pasará después de que se produzca el problema? Es común pensar en esto con una base temporal, que utiliza un indicador llamado Mean Time To Recovery (MTTR) en inglés. El MTTR, a diferencia del MTBF, es mejor con un número más bajo. En otras palabras, cuanto más corto sea el tiempo de recuperación, más fácil será de mantener.
La disponibilidad generalmente se denomina «tasa de utilización», que es la suma de MTTR y MTBF. En otras palabras, la relación entre mejorar la confiabilidad y la capacidad de mantenimiento también mejora la disponibilidad.
Dado que cualquier sistema, incluidos los sistemas de producción, debe ser tan alto como lo permita el costo, se han tomado varias medidas para aumentar la disponibilidad. Vamos a echarle un vistazo en concreto.
Basándonos en el conocimiento básico de disponibilidad visto hasta ahora, consideremos la línea de producción de semiconductores como un escenario concreto en el que se requiere una alta disponibilidad. Los principales enemigos de la línea de producción de semiconductores son el polvo y el polvo. La razón es que los semiconductores están diseñados en nanómetros (una milmillonésima parte de un metro) y, por supuesto, realizan un trabajo muy bueno en la fabricación. Por esta razón, incluso el polvo que es invisible para el ojo humano puede tener un gran impacto en el mundo nanométrico.
El polvo se mueve en el aire, por lo que se difunde cuando se altera el flujo de aire. Por esta razón, es necesario controlar siempre el flujo de aire, y en las salas limpias, el aire fluye de arriba a abajo sin falta, lo que se denomina flujo descendente. Además, dado que el aire se altera incluso al abrir y cerrar la puerta, es perfectamente posible evitar la influencia en la medida de lo posible haciendo que la entrada y la salida de la sala limpia sean una puerta doble.
Sin embargo, los seres humanos son los elementos que rompen estos estrictos mecanismos. Los humanos se mueven, por supuesto, para que el aire fluya. Además, el sudor y la respiración pueden contaminar las obleas semiconductoras. Estos contaminantes humanos salen por todos los medios mientras los humanos los mantengan activos y no se puedan detener.
Por esta razón, en las salas limpias, la operación sin supervisión a menudo se realiza sin intervención humana en la medida de lo posible, excepto para la puesta en marcha y el mantenimiento de la línea. La supervisión remota con computación perimetral, como se mencionó anteriormente, se considera muy eficaz en estos entornos.
Otra razón de la alta disponibilidad es que el precio total de la línea es extremadamente alto. Dado que la fabricación de semiconductores se procesa con mucha precisión, a menudo se requiere una precisión cercana al límite, y no es raro que la línea pueda superar los cientos de miles de millones y, en algunos casos, más de 100 mil millones de yenes. Además, dado que también es una estructura de mercado en la que la ola de demanda cambia significativamente, es común realizar inversiones de capital para lanzar una línea de producción de una vez. Para recuperar la inversión de capital lo antes posible, funcionará las 24 horas del día, los 365 días del año. En cierto sentido, es natural que la disponibilidad de equipos de fabricación sea requerida a un alto nivel en un entorno de este tipo.
¿Qué sucede si implementa computación perimetral de baja disponibilidad en estas líneas de producción de alta disponibilidad? Básicamente, la función requerida de un servidor perimetral no es solo recopilar datos del producto, sino también monitorear las interrupciones repentinas y los defectos en los equipos de fabricación y notificar al departamento responsable. En otras palabras, es necesario monitorear constantemente los defectos y problemas que no saben cuándo ocurrirán. Si los servidores periféricos que deben supervisarse en todo momento se detienen con frecuencia, no podrán cumplir la función necesaria de detectar problemas en los equipos de fabricación. En otras palabras, la alta disponibilidad de los servidores perimetrales puede ser una característica fundamental requerida de los servidores perimetrales.
En estos días, el ciclo de vida de venta de varios productos se ha acortado. Como resultado, el estilo de lanzar rápidamente líneas de producción y recuperar la inversión de capital de una vez ya no es tan inusual en la industria manufacturera. Esto también significa que las operaciones sin supervisión y las operaciones ininterrumpidas son cada vez más comunes. Para lograr la alta disponibilidad requerida en estos entornos, es posible que desee implementar la computación perimetral en sus sistemas de producción. Sin embargo, el propio servidor perimetral también debe tener una alta disponibilidad para que coincida con el sistema de producción. Por lo tanto, en la medida en que el costo sea aceptable, es mejor elegir el que tenga una alta disponibilidad de servidores periféricos.
En Penguin, nuestro equipo diseña, construye, implementa y administra soluciones empresariales de HPC e IA de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.
Comuníquese hoy mismo y analicemos las necesidades de su proyecto de solución de infraestructura.