AI 和 HPC 数据中心
容错解决方案
集成内存
可用性是衡量系统耐久性的一种方法。 可用性可以定义为系统的时间长度 其实 运行(或服务运行),除以系统的时间长度 本来可以是 工作的。
系统通常按 “9” 的数量划分为可用性级别,并使用 “高可用性” 和 “容错” 等术语进行进一步描述。如果一个系统在 99% 的时间内可用(两个九分),那就意味着它有 1% 的时间不可用。在任何有 525,600 分钟可用分钟数的给定年份中,您可以预计 “二九” 系统将停机其中 5,256 分钟,或者大约 88 小时或 4 天。 取决于您的特定停机成本,这可能很昂贵。
在较高的 “四九” 和 “五九” 平均可用性级别下运行的系统通常被称为 “高可用性” 或 “容错” 系统,其中 “七九” 代表 智能预测平台容错能力的演变。
公司使用几种久经考验的方法来提高可用性,包括提高系统的可靠性和弹性、实施备份和恢复程序,或者使用故障转移服务部署冗余集群(物理或虚拟)。
提高可用性的一种方法是使用更可靠的系统。您的系统越坚固可靠,发生故障的可能性就越小。它分解得越少,它运行的时间就越长,顾名思义,它的可用时间就越长。
提高可用性的一种相关方法是实施更具弹性的系统,该系统可以从挫折中迅速恢复过来。通过缩短修复系统和恢复服务所需的时间,您可以减少停机时间并提高整体可用性。有趣的是,如果一个系统每次都能快速反弹,那么它崩溃的频率就不那么重要了。
但是,可靠性和弹性有其局限性。在许多情况下,您还需要担心的不仅仅是系统可用性,还有数据保护和数据完整性。
采用更全面的可用性方法的公司通常会定期备份其数据并保持备用系统的库存。如果他们的生产系统出现灾难性故障,他们会在备用系统上重新启动服务,从存档中恢复所需的数据。
设置备份和恢复服务需要一些技能。恢复时间可能会有所不同,从几小时到几天不等,具体取决于应用程序、数据量和备件的可用性。
对于某些公司来说,在几小时或几天后恢复服务可能是可以接受的。但是,相对停机成本较高的人需要为其应用程序和数据采用更具弹性的方法。
群集和故障转移使用与备份和恢复相同的原理,但是通过提前做一些事情来缩短恢复服务的时间,例如复制系统,使它们可以立即恢复。多个系统组合在一起,数据由这些冗余系统共享。通常,一个系统充当主系统,为用户提供对应用程序和数据的访问权限,而辅助系统充当备份,要么在需要时保持休眠状态(被动),要么运行其他应用程序(主动)。如果主系统出现故障,应用程序将 “故障转移” 到辅助系统并在那里继续运行,只要建立了与共享数据的连接。
随着虚拟化技术的出现,群集和故障转移概念已扩展到虚拟系统。如今,虚拟化和集群技术正被用来利用虚拟机的可移植性,将物理系统和在虚拟机 (VM) 上运行的故障转移应用程序结合起来。
Penguin Solutions提供各种各样的边缘计算解决方案,涵盖所有可用性范围。仅来自软件产品,例如 everRun,以完成诸如此类的解决方案 ztC Endurance, ztC Edge,以及 ftServer 包括硬件、软件和服务,可帮助客户轻松、经济地交付高可用和容错的工作负载。 立即联系我们进行讨论 您的边缘计算需求。
在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。
立即联系我们,让我们讨论您的基础设施解决方案项目需求。