AI 和 HPC 数据中心
容错解决方案
集成内存
在我们新的虚拟化系列的第三篇文章中,我们仔细研究了虚拟化如何帮助公司实现高应用程序可用性(高达 99.999%),这在永远在线的世界中至关重要。
99% 的正常运行时间是什么意思?在应用程序可用性方面,每家企业都追求完美,但很少有企业能做到这一点。
大多数可用性解决方案提供了 99% 的可用性——在你意识到之前,这对大多数组织来说听起来可能还不错 99% 意味着每年计划外停机时间为 87.6 小时。根据阿伯丁集团的研究,公司因数据丢失造成的平均停机成本可能超过每小时16.3万美元。因此,九条法则:IT 团队在提高可用性方面每实现 “9”,他们就能越减少停机时间和提高系统盈利能力。让我们来看看当今每增加 “9” 是如何实现的,以及它如何影响业务绩效。
有许多可用性解决方案可以提供平均结果,例如,如果您的企业正在寻找的只是x86服务器的可用性,则可以指望x86服务器提供99%的可用性。但是使用当今的可用性解决方案,99.9% 是完全可以实现的。比普通x86更强大的经济实惠的服务器可以与冗余电源、风扇、RAID阵列相结合,当然还有维护和保护系统的良好商业惯例。
结果?
99.9% 相当于每年约8.76小时的计划外停机时间。在将近90小时的停机时间内,这一比例达到99%,这是一个巨大的改善,但是对于许多公司来说,每年损失一个工作日的生产力仍然是他们无法承受的利润。
以 99.99% 的成绩实现下一个 “9” 的秘诀是集群技术。群集通常被称为高可用性解决方案,本质上是连接在单个网络中的两台或更多物理服务器。如果一台服务器出现故障,则在另一台服务器上恢复应用程序支持。
集群的可用性范围从 99.95 到 99.99% 不等,具体取决于集群的构建程度以及实现故障转移的速度。一些群集应用程序(例如数据库)无法足够快地进行故障转移,因为它们必须检查文件完整性并在出现故障后重放事务日志,这会延迟应用程序的启动。
现在想象一下,您的企业能够添加最难以捉摸的 “9”,以实现 99.999% 的可用性。那需要什么?容错系统通过解决故障并在不中断应用程序的情况下继续运行来提供当今可用性的 “圣杯”,从而防止因系统故障而导致的任何停机。
容错硬件解决方案可提供 99.999% 或更高的可用性,这意味着每年计划外停机时间不到五分钟。使用并行运行的行业标准服务器,软件容错功能可提供类似的结果,从而使单个应用程序能够同时运行在两个虚拟机 (VM) 上。如果一个 VM 出现故障,应用程序将继续在另一个 VM 上运行,不会出现中断或数据丢失。因此,虚拟化提供了第五个 9。
话虽如此,并非所有容错解决方案都是一样的。有些模仿容错能力,但最终会产生大量开销,这会拖累性能。您需要真正的容错能力来避免性能问题并满足所有应用程序要求。
近六十年来,Kaye Instruments一直处于生物制药行业高精度过程测量的最前沿,其设备已成为高精度测量系统的标准。
在药品制造中,通常要大批量生产产品,但是对于大批量生产,不可能测试每一个产品的质量。这就是为什么在当今的制药世界中,质量需要直接纳入制造过程设计的原因。如果制造商没有支持持续监控产品的数据,则无法发布该产品。
因此,这些流程中的任何停机都会导致收入损失。正常运行时间和数据完整性的这一至关重要性促使Kaye依靠Stratus作为其解决方案不可或缺的一部分。要详细了解 Kaye Instruments 如何与 Stratus 合作,请观看以下视频:
在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。
立即联系我们,让我们讨论您的基础设施解决方案项目需求。