Server room network engineers
专业知识 > 数据中心容错

以核心交付容错工作负载

组织可以在核心企业数据中心使用容错计算,快速实现 IT 基础架构现代化,以最大限度地延长正常运行时间、提高可靠性、简化可管理性并以最低风险提高效率。

我们来聊聊吧
从核心上解决容错问题

核心计算
正常运行时间注意事项

对于运行需要数据和服务持续可用性的重要应用程序的组织来说,光靠故障恢复是不够的。他们需要现代基础架构来轻松、经济地交付高度可用和容错的工作负载,以实现故障预防。

预测性容错计算平台使组织能够在数据中心环境中运行任务关键型应用程序,而不会造成停机或数据丢失,从而成功满足 “永不停机” 的运营需求。

OT(运营技术)和IT(信息技术)团队都面临着在运营中向集中和分散的位置提供这种可靠性的挑战。运行关键应用程序的平台必须易于部署、易于管理和易于维护——不仅在数据中心,而且在企业网络的边缘。

公司使用几种久经考验的方法来提高其数据中心的可用性,包括提高系统的可靠性和弹性、实施备份和恢复程序,或者使用故障转移服务部署冗余集群(物理或虚拟)。

容错系统可提供所需的可用性,因为它们可以 “容忍” 或承受硬件和软件 “故障” 或故障。

Server room network engineers
容错成功需要专业知识

企业数据中心
容错专业知识

容错是指卓越的可用性级别,其特征是正常运行时间为 99.999%(99.999%)或更长。容错系统通常要么从一开始就主动监控和防止关键系统发生故障,要么完全降低灾难性组件或系统故障的风险来做到这一点。使用基于软件和基于硬件的方法可以成功实现容错。

在基于软件的方法中,提交到磁盘的所有数据都将镜像到冗余系统中。更复杂的基于软件的方法还会将未提交的数据或内存中的数据复制到冗余系统。如果主系统出现故障,辅助备份系统将恢复运行,从主系统出现故障的确切时刻开始接管,因此不会重复或丢失任何事务或数据。

在基于硬件的方法中,冗余系统同时运行。并行服务器执行相同的任务,因此,如果一台服务器出现故障,另一台服务器将继续处理事务或提供服务。这种方法依赖于两个系统同时失效的统计概率极低。实际上,交付应用程序只需要一台服务器,但是拥有两台服务器有助于确保至少有一台服务器始终处于运行状态。

这两种方法在提供持续可用性和确保数据完整性方面都有其难题,但是您可以从五九(平均每年停机时间少于 6 分钟)转变为使用最好的技术,实现惊人的七九 (99.99999%) 的正常运行时间,相当于全年停机时间为 3.16 秒。

了解有关核心容错的更多信息

智能、可预测的容错能力

主动监控潜在故障点,并在故障影响运营之前自动采取纠正措施,防止停机和数据丢失。

主动健康监控

持续监控系统运行状况,从而及早发现潜在问题,实现及时维护,降低意外故障的风险。

增强的数据连接

为存储在存储区域网络 (SAN) 中的关键生产数据提供可靠的连接。此功能可确保数据保持可访问和保护,从而进一步增强容错能力。

冗余硬件设计

如果一个组件出现故障,另一个组件可以无缝接管,保持不间断的运行。

与技术合作伙伴合作

解决复杂性。
加快取得成果。

Penguin Solutions提供高性能和高可用性的计算基础架构解决方案和服务,是成功部署和运行从边缘到核心再到云的数据密集型工作负载所需的基础架构方面的专家,最著名的是人工智能 (AI)、高性能计算 (HPC)、容错 (FT) 和边缘计算基础架构。

25+

多年的经验

85,000 +

GPU 已部署和管理

2+ 十亿

GPU 运行时间

利用这些专业知识释放您的潜力

产品

A placeholder Image
Man and woman reviewing server racks on laptop
请求回电

与 Penguin Solutions 的专家交谈

立即联系我们,详细了解我们如何帮助您提高网络核心数据中心的正常运行时间,无需IT资源即可轻松部署到现有架构中。

我们来聊聊吧