设备或系统发生故障时可以采取哪些措施?即使确实发生了故障,也可以通过采取措施和做好准备来最大限度地减少损失,从而最大限度地减少对收入的影响。我们将介绍可以提高抵御故障能力的具体措施,并举出具体的例子。

什么是容错?

在谈论设备或系统中发生的问题时,有时会使用容错一词。容错是什么意思,在什么情况下使用?

创建持续运营的机制

任何设备或系统在长期使用中都不可避免地会遇到某种事故或故障。
如果通过操作环境进行追踪,任何系统都不可避免地会进入物理设备,并且其中的内置部件会随着时间的推移而老化。只要那里有物理设备,即使没有软件问题,也不可避免地会出现某种硬件问题。


此类事故和问题,或老化导致的故障,将导致设备和系统故障。
如果日本航空(JAL)在2022年2月发生系统故障,则需要大约10个小时才能恢复。自动办理登机手续的机器和登机手续的预订服务无法使用,全国各地的许多航班都延误了。据宣布,问题的原因是连接基础架构系统中使用的服务器出现故障。

这样,即使在较高水平上运行的系统也可能由于物理因素而出现故障。
那么,知道失败会在某个时候发生,我们应该做什么样的准备呢?这就是容错概念的用武之地。

容错是指设备或系统在发生故障时保持其功能并继续运行的能力,或发生故障的机制。即使设备或系统的某些组件停止工作,也可以通过备份系统或可以处理问题的功能来提高容错能力。
从这个意义上讲,容错也被表示为 “容错”。

容错、故障避免和高可用性之间的区别

有两个词听起来与容错相似,含义相似:“避错” 和 “高可用性”。
避免故障也表示为避免故障的能力和防止故障发生的手段。进行了足够的测试和维护以提高可靠性,从而避免故障本身的发生。可以说这是一种使用与容错不同的方法来维持持续运行的思维方式。在某些情况下,产品设计本身会采用避免故障的方法。


可用性程度称为可用性,而高可用性是指可用性高的状态。换句话说,高可用性可以表示为产品可以 “长期使用” 的状态。为了实现高可用性,同时解决容错和故障避免问题是有效的。通过创建不太可能发生故障的状态并准备即使发生故障也能保持运行的措施,可以保持设备和系统的可用性。

提高容错能力的好处

提高容错能力有以下好处:

加强 BCP 措施

BCP(业务连续性计划)是一项维持业务活动连续性的举措,包括公司的资金和员工。


现在,全世界都知道,必须制定措施,以防公司业务活动因灾难、恐怖袭击或大规模倒闭而停止。提高设备和系统的容错能力是BCP的一项措施,因为它有助于防止业务活动停止。如果设备或系统对公司的业务活动很重要,那么容错的重要性也会增加。

确保公司的可靠性

如果建立了允许继续运营的系统,如果确实发生了故障,则可以通过快速响应将停机时间降至最低,那么公司的信誉就可以得到维持。这将有助于避免信誉受损和商业机会丧失的情况。

实现利润最大化

公司的最大目标是确保利润。可以说,设备和系统最终被用来创造利润。如果这些设备和系统的运行停止,这意味着它们停止时利润就会损失。在
换句话说,建立持续运营的系统可以说是为了实现利润最大化。

提高容错能力

容错通常主要用作 IT 术语,有些人可能会将其视为用于软件的术语。但是,容错意味着为所有故障原因做好准备,并不局限于软件。让我们来吧
使用一些示例考虑如何提高容错能力。

数据中心弹性

数据中心通常存储为客户公司运行重要系统的程序和数据库,即使几秒钟的服务中断也可能导致重大损失。


因此,容错对于在不太可能发生的问题时继续运行或最大限度地减少停机时间极为重要。

可以考虑采取以下措施来提高数据中心的容错能力:

  • 数据内容和元数据的分布式存储
  • 24 小时人员配备
  • 选择交通便利的地点,这样我们就可以在紧急情况下赶到现场

因此,必须在软件和硬件方面采取措施。

工业机器人的容错能力

让我们考虑一下在生产线上使用的工业机器人的容错能力。
工业机器人配备了许多传感器,许多模型使用从传感器获得的信息来可视化机器人本身的运行状态和状态。此外,配备机器视觉的机器视觉模型越来越受欢迎,这些模型使用AI来判断相机和光学设备捕获和感知的信息,并根据指令进行处理。


这样,物联网已成为工业机器人不可或缺的组件。此时,容错措施会根据机器人获得的信息发送到何处进行处理而变化。


如果操作机器人的系统位于云端,则与云端的通信中断或延迟可能会阻碍机器人的操作。


在工业机器人的运行中,以下措施将提高容错能力。

  • 硬件故障时更换部件的库存管理
  • 培训能够处理恢复操作的人员
  • 阐明联系系统集成商的方式
  • 准备两条或多条通信线路
  • 分布式系统操作

在此处提到的措施中,采用分布式系统操作是维持运营连续性的重要措施。


边缘计算是提供分布式处理能力的机制的一个例子。边缘计算是一种将网络现场端的前线视为网络边缘(即边缘)的技术,不仅在中心而且在边缘进行处理。

通过分发有利于在边缘终端上处理的信息以及应存储在云端的信息,它可以确保高速处理和实时信息。此外,即使与云的通信中断或延迟,系统也是分布式的,可以在边缘执行处理,为故障做好准备。
这样,分布式系统操作增加了持续运行的可能性。

边缘计算可有效提高容错能力

容错意味着即使设备或系统出现问题,也要有相应的机制来维持运行。

到目前为止,IT产品和系统的开发包括对其容错能力的改进。现在,物联网已成为工业和日常生活的基础技术,提高容错能力是必不可少的要素。

容错能力在大型数据中心和基础设施系统中一直很重要,现在正在扩展到各个领域。将来,容错能力预计不仅在数据中心等集中式系统中变得重要,而且在制造和物流等广泛领域的现场系统中也将变得重要。

为了提高容错能力,必须考虑现场所用平台的容错能力。考虑容错能力时,分布式系统操作是必不可少的衡量标准。使用分布式结构进行处理的边缘计算很可能会成为未来不可或缺的技术。

另请阅读这篇文章:
边缘计算的可用性 | Stratus Blog

Stratus 的无中断边缘计算 “ztC Edge”

作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧