Penguin Solutions ICE ClusterWare™ 是 集群管理软件 这使管理员能够高效地管理硬件和软件资源,充分利用其 HPC 和 AI/ML 集群。通过将 ICE ClusterWare 与 Ansible 和 Git 等熟悉的 DevOps 工具集成,管理员可以实现工作自动化,从而使组织能够最大限度地提高 HPC 工作效率并加速创新。

ClusterWare 的 “基础架构即代码” 允许管理员维护一个中央代码库,例如 Gitlab,其中包含正在使用的所有节点配置。Git 存储库可以托管在 ClusterWare 头节点上,可用于数据和工作流程以及代码的版本控制。这使得变更管理变得更简单、可审计且更易于跟踪。

此外,使用 Git 存储库可以更轻松地在内部共享信息,也可以在需要时与合作伙伴、第三方承包商和支持人员共享信息。

自动配置镜像

ICE ClusterWare 使用基于映像的快速配置,在裸机、虚拟化或容器化环境中创建随时可运行的计算集群。对于某些集群,节点所需的所有可能软件都可以包含在其映像中。ClusterWare 可以配置异构集群,因此可以根据硬件或软件属性创建和分发多个映像。

例如,GPU 节点接收的图像可能与仅限 CPU 的节点不同。但是,随着集群规模的增加,或者需要以不同的方式配置更多节点子集,可能很难跟踪映像的变化。

作为替代方案,管理员可以启动一个包含 Ansible 或 Puppet 的轻量级镜像,并允许该工具提供额外的图像配置。以这种方式自动配置映像可以减少潜在的错误,并提高这项原本需要手动完成的任务的效率和可审计性。

快速配置带来灵活性

ICE ClusterWare 的快速配置和支持异构环境的能力可以提高管理灵活性。例如,管理员可以对一部分节点进行分区以测试新映像,同时将群集的大部分内容保持在标准生产中。

成功测试后,新映像可以推广到集群的其余部分。在需要频繁更新的企业 HPC 环境中,这种方法允许在实施更新期间继续大规模生产,减少中断。

部署安全协议

STIG(安全技术实施指南),是联邦安全指导方针,用于确保机器以可审计的方式获得适当的安全。在集群中自动部署 STIG 的一种方法是通过 ClusterWare 配置基础计算节点映像,然后使用 Ansible 在这些基础映像之上添加 STIG 组件。

所需的 STIG 配置可以保存为 Ansible 剧本,在启动时使用 Ansible pull 自动运行。这种集成消除了从 Ansible 控制节点推送时可能出现的潜在瓶颈,并允许管理员自动执行新节点的启动过程。

在此示例中,管理员确保可以准确、高效地保护大量计算机,同时减少所需的手动工作量。

Diagram of how the Scyld Clusterware works.

简化企业级别的系统管理

随着集群规模的扩大,管理团队也是如此。大规模而言,集群管理变得更加复杂,可能需要更多的人共享更多信息。

ICE ClusterWare 旨在管理从数十到数万个节点的集群,确保对任何规模的集群进行快速、可靠的配置和运行状况监控。ClusterWare 的高可用性 (HA) 功能允许任何头节点向任何计算节点提供服务,从而大大减少甚至消除了由头节点故障造成的中断。

从 DevOps 的角度来看,集群软件头节点可以托管前面提到的 Git 存储库。将其与 Ansible 拉取相结合可产生轻量级配置,允许管理员轻松扩展到数千个节点。剧本的可移植性允许它们在具有不同基础映像的多个环境中重复使用,并简化了版本控制。这样可以更轻松地让新环境快速运行,并将映像持续启动到已知的良好状态。

为注重安全的环境量身定制

ClusterWare 即使在最安全的环境中也能运行,支持 IT 安全最佳实践。支持气隙部署,其中 ISO 可以保存到内部存储库中,无需公共互联网连接即可创建映像。

此外,ClusterWare 支持 SELinux,包括红帽 MLS 政策、FIPS 和 STIG 联邦安全协议以及 TPM 加密。使用基础设施即代码可以进一步加强组织的安全态势,确保有组织的版本控制和 CI/CD 可审计性。

与 Penguin Solutions 的 HPC 专家合作

ICE ClusterWare 由具有数十年 HPC 经验的专家团队开发和支持。我们与用户密切合作,制定我们的产品路线图,并确保我们的软件将继续随着用户的需求而发展。

使用 Ansible-Pull 功能和 Git 进行版本控制允许管理员使用熟悉的 DevOps 工具预置和管理集群。这有助于组织高效、安全地运行其 HPC 环境。

注册观看演示 看看 Penguin Solutions 如何帮助简化企业级 HPC 和 AI/ML 集群管理。您也可以与专家交谈 请求定价 今天!

作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧