在过去的几年中,云计算为惊人的创新打开了大门,但这种资源消耗也是有代价的。由于通货膨胀,一些主要供应商提高了价格,价格震惊仍在继续,甚至更加剧烈。这甚至催生了一个新名词:“云量膨胀”。

即用即付云解决方案使您可以立即使用所需的资源并按需扩展,但是如果没有适当的防护措施,云账单可能会迅速上升,失控。韦克菲尔德研究公司 2023 年的一项研究表明 98% 的 DevOps 领导者 受访者曾多次发现成本意外飙升。超过一半的人表示,他们每月都会出现意想不到的超额情况。

解决方案架构师正在努力为高性能计算 (HPC) 和 AI 提供完全托管的、基于云的端到端解决方案,使最终用户、开发人员和数据科学家更容易、更快速、更具成本效益地在高性能集群上部署 HPC、AI 和聚合 HPC/AI 工作负载。

运行 HPC 和 AI 工作负载的云优先方法

拥有传统数据中心基础设施的有经验的 HPC 用户可以选择在本地运行大部分工作负载,并在混合云计算环境中需要过剩容量时突增到云端。但是,较新的 HPC 和 AI 用户倾向于在纯云环境中部署工作负载。纯云环境可以降低基础设施的巨额前期成本,但可能会产生巨额的(有时是意想不到的)计算账单。

无论您如何运营,都需要一种方法来高效地运营云资源,特别是在CPU和GPU马力方面,这样您的团队在需要时就能获得所需的计算能力,而不会超出预算。

但是,云部署通常缺乏管理成本所需的日常使用监督,而且企业 IT 管理员在响应各种服务请求时通常已经捉襟见肘。云膨胀可能很快发生,尤其是负责在基于云的高性能实例集群上运行计算密集型工作负载的用户而言。

例如,数据科学团队负责得出具体、高度有价值的结果。为了及时交付结果,他们可能会在不完全了解每小时使用成本的情况下配置基于云的计算集群,或者不完全了解与团队预算相关的支出状况。

还有其他挑战。即使用户可以访问显示云资源成本的仪表板,他们对整体情况的可见性也很有限。组织需要具备以下条件的工具:

  • 在单一解决方案中管理本地、专用云和公有云资源的使用
  • 使 IT 团队能够建立支出护栏并实施使用政策
  • 为财务团队提供成本和使用情况报告,以支持更好的决策

混合云控制平面

通过全面了解所有可用计算资源(无论是在您的数据中心还是云端),Penguin 为高性能集群上的 HPC、AI 和聚合 HPC/AI 工作负载提供端到端控制平面,以平衡不断增长的计算资源需求和预算限制。

允许用户通过集中式直观界面在数千个内核上执行工作流程,您可以根据需要控制资源设置和配置新的计算资源,从一系列实例类型中进行选择,并根据需要启动或关闭池。

通过优化云和本地环境,您可以在不牺牲容量的情况下控制成本,实现高可用性、爆发和扩展到数千个节点。这使您能够在不占用支持人员的情况下管理云。

控制计算成本

除了优化计算环境外,您还可以获得强大的工具来管理支出。即使严格监控云成本,许多云提供商也只会延迟24小时提供支出数据。当你启动数百个节点时,可能会产生一笔巨额账单,直到第二天才知道。

在几分钟内自动提取和分析云账单和使用量数据,因此您可以更好地预测和管理支出。您还可以启用规则以防止超支,并在项目组达到支出阈值时向其发送通知。

优化云计算资源和成本

通过单一界面管理您的 HPC 和 AI 工作负载的各个方面,该界面可与所有具有内置成本控制功能的主要云服务提供商合作。

好处包括:

  • 直观的界面,可深入了解计算机支出
  • 用于创建可重复使用和可共享的工作流程的工具
  • 云和本地集群的资源分配
  • 运行仿真的工作负载处理和结果评估
  • 为数十个 HPC 和 AI 应用预建的工作流程

简化您的 HPC 和 AI 工作负载,同时控制支出

专为 HPC 和 AI 而构建,已在谷歌云平台 (GCP)、亚马逊网络服务 (AWS)、微软 Azure 和 AI 上进行了全面验证 Penguin 点播 (POD),最终用户可以访问所需的计算资源,而不必担心基础设施的限制,同时在成本控制和预算限制范围内工作。组织可以优化其基础架构,避免月度账单的严重冲击。

使用 Penguin Solutions 充分利用 HPC 和 AI 工作负载。欲了解更多信息, 联系 Penguin Solutions 今天。

作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧