AI 和 HPC 数据中心
容错解决方案
集成内存
可持续发展已成为企业的重中之重,鉴于此,企业数据中心和IT系统是重点关注的关键领域 大量资源消耗 它们涉及为越来越耗能的处理环境供电和冷却。
随着组织转向更快、更强大的计算环境,更新的处理器、GPU 和固态存储都比其前代技术产品需要更多的功率才能运行。在某些情况下,这些大型数据中心的电力需求可以与小城市相媲美,这促使各种规模的组织寻求可以抵消这种消费增长的替代方案。
虽然一些组织正在追求自己的数据中心效率和可持续发展计划,但许多组织正在将工作负载转移到云端,以简化其IT管理环境,同时降低与计算利用率相关的碳足迹。
认为装满数千台计算机服务器机架的主要公共云数据中心在某种程度上可能是一个更节能的选择,这似乎违反直觉,但现实是,出于运营效率/盈利能力和可持续性的原因,主要云提供商在测量、评估和降低运营大型数据中心的电力相关成本方面已成为 “黑带”。
对于云提供商来说,一个显而易见的步骤是利用尽可能多的绿色或可再生能源,他们绝对是在寻求这种途径。总体而言,主要的公有云提供商是世界上最大的可再生能源消费者。但是,这些IT巨头不仅仅是利用可持续能源,而是越来越多地将注意力转向减少原始电力消耗,从而对结果产生积极影响。
对能效的关注激发了人们对一项名为用电效率(PUE)的电力相关指标的新兴趣,该指标长期以来一直与一些最大的计算资源用户(例如美国能源部)运行的高性能计算(HPC)工作负载有关。
PUE 通过测量进入数据中心的原始能量并将其除以其中运行 IT 设备所用的功率来衡量数据中心的能源效率。一个非常高效的数据中心的 PUE 为 1.0,这表明进入数据中心的电力中有100%用于为所需的设备供电,没有浪费。
实际上,PUE 计算需要考虑用于冷却和功率转换的功率。他们还需要显示全年平均测量值,其中包括炎热的夏季,届时冷却需求将推高运营的电力需求。
主要的云提供商继续进行重大投资以降低其PUE。谷歌最大的公有云数据中心环境的平均能效是典型企业数据中心的1.5倍以上,其他公有云提供商也在努力取得类似的结果。
正如赛车队通过不断发现空气动力学方面的微小效率提高来赢得比赛一样,云运营商通过实施运营创新来削减能量利用率,例如在 80 华氏度下运行数据中心、使用外部空气进行冷却以及设计自己的超高效服务器。
实际上,已经研究、衡量和发布了大型公有云运营商的创新和投资结果。一个 2020 年发表在《科学》杂志上的论文 表明,尽管在2010年至2018年之间,主要云数据中心的计算量增加了约550%,但同期这些数据中心的能耗仅增长了6%。
该研究的作者指出,这些能源效率的提高速度超过了其他主要经济领域的增长速度。
通过为 IT 组织提供智能控制平面,管理员可以精确配置、调整、启动和停止基于云的配置,从而精确满足用户工作负载的需求,从而放大云端的能耗降低。
例如,无论当前的使用情况和对活动工作负载的需求如何,传统的企业数据中心都有固定的服务器和资源配置,这些服务器和资源通常以 “永不停机” 的配置运行。这会使功耗持续保持在相对较高的水平,从PUE和可持续发展的角度来看,这并不是最佳的。
相比之下,软件控制的基于云的环境可能会提供 20 种不同的计算实例配置的目录,这些配置可以动态分配给特定的用户任务,并且可以根据需要快速打开和关闭。
这种更具动态性的能力可以选择为给定工作负载精确提供所需处理能力的节点类型(并且仅在需要时使用这些服务器/实例),可以在特定应用程序的基础上提供与云提供商在其 PUE 计划中执行的相同类型的使用优化。
云端的结果是,可以以完全安全的方式在多组用户之间,甚至是来自多家公司的用户组之间动态分配和重新分配一组计算资源,同时最大限度地提高环境的有效利用。
这对于计算密集型工作负载(例如AI和HPC)特别有用,在这些工作负载中,不同的应用可以通过使用特定的处理器和服务器配置来实现显著的性能加速。
尽管用于工作负载管理的高级软件控制平面是基于云的执行的关键组成部分,但混合云环境的使用呈增长趋势,这使IT组织能够利用其本地数据中心环境的最佳元素与公有云无缝结合。
在这些情况下,基于软件的控制平面环境可以使IT经理根据当前活动和系统需求将工作负载定位在 “最适合” 的位置。例如,工作负载可能大部分时间都在本地运行,但在使用率非常高的时期,可以按月或每季度 “突增” 在云中的更多资源上运行。
同样,某些需要访问最新 GPU 资源的高性能计算和 AI 工作负载可能会在云端执行,因为云端更容易以即用即付的方式获得最新处理器技术。一切都与选择有关。
毫无疑问,主要的云提供商在提高数据中心运营效率的道路上处于领先地位,他们的进步既有利于在云端执行工作负载的客户,也使可以利用不断变化的工具和技术集合的IT团队和托管设施运营商受益。
最先进的企业将找到方法,使用智能控制平面软件,在正确的时间在正确的地点执行其工作负载,从而为其组织和可持续的未来带来最大收益。
Penguin Solutions可以成为你值得信赖的人工智能和HPC解决方案战略合作伙伴。凭借超过 25 年的 HPC 经验和 7 年以上的人工智能基础设施设计和部署,以及自 2017 年以来部署和管理的 GPU 超过 85,000 个,我们随时准备提供帮助。
联系 AI 基础架构专家 今天在 Penguin Solutions 讨论你的 AI 项目需求。
Vice President, Global Marketing
Mark 在设计和实施云计算、AI、大数据存储、HPC 和业务流程管理的复杂企业基础架构方面拥有深厚的技术知识和丰富的领导经验。
在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。
立即联系我们,让我们讨论您的基础设施解决方案项目需求。