超过 40% 的大型企业积极使用 AI,另有 40% 正在探索他们的 AI 选项。根据 最近的调查数据但是,挑战依然存在,38% 的 IT 专业人员认为缺乏技术基础设施是他们阻碍 AI 成功的最大障碍。

在最近的一次活动中 《科技颠覆者》播客,主持人胡振镐与企鹅解决方案首席技术官Phil Pokorny和全球营销副总裁Mark Seamans坐下来探讨了企业如何在炙手可热的人工智能市场中降低基础设施的复杂性。

热门话题:价格、性能和功率

1。热门话题:AI 价格

挑战:AI 基础设施昂贵。

Mark说:“AI的成本可能是标准服务器价格的10-20倍。”要有效管理 AI 支出,有两个考虑因素至关重要: 每次查询的费用每个工作负载的价值。每次查询的成本包括服务器上的资本支出以及持续成本,例如 电力和冷却。同时,每个工作负载的价值体现了人工智能驱动的业务流程自动化 (BPA) 或深度数据分析等解决方案的好处。

解决方案:量身定制、经过验证的解决方案。

马克说:“Penguin Solutions专门专注于人工智能的设计、构建、部署和管理。”“虽然这些系统看起来像标准电脑,但整个设计和建造过程与通用 IT 不同。”企鹅解决方案' 端到端方法提供量身定制 AI 解决方案 这有助于确保成本和价值之间的一致性。

2。热门话题:AI 性能

挑战:平衡工作量和产出。

根据 Phil 的说法,“部署 AI 可能是一条陡峭的学习过程,人工智能模型如何使公司受益可能并不明显。”他指出,可靠的人工智能输出需要多个 GPU 使用微调的 InfiniBand 架构协同工作,而 Mark 则强调需要基础设施的可扩展性来管理不断增长的容量需求。他说:“过去,新处理器之间的开发时间为2-4年。”“现在已经压缩到半年了。”

解决方案:引进专家。

Phil说:“我们提供的关键服务之一是工厂。”“我们不向您运送原始零件。我们在工厂里进行货架、堆叠和测试。”他还指出了企鹅与 Meta 的合作。Meta 没有要求他们的制作团队部署和管理 HPC 集群,而是选择了 Penguin Solutions。五年后,16,000 个 GPU,这种伙伴关系仍然牢固。

3.热门话题:AI 力量

挑战:太多又太少。

支持人工智能的系统需要大量的电力,并产生大量的热量。正如 Phil 指出的那样,“典型的数据中心使用 120 伏的电力,但这对于一个 HPC 机架来说还不够。公司需要计划升级到 240 或 277 伏。”但是,他指出,即使具有这种可扩展性,各公司仍可能很难购买所需的电力,具体取决于 当地公用事业基础设施的容量

同时,这种用电产生的副产品产生的热量需要有效的管理,以限制硬件损坏的风险。

解决方法:经过 AI 工厂验证的解决方案

基于以下内容部署 AI 和 HPC 经过验证的基础设施设计 允许组织调整交付方法以匹配其数据中心的电力能力,同时提供解决方案的最佳性能。Penguin Solutions在提供油基浸入式冷却解决方案方面也处于领先地位,该解决方案可实现非常密集的服务器交付,同时还可以降低整体系统功耗。

保持冷静

随着 AI 市场的升温,高管和 IT 经理面临着实施智能解决方案和提供持续价值的压力。

Penguin Solutions可以通过提供价格、性能和功耗的解决方案来帮助降低人工智能基础设施的复杂性。 立即联系我们的一位专家 了解更多。

作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧