使用 AI 托管服务优化 HPC 和 AI 工作负载

解决架构问题
精准管理

敏感设备

AI 和 HPC 集群使用具有唯一故障签名的特殊组件。可能需要对传统监控工具进行修改才能正确管理和调整元素。

昂贵的 GPU

与任何集群一样，用于AI和HPC的集群必须通过运行状况检查进行持续管理，因为性能问题和故障模式可能会带来重大的财务影响。

可靠的方法

由 NVIDIA 认证的托管服务工程师通过基于 SLA 的正常运行时间报告进行持续监控、警报和上报管理，可防止工作负载延迟。

一流的架构

AI 的成功需要经过验证
管理经验

Penguin Solutions 在构建和管理 HPC 集群方面拥有超过 25 年的经验， 在超大型集群方面拥有超过8年的经验。这个认证体验使我们能够利用超大的 AI 工厂开发无与伦比的能力。

超过十亿小时

提高大规模、复杂环境的正常运行时间和吞吐量，GPU 运行时间超过 20 亿小时。

85,000 个 GPU

我们在管理服务下部署了超过 85,000 个 GPU，继续满足当前和不断变化的 AI 基础设施需求。

卓越中心 (CoE)

从工程到技术运营，Penguin 提供专业知识并协调关键职能领域，以确保最佳性能。

在新闻中

管理大型 NVIDIA DGX 集群专业知识

我们多年的经验使我们能够通过运营大型AI工厂来开发无与伦比的能力。例如，我们在帮助 Meta 管理 Meta Research 超级集群，拥有 2000 多个 NVIDIA DGX 系统、16,000 个 NVIDIA A100 Tensor Core GPU、500 PB 存储空间和 40,000 个 NVIDIA InfiniBand 网络链接。

Penguin Solutions与Meta的运营团队合作进行硬件集成，以部署集群并设置控制平面的主要部分。企鹅的硬件和软件专业知识帮助整合了NVIDIA和Pure Storage的贡献。

这三个合作伙伴共同为为 Meta 提供优化解决方案——新的 AI 研究超级集群 (RSC) ——发挥了关键作用，这使得 Meta 能够为此奠定基础元界。

提供经过人工智能优化的架构和
AI 管理服务

Penguin Solutions 继续为 Meta 的大型 NVIDIA DGX 集群提供超长的正常运行时间和可用性。

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴

Penguin Solutions设计了大型NVIDIA DGX集群，具有高速的NVIDIA InfiniBand网络和优化的存储。我们与大多数存储供应商都有关系和专业知识，这使我们能够为每位客户提供定制的解决方案。

我们的流程：其他服务

AI 和 HPC 基础设施综合服务

Penguin Solutions致力于帮助客户取得成功。凭借在设计、构建、部署和管理 AI 和加速计算集群方面拥有 25 年的 HPC 经验，我们已经支持了一些世界上最复杂的工作负载。

设计

设计基础设施服务

将系统架构建立在一组经过大规模生产部署中大规模验证的成熟设计基础上，从而缩短实现价值的时间。

构建

建筑基础设施服务

我们的出厂专家会验证计算集群的所有组件，包括机架集成、网络配置和老化测试，从而实现较高的系统稳定性。

部署

部署基础架构服务

推动现场安装，包括与数据存储合作伙伴、数据中心员工、系统冷却基础架构进行协调，以及使用我们的 ClusterWare 软件来验证生产就绪情况。

请求回电

与 Penguin Solutions 的专家交谈

立即联系我们，详细了解我们作为经认证的 NVIDIA DGX 就绪 AI 托管服务提供商，如何通过包括全天候支持在内的全套端到端服务，帮助确保生产就绪和变更管理。

为 AI 和 HPC 工作负载提供基础设施管理服务

解决架构问题
精准管理

敏感设备

昂贵的 GPU

可靠的方法

AI 的成功需要经过验证
管理经验

超过十亿小时

85,000 个 GPU

卓越中心 (CoE)

管理大型 NVIDIA DGX 集群专业知识

提供经过人工智能优化的架构和
AI 管理服务

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴

AI 和 HPC 基础设施综合服务

设计基础设施服务

建筑基础设施服务

部署基础架构服务

与 Penguin Solutions 的专家交谈

解决复杂性。加快取得成果。

取得联系

合作伙伴

公司

为 AI 和 HPC 工作负载提供基础设施管理服务

解决架构问题 精准管理

敏感设备

昂贵的 GPU

可靠的方法

AI 的成功需要经过验证 管理经验

超过十亿小时

85,000 个 GPU

卓越中心 (CoE)

管理大型 NVIDIA DGX 集群专业知识

提供经过人工智能优化的架构和AI 管理服务

经认证的英伟达 DGX 就绪AI 管理服务合作伙伴

AI 和 HPC 基础设施综合服务

设计基础设施服务

建筑基础设施服务

部署基础架构服务

与 Penguin Solutions 的专家交谈

解决复杂性。加快取得成果。

取得联系

合作伙伴

公司

解决架构问题
精准管理

AI 的成功需要经过验证
管理经验

提供经过人工智能优化的架构和
AI 管理服务

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴