AI 和 HPC 数据中心
容错解决方案
集成内存
与传统 IT 系统不同,HPC 和 AI 基础架构使用不同的处理器、平台、网络,并涉及精确操作。这些差异可能会影响您的内部 IT 团队管理性能和正常运行时间的能力。
AI 和 HPC 集群使用具有唯一故障签名的特殊组件。可能需要对传统监控工具进行修改才能正确管理和调整元素。
与任何集群一样,用于AI和HPC的集群必须通过运行状况检查进行持续管理,因为性能问题和故障模式可能会带来重大的财务影响。
由 NVIDIA 认证的托管服务工程师通过基于 SLA 的正常运行时间报告进行持续监控、警报和上报管理,可防止工作负载延迟。
提高大规模、复杂环境的正常运行时间和吞吐量,GPU 运行时间超过 20 亿小时。
我们在管理服务下部署了超过 85,000 个 GPU,继续满足当前和不断变化的 AI 基础设施需求。
从工程到技术运营,Penguin 提供专业知识并协调关键职能领域,以确保最佳性能。
我们多年的经验使我们能够通过运营大型AI工厂来开发无与伦比的能力。例如,我们在帮助 Meta 管理 Meta Research 超级集群,拥有 2000 多个 NVIDIA DGX 系统、16,000 个 NVIDIA A100 Tensor Core GPU、500 PB 存储空间和 40,000 个 NVIDIA InfiniBand 网络链接。
Penguin Solutions与Meta的运营团队合作进行硬件集成,以部署集群并设置控制平面的主要部分。企鹅的硬件和软件专业知识帮助整合了NVIDIA和Pure Storage的贡献。
这三个合作伙伴共同为为 Meta 提供优化解决方案——新的 AI 研究超级集群 (RSC) ——发挥了关键作用,这使得 Meta 能够为此奠定基础 元界。
Penguin Solutions 继续为 Meta 的大型 NVIDIA DGX 集群提供超长的正常运行时间和可用性。
Penguin Solutions设计了大型NVIDIA DGX集群,具有高速的NVIDIA InfiniBand网络和优化的存储。我们与大多数存储供应商都有关系和专业知识,这使我们能够为每位客户提供定制的解决方案。
立即联系我们,详细了解我们作为经认证的 NVIDIA DGX 就绪 AI 托管服务提供商,如何通过包括全天候支持在内的全套端到端服务,帮助确保生产就绪和变更管理。