AI 和 HPC 数据中心
容错解决方案
集成内存
GPT-4 和 Chat-GPT 所能产生的显著成果已成为头条新闻,也吸引了商界领袖的注意力。各公司一直在通过人工智能(AI)寻找更好的产品、服务和内部流程,但需要记住,这些技术的用途必须与最终目标不同。无论是风洞模拟、电子设计验证、定制聊天机器人、“数字双胞胎” 复杂系统仿真还是其他用例,AI 都激发了各行各业的想象力。但是,尽管产出目前最受关注,但底层技术——云、高性能计算 (HPC)、自动化和机器学习 (ML) ——也在激增。
几十年来,领先组织一直在利用 HPC 和 AI,使用基于 CPU 和 GPU 的专业计算集群以及低延迟的网络和存储基础架构。但是,最近,随着公有云供应商为满足不断增长的性能需求进行了必要的基础设施投资和核心技术进步,各组织纷纷转向云端。
与以前的模型不同,用户对计算的访问权限由任务调度程序和本地容量控制,而基于云的模型允许用户几乎即时 “无需等待” 访问计算,用户可以使用精确满足其应用程序需求的集群。高内核数 CPU、大内存占用节点和裸机访问等元素缩小了云能力与自定义本地系统能力之间的差距。
但是,HPC/AI 在云上取得成功的关键将是获得与弹性云资源相关的软件和相关专业知识,这些资源可以将基础架构从主要公有云提供商转变为真正的高性能配置。在基于云的模型中,每个组可以拥有具有不同配置和 CPU、GPU、内存和存储组合的集群,甚至是仅在特定公有云中可用的专业处理器。
随着云端出现新技术,研究人员和数据科学家将受益于快速获得性能和能力方面的最新进展。归根结底,业务加速旨在以更低的成本推动更好的成果,而基于云的HPC/AI已成为一种能力,首席信息官们可以利用它来突出IT作为一种进行创新和提高效率的职能。
有了正确的软件和服务支持,各种规模的创新企业现在都可以通过 “按使用量付费” 模式快速利用传统上只有大型组织才能使用的功能,这种模式可以将计算投资与已证明的投资回报率紧密联系起来。
为了实现这些目标,首席信息官们希望与云服务合作伙伴保持一致,这些合作伙伴在计算基础架构和公有云中各种 CPU 和 GPU 实例类型的使用折扣模式方面都具有专业知识。这正是挖掘底层技术至关重要的地方,因为看似微小的基础设施变更可以节省大量成本,将 “良好” 的投资回报率转化为 “最大” 的投资回报率。
例如,一家主要的公有云提供商最近推出了一种经过高度调整的面向集群的 HPC 配置,该配置基于具有最新高内核数 CPU、大量内存和专业高速网络互连的节点,对于执行大规模计算工作的用户而言,价格极具吸引力。对于正确的工作负载类型,识别和利用这些类型的预优化配置可以改变游戏规则。
虽然 AI 的输出正在改变各行各业的游戏规则,但它们是数千个处理器的计算结果。归根结底,AI 的价值取决于训练数据的广度和为用户提供答案的速度,以及训练大规模模型以及随后产生结果(称为 “推理”)所需的资源,可能存在巨大差异。
在启动 AI 开发过程时,组织应同时考虑其培训和推理需求。通常,训练以集群为导向,许多强大、相互连接的基于 GPU 的节点共同工作以创建高度调整的模型。执行推理并向用户提供模型的价值,通常由大量功能较弱的推理节点独立工作,为个人请求提供服务。
基于云的部署环境使用户有可能根据其特定工作负载的各种 CPU 和 GPU 轻松创建和测试训练和推理配置。尽管 GPU 通常是执行大规模训练的正确选择,但最新一代的 CPU 包含嵌入式 “类似 GPU” 的功能,无论从性能还是成本/投资回报率的角度来看,这些功能都使其成为推理工作负载的绝佳选择。此外,随着未来新一代处理器的推出,云的按需性质使得快速评估和转向新技术成为可能,而这种方式在专用的本地环境中根本不可能实现。
人工智能刺激了各行各业的创新,其出色的成果备受关注。但是,云计算、HPC、自动化和机器学习等底层技术在这场革命中起着关键作用。向基于云的基础设施的转变标志着一个重要的里程碑,使得 AI 更易于访问和扩展。随着领先组织继续采用HPC和AI,云的技术进步——加上改进的数据建模和管理——推动各行业走向具有无限AI潜力的未来,为下一波创新奠定了基础。
Penguin Solutions可以成为你值得信赖的人工智能和HPC解决方案战略合作伙伴。凭借超过 25 年的 HPC 经验和 7 年以上的人工智能基础设施设计和部署,以及自 2017 年以来部署和管理的 GPU 超过 85,000 个,我们随时准备提供帮助。
联系 AI 基础架构专家 今天在 Penguin Solutions 讨论你的 AI 项目需求。
Chief Technology Officer
作为 Penguin Solutions 的首席技术官,Phil 为我们技术解决方案的设计、开发、支持和愿景带来了丰富的工程经验和客户洞察力。
在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。
立即联系我们,让我们讨论您的基础设施解决方案项目需求。