AI 및 HPC 데이터센터
내결함성 솔루션
통합 메모리
기존 IT 시스템과 달리 HPC 및 AI 인프라는 서로 다른 프로세서, 플랫폼, 네트워크를 사용하며 정밀 운영을 포함합니다.이러한 차이는 내부 IT 팀의 성능 및 가동 시간 관리 능력에 영향을 미칠 수 있습니다.
AI 및 HPC 클러스터는 고유한 장애 시그니처가 있는 특수 구성 요소를 사용합니다.요소를 적절하게 관리하고 조정하려면 기존 모니터링 도구를 수정해야 할 수 있습니다.
모든 클러스터와 마찬가지로 AI 및 HPC에 사용되는 클러스터도 상태 점검을 통해 지속적으로 관리해야 합니다. 성능 문제와 장애 패턴이 상당한 재정적 영향을 미칠 수 있기 때문입니다.
SLA 기반 업타임 보고를 통해 NVIDIA 공인 매니지드 서비스 엔지니어가 수행하는 지속적인 모니터링, 경고 및 에스컬레이션 관리는 워크로드 지연을 방지합니다.
20억 시간 이상의 GPU 런타임으로 대규모의 복잡한 환경에서 업타임과 처리량을 높입니다.
85,000개 이상의 GPU를 배포하고 관리 서비스를 받고 있는 당사는 현재 및 진화하는 AI 인프라 요구 사항을 지속적으로 충족하고 있습니다.
엔지니어링에서 기술 운영에 이르기까지 Penguin은 전문 지식을 제공하고 주요 기능 영역을 조정하여 최적의 성능을 보장합니다.
다년간의 경험을 통해 대규모 AI 팩토리를 운영하면서 타의 추종을 불허하는 역량을 개발할 수 있었습니다.예를 들어, 저희가 도와드리고 있습니다. 메타 2000개 이상의 엔비디아 DGX 시스템, 16,000개의 엔비디아 A100 텐서 코어 GPU, 500PB의 스토리지, 40,000개의 엔비디아 인피니밴드 네트워킹 링크를 갖춘 메타 리서치 슈퍼 클러스터를 관리할 수 있습니다.
Penguin Solutions는 하드웨어 통합에 대해 Meta의 운영 팀과 협력하여 클러스터를 배포하고 컨트롤 플레인의 주요 부분을 설정했습니다.펭귄의 하드웨어 및 소프트웨어 전문 지식은 NVIDIA와 퓨어스토리지의 기여를 하나로 묶는 데 도움이 되었습니다.
이 세 파트너는 함께 Meta에 최적화된 솔루션인 새로운 AI 연구 슈퍼클러스터 (RSC) 를 제공하는 데 핵심적인 역할을 했습니다. 이를 통해 Meta는 이를 위한 토대를 마련할 수 있었습니다. 메타버스.
Penguin Solutions는 메타의 대규모 NVIDIA DGX 클러스터에 탁월한 가동 시간과 가용성을 지속적으로 제공합니다.
Penguin Solutions는 고속 NVIDIA InfiniBand 네트워킹과 최적화된 스토리지를 갖춘 대규모 NVIDIA DGX 클러스터를 설계했습니다.당사는 대부분의 스토리지 공급업체와 관계 및 전문 지식을 보유하고 있으므로 모든 고객에게 맞춤형 솔루션을 제공할 수 있습니다.
수많은 프로덕션 배포에서 대규모로 검증된 일련의 검증된 설계를 기반으로 시스템 아키텍처를 구축하여 가치 창출 시간을 단축합니다.
랙 통합, 네트워크 구성 및 번인 테스트를 포함하여 컴퓨팅 클러스터의 모든 구성 요소를 검증하는 공장 내 전문가와 함께 높은 시스템 안정성을 달성하십시오.
데이터 스토리지 파트너, 데이터 센터 직원, 시스템 냉각 인프라와 협력하고 ClusterWare 소프트웨어를 활용하여 생산 준비 상태를 검증하는 등 현장 설치를 주도합니다.
지금 연락하셔서 NVIDIA DGX 지원 AI Managed Service 공인 공급업체로서 완벽한 연중무휴 지원을 포함한 전체 종합 서비스를 통해 생산 준비 및 변경 관리를 보장하는 방법에 대해 자세히 알아보십시오.