AI 매니지드 서비스로 HPC 및 AI 워크로드 최적화

솔루션 아키텍처
정밀도 관리

민감한 장비

AI 및 HPC 클러스터는 고유한 장애 시그니처가 있는 특수 구성 요소를 사용합니다.요소를 적절하게 관리하고 조정하려면 기존 모니터링 도구를 수정해야 할 수 있습니다.

고가의 GPU

모든 클러스터와 마찬가지로 AI 및 HPC에 사용되는 클러스터도 상태 점검을 통해 지속적으로 관리해야 합니다. 성능 문제와 장애 패턴이 상당한 재정적 영향을 미칠 수 있기 때문입니다.

신뢰할 수 있는 방법

SLA 기반 업타임 보고를 통해 NVIDIA 공인 매니지드 서비스 엔지니어가 수행하는 지속적인 모니터링, 경고 및 에스컬레이션 관리는 워크로드 지연을 방지합니다.

동급 최고의 아키텍처

AI 성공에는 검증이 필요합니다
관리 경험

Penguin Solutions는 HPC 클러스터를 구축하고 관리하는 데 25년 이상의 경험을 가지고 있으며, 초대형 클러스터에 대한 8 년 이상의 경험.이것은 인증된 경험 초대형 AI 팩토리에서 타의 추종을 불허하는 기능을 개발할 수 있게 해주었습니다.

20억 시간 이상

20억 시간 이상의 GPU 런타임으로 대규모의 복잡한 환경에서 업타임과 처리량을 높입니다.

85,000개의 GPU

85,000개 이상의 GPU를 배포하고 관리 서비스를 받고 있는 당사는 현재 및 진화하는 AI 인프라 요구 사항을 지속적으로 충족하고 있습니다.

센터 오브 엑설런스 (COE)

엔지니어링에서 기술 운영에 이르기까지 Penguin은 전문 지식을 제공하고 주요 기능 영역을 조정하여 최적의 성능을 보장합니다.

인 더 뉴스

대규모 NVIDIA DGX 클러스터 전문 지식 관리

다년간의 경험을 통해 대규모 AI 팩토리를 운영하면서 타의 추종을 불허하는 역량을 개발할 수 있었습니다.예를 들어, 저희가 도와드리고 있습니다. 메타 2000개 이상의 엔비디아 DGX 시스템, 16,000개의 엔비디아 A100 텐서 코어 GPU, 500PB의 스토리지, 40,000개의 엔비디아 인피니밴드 네트워킹 링크를 갖춘 메타 리서치 슈퍼 클러스터를 관리할 수 있습니다.

Penguin Solutions는 하드웨어 통합에 대해 Meta의 운영 팀과 협력하여 클러스터를 배포하고 컨트롤 플레인의 주요 부분을 설정했습니다.펭귄의 하드웨어 및 소프트웨어 전문 지식은 NVIDIA와 퓨어스토리지의 기여를 하나로 묶는 데 도움이 되었습니다.

이 세 파트너는 함께 Meta에 최적화된 솔루션인 새로운 AI 연구 슈퍼클러스터 (RSC) 를 제공하는 데 핵심적인 역할을 했습니다. 이를 통해 Meta는 이를 위한 토대를 마련할 수 있었습니다. 메타버스.

AI에 최적화된 아키텍처 제공 및
AI 매니지드 서비스

Penguin Solutions는 메타의 대규모 NVIDIA DGX 클러스터에 탁월한 가동 시간과 가용성을 지속적으로 제공합니다.

엔비디아 DGX 지원 인증
AI 매니지드 서비스 파트너

Penguin Solutions는 고속 NVIDIA InfiniBand 네트워킹과 최적화된 스토리지를 갖춘 대규모 NVIDIA DGX 클러스터를 설계했습니다.당사는 대부분의 스토리지 공급업체와 관계 및 전문 지식을 보유하고 있으므로 모든 고객에게 맞춤형 솔루션을 제공할 수 있습니다.

우리의 프로세스: 추가 서비스

AI 및 HPC 인프라 종합 서비스

Penguin Solutions는 고객의 성공을 위해 최선을 다하고 있습니다.AI 및 가속화된 컴퓨팅 클러스터의 설계, 구축, 배포, 관리 분야에서 25년간 쌓아온 HPC의 경험을 바탕으로 세계에서 가장 정교한 워크로드 중 일부를 지원했습니다.

디자인

설계 인프라 서비스

수많은 프로덕션 배포에서 대규모로 검증된 일련의 검증된 설계를 기반으로 시스템 아키텍처를 구축하여 가치 창출 시간을 단축합니다.

짓다

빌딩 인프라 서비스

랙 통합, 네트워크 구성 및 번인 테스트를 포함하여 컴퓨팅 클러스터의 모든 구성 요소를 검증하는 공장 내 전문가와 함께 높은 시스템 안정성을 달성하십시오.

배포

배포 인프라 서비스

데이터 스토리지 파트너, 데이터 센터 직원, 시스템 냉각 인프라와 협력하고 ClusterWare 소프트웨어를 활용하여 생산 준비 상태를 검증하는 등 현장 설치를 주도합니다.

콜백 요청

Penguin Solutions의 전문가와 상담하세요

지금 연락하셔서 NVIDIA DGX 지원 AI Managed Service 공인 공급업체로서 완벽한 연중무휴 지원을 포함한 전체 종합 서비스를 통해 생산 준비 및 변경 관리를 보장하는 방법에 대해 자세히 알아보십시오.

AI 및 HPC 워크로드를 위한 인프라 관리 서비스 제공

솔루션 아키텍처
정밀도 관리

민감한 장비

고가의 GPU

신뢰할 수 있는 방법

AI 성공에는 검증이 필요합니다
관리 경험

20억 시간 이상

85,000개의 GPU

센터 오브 엑설런스 (COE)

대규모 NVIDIA DGX 클러스터 전문 지식 관리

AI에 최적화된 아키텍처 제공 및
AI 매니지드 서비스

엔비디아 DGX 지원 인증
AI 매니지드 서비스 파트너

AI 및 HPC 인프라 종합 서비스

설계 인프라 서비스

빌딩 인프라 서비스

배포 인프라 서비스

Penguin Solutions의 전문가와 상담하세요

복잡성 해결.결과 가속화.

연락하기

파트너

회사

AI 및 HPC 워크로드를 위한 인프라 관리 서비스 제공

솔루션 아키텍처 정밀도 관리

민감한 장비

고가의 GPU

신뢰할 수 있는 방법

AI 성공에는 검증이 필요합니다 관리 경험

20억 시간 이상

85,000개의 GPU

센터 오브 엑설런스 (COE)

대규모 NVIDIA DGX 클러스터 전문 지식 관리

AI에 최적화된 아키텍처 제공 및AI 매니지드 서비스

엔비디아 DGX 지원 인증AI 매니지드 서비스 파트너

AI 및 HPC 인프라 종합 서비스

설계 인프라 서비스

빌딩 인프라 서비스

배포 인프라 서비스

Penguin Solutions의 전문가와 상담하세요

복잡성 해결.결과 가속화.

연락하기

파트너

회사

솔루션 아키텍처
정밀도 관리

AI 성공에는 검증이 필요합니다
관리 경험

AI에 최적화된 아키텍처 제공 및
AI 매니지드 서비스

엔비디아 DGX 지원 인증
AI 매니지드 서비스 파트너