Network engineer checking cable connections
서비스 > 관리

AI 및 HPC 워크로드를 위한 인프라 관리 서비스 제공

기존 IT 시스템과 달리 HPC 및 AI 인프라는 서로 다른 프로세서, 플랫폼, 네트워크를 사용하며 정밀 운영을 포함합니다.이러한 차이는 내부 IT 팀의 성능 및 가동 시간 관리 능력에 영향을 미칠 수 있습니다.

렛츠 토크

솔루션 아키텍처
정밀도 관리

민감한 장비

AI 및 HPC 클러스터는 고유한 장애 시그니처가 있는 특수 구성 요소를 사용합니다.요소를 적절하게 관리하고 조정하려면 기존 모니터링 도구를 수정해야 할 수 있습니다.

고가의 GPU

모든 클러스터와 마찬가지로 AI 및 HPC에 사용되는 클러스터도 상태 점검을 통해 지속적으로 관리해야 합니다. 성능 문제와 장애 패턴이 상당한 재정적 영향을 미칠 수 있기 때문입니다.

신뢰할 수 있는 방법

SLA 기반 업타임 보고를 통해 NVIDIA 공인 매니지드 서비스 엔지니어가 수행하는 지속적인 모니터링, 경고 및 에스컬레이션 관리는 워크로드 지연을 방지합니다.

동급 최고의 아키텍처

AI 성공에는 검증이 필요합니다
관리 경험

Penguin Solutions는 HPC 클러스터를 구축하고 관리하는 데 25년 이상의 경험을 가지고 있으며,
초대형 클러스터에 대한 8 년 이상의 경험.이것은 인증된 경험 초대형 AI 팩토리에서 타의 추종을 불허하는 기능을 개발할 수 있게 해주었습니다.

Rack of servers

20억 시간 이상

20억 시간 이상의 GPU 런타임으로 대규모의 복잡한 환경에서 업타임과 처리량을 높입니다.

GPU chip on motherboard

85,000개의 GPU

85,000개 이상의 GPU를 배포하고 관리 서비스를 받고 있는 당사는 현재 및 진화하는 AI 인프라 요구 사항을 지속적으로 충족하고 있습니다.

Team members reviewing rack storage

센터 오브 엑설런스 (COE)

엔지니어링에서 기술 운영에 이르기까지 Penguin은 전문 지식을 제공하고 주요 기능 영역을 조정하여 최적의 성능을 보장합니다.

인 더 뉴스

대규모 NVIDIA DGX 클러스터 전문 지식 관리

다년간의 경험을 통해 대규모 AI 팩토리를 운영하면서 타의 추종을 불허하는 역량을 개발할 수 있었습니다.예를 들어, 저희가 도와드리고 있습니다. 메타 2000개 이상의 엔비디아 DGX 시스템, 16,000개의 엔비디아 A100 텐서 코어 GPU, 500PB의 스토리지, 40,000개의 엔비디아 인피니밴드 네트워킹 링크를 갖춘 메타 리서치 슈퍼 클러스터를 관리할 수 있습니다.

Penguin Solutions는 하드웨어 통합에 대해 Meta의 운영 팀과 협력하여 클러스터를 배포하고 컨트롤 플레인의 주요 부분을 설정했습니다.펭귄의 하드웨어 및 소프트웨어 전문 지식은 NVIDIA와 퓨어스토리지의 기여를 하나로 묶는 데 도움이 되었습니다.

이 세 파트너는 함께 Meta에 최적화된 솔루션인 새로운 AI 연구 슈퍼클러스터 (RSC) 를 제공하는 데 핵심적인 역할을 했습니다. 이를 통해 Meta는 이를 위한 토대를 마련할 수 있었습니다. 메타버스.

전체 스토리 읽기
보도 자료 읽기

AI에 최적화된 아키텍처 제공 및
AI 매니지드 서비스

Penguin Solutions는 메타의 대규모 NVIDIA DGX 클러스터에 탁월한 가동 시간과 가용성을 지속적으로 제공합니다.

Meta data center

엔비디아 DGX 지원 인증
AI 매니지드 서비스 파트너

Penguin Solutions는 고속 NVIDIA InfiniBand 네트워킹과 최적화된 스토리지를 갖춘 대규모 NVIDIA DGX 클러스터를 설계했습니다.당사는 대부분의 스토리지 공급업체와 관계 및 전문 지식을 보유하고 있으므로 모든 고객에게 맞춤형 솔루션을 제공할 수 있습니다.

Meta server racks
우리의 프로세스: 추가 서비스

AI 및 HPC 인프라 종합 서비스

Penguin Solutions는 고객의 성공을 위해 최선을 다하고 있습니다.AI 및 가속화된 컴퓨팅 클러스터의 설계, 구축, 배포, 관리 분야에서 25년간 쌓아온 HPC의 경험을 바탕으로 세계에서 가장 정교한 워크로드 중 일부를 지원했습니다.

Empty server room
디자인

설계 인프라 서비스

수많은 프로덕션 배포에서 대규모로 검증된 일련의 검증된 설계를 기반으로 시스템 아키텍처를 구축하여 가치 창출 시간을 단축합니다.

디자인 서비스 살펴보기
디자인 서비스 살펴보기
Clean room server build cabling
짓다

빌딩 인프라 서비스

랙 통합, 네트워크 구성 및 번인 테스트를 포함하여 컴퓨팅 클러스터의 모든 구성 요소를 검증하는 공장 내 전문가와 함께 높은 시스템 안정성을 달성하십시오.

빌드 서비스 살펴보기
빌드 서비스 살펴보기
Server room network engineers
배포

배포 인프라 서비스

데이터 스토리지 파트너, 데이터 센터 직원, 시스템 냉각 인프라와 협력하고 ClusterWare 소프트웨어를 활용하여 생산 준비 상태를 검증하는 등 현장 설치를 주도합니다.

배포 서비스 살펴보기
배포 서비스 살펴보기
Woman in data center with tablet
콜백 요청

Penguin Solutions의 전문가와 상담하세요

지금 연락하셔서 NVIDIA DGX 지원 AI Managed Service 공인 공급업체로서 완벽한 연중무휴 지원을 포함한 전체 종합 서비스를 통해 생산 준비 및 변경 관리를 보장하는 방법에 대해 자세히 알아보십시오.

렛츠 토크