AI および HPC データセンター
フォールトトレラントソリューション
内蔵メモリ
従来のITシステムとは異なり、HPCとAI のインフラストラクチャは異なるプロセッサ、プラットフォーム、ネットワークを使用し、精度の高い運用を行います。これらの違いは、社内ITチームのパフォーマンスと稼働時間の管理能力に影響を与える可能性があります。
AI および HPC クラスターは、独自の障害シグネチャを持つ特殊なコンポーネントを使用します。要素を適切に管理および調整するには、従来の監視ツールを変更する必要がある場合があります。
どのクラスターでもそうであるように、AI と HPC に使用されるクラスターは、パフォーマンスの問題や障害パターンが財務に大きな影響を与える可能性があるため、ヘルスチェックで継続的に管理する必要があります。
NVIDIA 認定のマネージドサービスエンジニアが SLA ベースの稼働時間レポートで継続的に監視、警告、エスカレーション管理を行うことで、ワークロードの遅延を防ぎます。
20億時間を超えるGPUランタイムにより、大規模で複雑な環境の稼働時間とスループットを向上させます。
85,000を超えるGPUが導入され、当社の管理サービスを受けているため、現在および進化するAI インフラストラクチャの要件を引き続き満たしています。
エンジニアリングからテクニカルオペレーションまで、Penguinは専門知識を提供し、主要な機能領域を調整して最適なパフォーマンスを実現します。
私たちの長年の経験により、大規模なAI ファクトリーの運営において比類のない能力を開発することができました。たとえば、私たちが支援しています メタ 2000 台以上の NVIDIA DGX システム、16,000 台の NVIDIA A100 Tensor コア GPU、500 PB のストレージ、40,000 個の NVIDIA InfiniBand ネットワークリンクを備えたメタリサーチスーパークラスターを管理します。
Penguin Solutionsは、Metaの運用チームと協力してハードウェア統合を行い、クラスターをデプロイし、コントロールプレーンの主要部分をセットアップしました。ペンギンのハードウェアとソフトウェアの専門知識は、NVIDIA と Pure Storage の貢献を結びつけるのに役立ちました。
これら3つのパートナーは協力して、Metaに最適化されたソリューション、つまり新しいAI リサーチスーパークラスター(RSC)を提供するための鍵となりました。これにより、Metaは、そのための基礎を築くことができました。 メタバース。
Penguin Solutionsは、Metaの大規模なNVIDIA DGXクラスターに引き続き並外れた稼働時間と可用性を提供しています。
Penguin Solutions、高速 NVIDIA InfiniBand ネットワーキングと最適化されたストレージを備えた大規模な NVIDIA DGX クラスターを設計しました。私たちはほとんどのストレージベンダーとの関係と専門知識を持っているため、すべてのお客様にオーダーメイドのソリューションを提供できます。
多数の実稼働環境で大規模に検証された実証済みの設計セットに基づいてシステムアーキテクチャを構築することで、価値創出までの時間を短縮できます。
ラックインテグレーション、ネットワーク構成、バーンインテストなど、コンピューティングクラスターのすべてのコンポーネントを検証する工場内の専門家が、高いシステム安定性を実現します。
データストレージパートナー、データセンタースタッフ、システム冷却インフラストラクチャとの調整、ClusterWareソフトウェアの利用による生産準備の検証など、現場での設置を促進します。
今すぐお問い合わせいただき、完全な 24 時間 365 日のサポートを含むエンドツーエンドのサービスをフルセットで提供する、認定された NVIDIA DGX 対応 AI マネージドサービスプロバイダーとして、生産準備と変更管理を保証する方法の詳細をご覧ください。