AI および HPC データセンター
フォールトトレラントソリューション
内蔵メモリ
プライベートAI を実装するには、GPU冷却や電源管理など、データセンターインフラストラクチャの設計を大幅に変更する必要があり、これには専門的なリソースとスキルが必要です。
GPU設計者は、これまでにないコア密度の要件でシリコンの物理的限界を押し広げ、AI の規模と性能の限界を打ち破ります。その結果、これまでデータセンターでは見られなかった莫大な電力消費と発熱が発生しています。
人工知能(AI)、機械学習(ML)、モノのインターネット(IoT)などのデータ集約型テクノロジーの使用は、サーバースペースの急激な増加に拍車をかけ、現代のデータセンターに対する電力と熱の需要はかつてないほど高まっています。
AI インフラストラクチャの将来の要件に備えるために、企業は、より高いラック密度とより高性能なGPUを導入してデータセンターのパフォーマンスを最大化すると同時に、リソースの持続可能性への取り組みを支援し、施設の環境への影響を最小限に抑えることができるテクノロジーを実装しています。
具体的な戦略には、再生可能エネルギー源の採用や、ダイレクト・トゥ・チップ、液体冷却、浸漬などの革新的な冷却システムなどのエネルギー効率の高いインフラの導入が含まれます。これにより、エネルギーコストの削減と持続可能性の目標の達成が可能になります。
AI モデリングには、ラックあたり最大50kW以上の電力要件により急速に増加しているGPUラック密度の増加が伴います。具体的には、ノードが4つだけのH100ラックには44kWが必要です。これは、従来のデータセンターの業界平均である従来のラックあたり8.6〜10kWとはまったく対照的です。
チップ密度と熱出力が上昇し続け、最新のGPUプロセッサによって発生する熱負荷が急激に増加するにつれて、現代のデータセンターにおけるこの膨大な計算能力により、従来の空冷方式はパフォーマンスの障壁に直面しています。
これは、非効率的なエネルギー使用、二酸化炭素排出量の増加、および熱を放散するためにデータセンターの設置面積を広げる必要があることを意味します。これらの施設内のホットスポットは問題をさらに悪化させ、熱効率の低下やパフォーマンスのボトルネックにつながります。
AI インフラストラクチャ設計のすべては電力に依存しているため、Penguin Solutions は、液冷や液浸などの高度な冷却技術を念頭に置いて、データセンターのフットプリントの物理的なレイアウトを計画しています。
このデータセンターの冷却方法では、コンポーネントを直接収縮させるコールドプレートに冷却液を送り込むことで、サーバーを直接冷却します。
サーバーは、熱を吸収するオイル、フルオロカーボン、合成エステルなどの非導電性の単相冷却液に浸されます。
サーバーは誘電体の入った浴槽に浸され、沸騰して熱が除去されます。
長年の経験
GPU の導入と管理
GPU ランタイムの時間
計算量の多いワークロードの消費電力の増加、およびAI モデルのトレーニングとチューニングの要件の増加により、従来の冷却方法ではシステムを持続的に冷却することができません。
Penguin SolutionsがAMD およびShellと提携して、Shellのヒューストンデータセンターでイマージョン対応システムを実装することで、どのように排出量を抑えながらパフォーマンスを向上させたかをご覧ください。
今すぐお問い合わせいただき、持続可能性の目標を達成しながら、電力と冷却の要件を含むAI およびHPCデータセンターのレイアウトをどのように支援できるかを詳しく学んでください。