AI および HPC データセンター
フォールトトレラントソリューション
内蔵メモリ
Penguin Solutions® がClusterWareを活用してインフラストラクチャをコードとして実装し、効率とスケーラビリティを高めながら、HPCクラスターの導入と管理を合理化する方法をご覧ください。
Penguin Solutions ICE ClusterWare™ は クラスター管理ソフトウェア これにより、管理者はハードウェアとソフトウェアのリソースを効率的に管理し、HPCとAI /MLクラスターを最大限に活用できます。ICE ClusterWareをAnsibleやGitなどの使い慣れたDevOpsツールと統合することで、管理者は作業を自動化できるため、組織はHPCの生産性を最大化し、イノベーションを加速できます。
ClusterWareの「コードとしてのインフラストラクチャ」により、管理者は使用されているすべてのノード構成を含む一元的なコードベース、たとえばGitlabを管理できます。ClusterWare ヘッドノードでホストできる Git リポジトリは、コードだけでなく、データやワークフローのバージョン管理にも使用できます。これにより、変更管理がよりシンプルになり、監査可能になり、追跡が容易になります。
さらに、このGitリポジトリの使用により、情報を社内だけでなく、必要に応じてパートナー、サードパーティの請負業者、サポート担当者とより簡単に共有できます。
ICE ClusterWare は、イメージベースの迅速なプロビジョニングを使用して、ベアメタル、仮想化、またはコンテナ化された環境ですぐに実行できるコンピューティングクラスタを作成します。一部のクラスターでは、ノードに必要なすべてのソフトウェアをそのイメージに含めることができます。ClusterWareは異種クラスタをプロビジョニングできるため、ハードウェアまたはソフトウェアの属性に基づいて複数のイメージを作成して配布できます。
たとえば、GPU ノードは CPU のみのノードとは異なるイメージを受け取る場合があります。ただし、クラスターのサイズが大きくなるか、異なる方法でプロビジョニングする必要があるノードのサブセットが増えると、イメージへの変更を追跡するのが難しくなります。
別の方法として、管理者は Ansible または Puppet を含む軽量イメージを起動し、そのツールに追加のイメージ設定を提供させることができます。この方法でイメージ設定を自動化すると、潜在的なエラーが減り、本来は手動であるはずの作業に効率と監査可能性がもたらされます。
ICE ClusterWare の迅速なプロビジョニングと異種環境への対応能力により、管理の柔軟性が向上します。たとえば、管理者はクラスターの大部分を標準運用環境に置いたまま、ノードのサブセットを分割して新しいイメージをテストできます。
テストが成功したら、新しいイメージをクラスターの残りの部分にロールアウトできます。頻繁な更新が必要なエンタープライズHPC環境では、このアプローチにより、更新の実装中の中断が少なくなり、本番環境を大規模に継続できます。
STIG (セキュリティ技術実装ガイド)は、監査可能な方法でマシンが適切に保護されていることを確認するために使用される連邦セキュリティガイドラインです。クラスター全体に STIG のデプロイを自動化する 1 つの方法は、ClusterWare を使用してベースコンピュートノードイメージをプロビジョニングし、Ansible を使用してこれらのベースイメージの上に STIG コンポーネントを追加することです。
必要な STIG 設定は、起動時に Ansible プルを使用して自動的に実行される Ansible プレイブックとして保存できます。この統合により、Ansible コントロールノードからのプッシュ時に発生する可能性のあるボトルネックが解消され、管理者は新しいノードの起動プロセスを自動化できます。
この例では、管理者は、必要な手作業の量を減らしながら、多数のマシンをきめ細かく正確かつ効率的に保護できるようにします。
クラスターの規模が大きくなると、管理チームも大きくなります。規模が大きくなると、クラスター管理はより複雑になり、より多くの情報をより多くの人々で共有する必要が生じる可能性があります。
ICE ClusterWare は、数十から数万のノードにわたるクラスタを管理できるように設計されており、あらゆる規模のクラスタに対して迅速で信頼性の高いプロビジョニングとヘルスモニタリングを保証します。ClusterWare の高可用性 (HA) 機能により、どのヘッドノードでも任意のコンピュートノードにサービスを提供できるようになり、ヘッドノードの障害による中断が大幅に減り、さらには解消されます。
DevOps の観点から見ると、ClusterWare ヘッドノードは前述の Git リポジトリをホストできます。これを Ansible pull と組み合わせると、管理者が簡単に数千ノードまでスケールアップできる軽量な構成になります。Playbook は移植性が高いため、ベースイメージが異なる複数の環境で再利用でき、バージョン管理が簡単になります。これにより、新しい環境をすばやく実行し、イメージを既知の良好な状態に一貫して起動することが容易になります。
ClusterWareは最も安全な環境でも実行でき、ITセキュリティのベストプラクティスをサポートします。エアギャップデプロイメントがサポートされており、ISOを内部リポジトリに保存できるため、公共のインターネット接続を必要とせずにイメージを作成できます。
さらに、ClusterWare は RedHat MLS ポリシー、FIPS および STIG の連邦セキュリティプロトコル、TPM 暗号化などの SELinux をサポートしています。インフラストラクチャをコードとして使用することで、組織のセキュリティ体制をさらに強化し、組織的なバージョン管理と CI/CD の監査可能性を確保できます。
ICE ClusterWareは、数十年にわたるHPCの経験を持つ専門家チームによって開発およびサポートされています。私たちはユーザーと緊密に連携して製品ロードマップを構築し、ソフトウェアがユーザーのニーズに合わせて進化し続けることを保証します。
Ansible-pull 機能と Git を使用してバージョン管理を行うことで、管理者は使い慣れた DevOps ツールを使用してクラスターをプロビジョニングおよび管理できます。これにより、組織はHPC環境を効率的かつ安全に運用できます。
デモを申し込む Penguin SolutionsがエンタープライズグレードのHPCおよびAI /MLクラスター管理の合理化にどのように役立つかをご覧ください。専門家と話すこともできますし、 価格をリクエスト 今日!
Penguinのチームは、高性能で可用性の高いHPCおよびAI エンタープライズソリューションの設計、構築、導入、管理を行い、お客様が画期的なイノベーションを実現できるよう支援しています。
今すぐお問い合わせいただき、インフラストラクチャソリューションプロジェクトのニーズについてご相談ください。