AI 및 HPC 데이터센터
내결함성 솔루션
통합 메모리
Penguin Solutions® 가 어떻게 ClusterWare를 활용하여 인프라를 코드로 구현하여 HPC 클러스터 배포 및 관리를 간소화하고 효율성과 확장성을 향상시키는지 알아보십시오.
Penguin Solutions ICE 클러스터웨어™ 는 클러스터 관리 소프트웨어 이를 통해 관리자는 하드웨어 및 소프트웨어 리소스를 효율적으로 관리하고 HPC 및 AI/ML 클러스터를 최대한 활용할 수 있습니다.관리자는 ICE ClusterWare를 Ansible 및 Git과 같은 친숙한 DevOps 도구와 통합하여 작업을 자동화하여 조직이 HPC 생산성을 극대화하고 혁신을 가속화할 수 있습니다.
ClusterWare의 “코드형 인프라”를 통해 관리자는 사용 중인 모든 노드 구성을 포함하는 중앙 코드 베이스 (예: Gitlab) 를 유지할 수 있습니다.ClusterWare 헤드 노드에서 호스팅할 수 있는 Git 리포지토리는 코드뿐 아니라 데이터 및 워크플로의 버전 제어에도 사용할 수 있습니다.이로 인해 변경 관리가 더 단순해지고 감사 가능하며 추적하기가 더 쉬워집니다.
또한 Git repos를 사용하면 필요에 따라 파트너, 타사 계약자 및 지원 담당자뿐만 아니라 내부에서도 정보를 보다 쉽게 공유할 수 있습니다.
ICE ClusterWare는 신속한 이미지 기반 프로비저닝을 사용하여 베어메탈, 가상화 또는 컨테이너화된 환경에서 바로 실행할 수 있는 컴퓨팅 클러스터를 생성합니다.일부 클러스터의 경우 노드에 필요한 가능한 모든 소프트웨어를 이미지 내에 포함할 수 있습니다.ClusterWare는 이기종 클러스터를 프로비저닝할 수 있으므로 하드웨어 또는 소프트웨어 특성을 기반으로 여러 이미지를 생성하고 배포할 수 있습니다.
예를 들어 GPU 노드는 CPU 전용 노드와 다른 이미지를 수신할 수 있습니다.그러나 클러스터의 크기가 커지거나 더 많은 노드 하위 집합을 다르게 프로비저닝해야 하는 경우 이미지 변경 사항을 추적하기 어려울 수 있습니다.
대안으로 관리자는 Ansible 또는 Puppet이 포함된 경량 이미지로 부팅하고 해당 도구가 추가 이미지 구성을 제공하도록 허용할 수 있습니다.이러한 방식으로 이미지 구성을 자동화하면 잠재적 오류가 줄어들고 수동 작업의 효율성과 감사 가능성이 높아집니다.
ICE ClusterWare의 빠른 프로비저닝과 이기종 환경 지원 기능을 통해 관리 유연성을 높일 수 있습니다.예를 들어 관리자는 클러스터의 대부분을 표준 운영 환경으로 유지하면서 노드의 하위 집합을 파티셔닝하여 새 이미지를 테스트할 수 있습니다.
테스트에 성공하면 새 이미지를 나머지 클러스터로 롤아웃할 수 있습니다.잦은 업데이트가 필요한 엔터프라이즈 HPC 환경에서 이 접근 방식을 사용하면 업데이트가 구현되는 동안 중단 없이 대규모로 운영을 계속할 수 있습니다.
STIG (보안 기술 구현 가이드)는 감사 가능한 방식으로 시스템을 적절하게 보호하는 데 사용되는 연방 보안 지침입니다.클러스터 전체에 STIG 배포를 자동화하는 한 가지 방법은 ClusterWare를 통해 기본 컴퓨팅 노드 이미지를 프로비저닝한 다음 Ansible을 사용하여 이러한 기본 이미지 위에 STIG 구성 요소를 추가하는 것입니다.
원하는 STIG 구성을 부팅 시 Ansible 풀을 사용하여 자동으로 실행되는 Ansible 플레이북으로 저장할 수 있습니다.이러한 통합을 통해 Ansible 제어 노드에서 푸시할 때 발생할 수 있는 잠재적 병목 현상이 제거되고 관리자가 새 노드의 부팅 프로세스를 자동화할 수 있습니다.
이 예에서 관리자는 필요한 수동 작업의 양을 줄이면서 많은 수의 기계를 세부적인 수준에서 정확하고 효율적으로 보호할 수 있도록 합니다.
클러스터의 규모가 커지면 관리 팀도 커질 수 있습니다.규모가 커지면 클러스터 관리가 더욱 복잡해지고 더 많은 사람들이 더 많은 정보를 공유해야 할 수도 있습니다.
ICE ClusterWare 수십에서 수만 노드에 이르는 클러스터를 관리하도록 설계되어 모든 규모의 클러스터에 대해 빠르고 안정적인 프로비저닝과 상태 모니터링을 보장합니다.ClusterWare의 고가용성 (HA) 기능을 사용하면 모든 헤드 노드가 모든 컴퓨팅 노드에 서비스를 제공할 수 있으므로 헤드 노드 장애로 인한 중단을 크게 줄이고 제거할 수 있습니다.
DevOps 관점에서 볼 때 ClusterWare 헤드 노드는 앞서 언급한 Git 리포지토리를 호스팅할 수 있습니다.이를 Ansible pull과 결합하면 관리자가 수천 개의 노드까지 쉽게 확장할 수 있는 간단한 구성이 가능합니다.플레이북은 휴대성이 뛰어나므로 기본 이미지가 서로 다른 여러 환경에서 플레이북을 재사용할 수 있으며 버전 관리가 간소화됩니다.따라서 새 환경을 빠르게 실행하고 이미지를 알려진 정상 상태로 일관되게 부팅할 수 있습니다.
ClusterWare는 가장 안전한 환경에서도 실행될 수 있으므로 IT 보안 모범 사례를 지원합니다.ISO를 내부 저장소에 저장할 수 있는 에어 갭 배포가 지원되므로 공용 인터넷 연결 없이 이미지를 생성할 수 있습니다.
또한 클러스터웨어는 레드햇 MLS 정책, FIPS 및 STIG 연방 보안 프로토콜, TPM 암호화를 비롯한 SELinux를 지원합니다.인프라를 코드로 사용하면 조직의 보안 태세를 더욱 강화하여 체계적인 버전 제어 및 CI/CD 감사 가능성을 보장할 수 있습니다.
ICE 클러스터웨어는 수십 년간 HPC 경험을 쌓은 전문가 팀이 개발하고 지원합니다.우리는 사용자와 긴밀하게 협력하여 제품 로드맵을 구축하고 소프트웨어가 사용자의 요구에 따라 계속 발전할 수 있도록 합니다.
Ansible-Pull 기능과 Git을 버전 제어에 사용하면 관리자가 익숙한 DevOps 도구를 사용하여 클러스터를 프로비저닝하고 관리할 수 있습니다.이를 통해 조직은 HPC 환경을 효율적이고 안전하게 운영할 수 있습니다.
데모 신청하기 Penguin Solutions가 엔터프라이즈급 HPC 및 AI/ML 클러스터 관리를 간소화하는 데 어떻게 도움이 되는지 알아보십시오.전문가와 상담할 수도 있고 가격 요청 오늘!
Penguin에서 우리 팀은 고성능, 고가용성 HPC 및 AI 엔터프라이즈 솔루션을 설계, 구축, 배포 및 관리하여 고객이 획기적인 혁신을 달성할 수 있도록 지원합니다.
오늘 연락하셔서 인프라 솔루션 프로젝트 요구 사항에 대해 논의해 보겠습니다.