PBS Professional 특징

상위 500개 수퍼컴퓨터부터 단일 사이트 클러스터, 클라우드 환경에 이르기까지 전 세계 수천 개의 조직에서 사용하는 PBS Professional은 복잡한 HPC 인프라를 관리하는 데 필요한 강력한 성능, 유연성, 보안, 확장성 및 신뢰성을 제공합니다.

정책 기반 및 리소스 기반 스케줄링

  • 13.0의 새로운 기능: 완전한 수학 함수( 예: sqrt(), ceil() 등), 조건식 및 작업 시작 적격성 임계값을 이용하여 확장된 우선순위 공식 예약
  • 미세 조정이 가능한 우선 순위, 공정 배분, 예약, 선점, 액세스 제어 목록(ACL) 및 백필링을 통해 SLA 강화
  • 미세 조정이 가능한 스케줄링 공식을 통해 진행 중 예외를 비롯한 모든 정책 정의
  • 시스템 리소스가 균등하게 할당되고 최근 사용량과 조직의 우선 순위에 따라 조절되도록 하는 공정 배분
  • 13.0의 새로운 기능: 일반 Fairshare 공식으로 Q당 증가액, 라이센스 공유, 시간, 전력 사용 및 이들의 조합 지원
  • 세분화된 정책 조정을 위한 사용자, 그룹 및 프로젝트 제한
  • 사전 예약과 상시 예약으로 반복적 필요에 대한 리소스 보장
  • 사용자가 우선 순위가 높은 작업을 즉시 실행할 수 있는 선점 및 검사점 설정(일시 중지/검사점 설정/대기열 재정렬)
  • 13.0의 새로운 기능: 선점을 위한 세부 목표 설정, 대기열 수준에서 구성 가능( 관리자 제어)
  • 우선 순위가 높은 작업을 즉시 시작(예약 사이클 중단)
  • 기간 기반의 스케줄링을 통해 사용자가 대기열에서의 적격 시간에 기초하여 우선 순위를 조정할 수 있음
  • 동적 리소스를 통한 라이센스 스케줄링을 통해 FlexLM 또는 타사 라이센싱 방식으로 서비스되는 소프트웨어 라이센스 할당(및 공유)
  • 일부 사용자가 많은 작업으로 "대기열을 채우는" 경우에도 합리적인 작업 우선 순위를 제공하는 적격 시간
  • NVIDIA, AMD를 비롯한 모든 유형의 엑셀러레이터와 Intel® Xeon Phi™ 코프로세서에 대한 사용의 우선 순위를 지정하고 액세스를 관리하는 GPU/코프로세서 스케줄링

사용자 생산성

  • 13.0의 새로운 기능: 긴 작업 및 예약 이름 지원
  • 작업을 배치로 처리하거나(차단 및 비차단) 대화식으로 처리(자동 X11 전달 포함)
  • 예상 작업 시작 시간으로 작업흐름을 계획하고 마감 시한을 충족할 수 있음
  • 부작용이 있는 작업의 실행을 최대 한 번 이내로 제한하는 "한 번 실행" 의미론 보장
  • 수천 개의 유사한 작업을 단일 개체로 제출하고 관리하기 위한 자연적 구문의 작업 배열(예: 실험 설계(DOE) 작업흐름의 경우)
  • ("qstat –x"를 통한) 작업 이력 및 현황 기능으로 언제나 작업 현황 파악이 가능
  • 작업 종속성을 통해 자동 실행에 대해 복잡한 작업흐름을 정의할 수 있음
  • 하이브리드 MPI+OpenMP 작업에서 정확한 요건을 지정할 수 있음(예: 각 MPI 랭크가 4개의 OpenMP 스레드를 갖는 64-way MPI 작업. 여기서 MPI 랭크 0은 64GB의 메모리를 사용하며 다른 모든 랭크는 1GB의 메모리만 필요함)
  • 사전 예약과 상시 예약으로 반복적 필요에 대한 리소스 보장

관리자 생산성

  • 13.0의 새로운 기능: 맞춤형 리소스는 서버를 다시 시작할 필요 없이 직접 qmgr을 사용하여 생성 가능
  • "관심 작업"에 대해 배포된 모든 로그 데이터를 수집하기 위한 디버깅 유틸리티를 포함하여 작업 및 시스템 상태를 보고하기 위한 유틸리티
  • 실시간 재구성 - 노드 추가/제거, 구성 설정 변경, 데몬 재시작 - 어떤 경우에도 실행 중인 작업에 부정적 영향을 미치지 않음
  • 세부적 문제 해결과 맞춤화된 보고서 작성을 위한 광범위한 계정 데이터
  • 노드에서 사용자 로그인을 제한하는 기능 — 사용자 제한 기능을 사용하여 사용자가 PBS를 통하지 않고 직접 노드에 로그인하여 노드를 사용할 수 없도록 합니다.
  • "보이지 않는" 리소스를 정의하여 개별 사용자에게 세부 정보를 노출하지 않고 내부 스케줄링 정책 수립
  • 비정상 노드의 오프라인 처리, 스케줄링 사이클 재시작 및 작업 대기열 재지정 등의 맞춤형 상태 점검, 마이그레이션 및 알림 기능을 지원하는 플러그인 프레임워크(“후크”)
  • 13.0의 새로운 기능: 작업 실행, 호스트 부팅 및 작업 연결 시 새로운 후크 이벤트 생성 및 보다 쉬운 후크 작성(후크 구성 파일당, 오프라인 디버깅 지원 및 문제 해결에 대한 로깅 개선)
  • 13.0의 새로운 기능: 플러그인 개선으로 qstat 및 계정 관리 보고서를 통해 사용자가 즉시 사용할 수 있는 맞춤형 사용량 측정 기능 추가
  • "블랙홀" 해결을 위해 runjob 후크 내에서 노드를 오프라인으로 처리하는 기능을 포함하여 PBS 런타임 환경 내에서 노드 정보에 액세스("후크" 인터페이스)
  • qmgr 명령줄 편집/이력
  • 광범위한 플랫폼과 타사 소프트웨어 지원 – 거의 모든 환경에서 실행(Linux, UNIX, Windows, MPI, OpenMP …) - 자세한 내용은 지원 플랫폼 참조
    • 13.0의 새로운 기능: 확장된 지원: Intel MPI 및 MPICH2(Windows) stdin, stdout 및 파일 스테이징에 대한 UNC 경로(Windows), SLES 12 및 RHEL 7


확장성, 보안, 복원력

  • 13.0의 새로운 기능: 백만 코어 확장성- 50,000 개 이상의 노드에 대하여 테스트 수행을 마침
  • 13.0의 새로운 기능: 제어 그룹(cgroups) 으로 리소스 부족 문제 해결- 작업 실행 속도 개선 및 상호 또는 OS(제한적 제공) 를 방해하지 않음
  • 멀티스레드 데이터베이스 내장으로 수백만 개의 코어에서 작업을 실행하는 수천 명의 사용자들에게 동시에 높은 볼륨과 빠른 성능 제공
  • 자동 백그라운드 처리를 통한 빠른 작업 수행(사용자당 매초 ~100qsub)
  • Common Criteria EAL3+ 보안 인증
  • SELinux 지원을 통한 RedHat 크로스 도메인 보안(또는 "다중 레벨 보안"(MLS)) 기능(Kerberos v5 이용 가능). 이는 현재 사용이 제한적이며(LA) 자세한 내용은 당사로 연락해 주시기 바랍니다.
  • 단일 장애 지점이 없는 아키텍처와 자동 장애 조치 서버 구성으로 확실한 신뢰성 보장
  • 13.0의 새로운 기능: 포괄적 상태 점검 프레임워크로 사용자의 상태 점검 스크립트 동작 모니터링- 실행 또는 노드가 표시되었는지 점검
  • 고가용성 예약 - 사전 및 상시 예약이 장애 노드를 자동으로 감지하고 대체
  • 루트/관리자 작업 및 서버에서 들어오는 후크를 방지하는 강화된 보안 옵션
  • MOM 후크 내에서 "현재" 노드를 오프라인 또는 재부팅할 수 있음(수만 개의 MOM으로 확장 가능)



애플리케이션 성능

  • 13.0의 새로운 기능: 대용량 MPI 작업에 대한 빠르고 안정적인 시작- 수만여 건의 MPI 단계별 테스트 수행으로 장애 노드에 의한 지연 최소화
  • 이종 MPI 할당(예: 0순위에는 64GB의 메모리를 할당하고 나머지 순위에는 1GB만 할당)을 통해 메모리 낭비 줄이기
  • 강화된 작업 배치 옵션으로 MPI 작업을 vnode별로 분산시킬 수 있고(예: NUMA 노드 또는 GPU) 호스트를 배타적으로 할당할 수 있음(예: Cray 시스템의 작업 및 SGI UV 시스템의 전용 시간)
  • 작업간 네트워크 경합을 최소화하는 동시에 애플리케이션 성능을 극대화하기 위한 토폴로지를 고려하는 스케줄링(노드 간 및 노드 내에서 둘 다). PBS Professional은 모든 HPC 네트워크 토폴로지(InfiniBand, SGI, Cray, IBM, GigE 등)에 대한 작업 배치를 최적화하여 애플리케이션 성능을 개선하고 네트워크 경합을 줄입니다.
  • 작업이 유사한 특성(예: 동일한 CPU 속도)을 가진 노드에 할당되도록 하는 노드 그룹화를 통해 하드웨어 이용 효율을 최대화(결과적으로 하나의 느린 노드로 인해 100-way MPI 작업이 느려지지 않음)


처리 속도, 활용, 낭비 최소화

  • 13.0의 새로운 기능: 하루에 백만 개 이상의 작업을 지원하는 빠른 처리량
  • Green Provisioning™: 에너지 절약을 위한 자동 리소스 종료/다시 시작(고객의 에너지 사용을 최대 30%까지 낮추는 것으로 입증됨)
  • 우선 순위가 가장 높은 작업의 지연 없이 낭비되는 주기를 없애는 Backfill TopN 스케줄링
  • 변화하는 작업부하 요구에 맞게 OS를 자동으로 변경하는 동적 OS 프로비저닝 후크
  • 특히, 계획된 시스템 중단 이전에 사용률을 극대화하는 STF(shrink-to-fit) 작업 - 수퍼컴퓨팅 센터 한 곳에서 불과 몇 달 만에 80만 시간이 넘는 유휴 CPU 시간 복구(또한 실제로 작업이 더 빨리 실행됨)
  • 작업 배열 덕분에 처리량이 극대화되어 작업을 무제한 스케줄링하고 실행 및 관리할 수 있음
  • 메타 스케줄링으로(알테어의 피어 스케줄링 기술 활용) 고유 클러스터 전체에 걸쳐 작업을 스케줄링하고 관리
  • 이종 노드(또는 전체 클러스터)를 "하나의 큰 클러스터"로 결합할 수 있어 고립을 해소하고 리소스의 추가적 공유를 통해 전체적인 활용도를 높이고 낭비를 줄임
  • 간접 리소스에 대해 세분화된 공유 가능(예: 랙당 하나의 스크래치 디스크)
  • 데스크톱 사이클 수집을 통해 데스크톱 시스템의 유휴 사이클을 이용하여 작업을 실행함으로써 낭비를 없애고 처리 속도를 높임. 야간 및 주말에 특히 유용
  • 부하 균형 조정으로 다수의 작업을 실행하는 시스템에 과도한 부하가 걸리지 않도록 함
  • 전체 CPU를 사용하지 않는 작업에서 추가적인 처리 속도를 달성하기 위해 코어보다 많은 작업을 실행하도록 하는 초과 작업 가능(노드 초과 할당)
  • 작업에 하드웨어 할당의 우선 순위를 결정하는 노드 정렬을 통해 사용 가능한 최적의 리소스 활용


개방 아키텍처 및 확장성

  • 표준: POSIX Batch 표준, EAL3+ 보안, 웹 서비스, Python, OGSA BES HPCBP
  • 광범위한 플랫폼 지원 - LINUX, UNIX 및 Windows
    • 13.0의 새로운 기능: Intel MPI 및 MPICH2(Windows) stdin, stdout 및 파일 스테이징에 대한 UNC 경로(Windows), SLES 12 및 RHEL 7
    • 13.0의 새로운 기능: SLES 12 support
    • 13.0의 새로운 기능: RHEL 7 support
  • MPI 작업에 대한 완벽한 사용 계정 관리를 포함하여 모든 주요 MPI 라이브러리에 대한 MPI 통합
  • 어디에서나 사용할 수 있는 Python을 통해 스크립트 하나를 모든 아키텍처에서 사용 가능(소스 코드 이용 가능)
  • 제출 필터링 후크를 통해 현장에서 실시간으로 기능을 변경하고 증강할 수 있음
  • 할당 관리 제한이 엄격히 시행되도록 하는 맞춤 가능한 “runjob” 후크
  • 작업 설정 시 실행할 수 있고 복잡한(및 맞춤형) 노드 상태 점검을 수행할 수 있는 병렬 프롤로그 유사 후크
  • 작업 완료 후, 호스트 해제 직전에 마지막 동작으로 실행하고 최종(맞춤형) 클린업 동작을 수행할 수 있는 병렬 에필로그 유사 후크
  • 노드 상태를 점검하고, 리소스 가용성과 사용을 측정 및 보고하며, 심지어 장애 노드를 재부팅/오프라인시킬 수 있는 주기적 노드 레벨 후크

 

* 현재 제한된 가용성 — 해당 사이트에서 이 기능을 구현하려는 경우 알테어에 문의해 주시기 바랍니다.

정보 요청하기



오늘 시작하세요!