본문으로 건너뛰기
버전: 0.1.0

Monitoring

클러스터 노드 리소스와 GPU/NPU 디바이스 상태를 확인하는 방법을 안내합니다.

좌측 사이드바에서 Monitoring 메뉴를 클릭하면 노드 중심의 모니터링 화면이 표시됩니다.

화면 구성

Monitoring 화면은 위에서 아래 순서로 다음 영역으로 구성됩니다.

영역설명
Summary전체 디바이스, 사용 중인 디바이스, 미할당 디바이스, 노드 수를 요약합니다
Node Overview노드별 CPU / Memory / Disk / Net In / Net Out과 디바이스 사용 개수를 표시합니다
Selected Node선택한 노드의 상세 리소스 카드와 시계열 그래프를 표시합니다
Device Inventory선택한 노드에 설치된 GPU/NPU 디바이스 목록을 표시합니다

우측 상단의 시간 버튼(1h / 6h / 24h / 7d / 30d)으로 노드 및 디바이스 시계열 그래프 범위를 조절할 수 있습니다.


Node Overview

Node Overview는 클러스터의 각 노드를 카드로 표시합니다. 노드 카드를 클릭하면 해당 노드가 선택되고, 아래 Selected NodeDevice Inventory가 선택한 노드 기준으로 갱신됩니다.

항목설명
CPU노드 CPU 사용률
Memory노드 메모리 사용률
Disk노드 디스크 사용률
Net In노드 네트워크 수신 처리량
Net Out노드 네트워크 송신 처리량
Devices해당 노드의 디바이스 사용 개수 / 전체 디바이스 개수

Net In/Out은 Prometheus의 node exporter 네트워크 메트릭을 사용합니다. 메트릭이 수집되지 않는 환경에서는 -로 표시될 수 있습니다.

Selected Node

선택한 노드의 리소스 현황과 시계열 그래프를 표시합니다.

선택 노드 상세 시계열 그래프

항목설명
CPU / Memory / Disk선택한 노드의 현재 사용률
Net In / Net Out선택한 노드의 현재 네트워크 처리량
Devices선택한 노드의 디바이스 사용 개수
Node Metrics Over TimeCPU / Memory / Disk / Net In / Net Out 시계열 그래프

Device Inventory

Device Inventory는 선택한 노드에 설치된 GPU/NPU 디바이스를 표시합니다. 상단 필터로 디바이스 타입과 할당 상태를 좁힐 수 있습니다.

모니터링 Device

항목설명
디바이스 타입 필터GPU, RNGD 등 디바이스 종류별로 목록을 필터링합니다
할당 상태 필터전체 / 사용 중 / 미할당 상태로 목록을 필터링합니다
디바이스 카드개별 디바이스의 Usage / Memory / Temperature / Power와 할당 정보를 표시합니다
Allocated to디바이스를 사용 중인 Serving 또는 Lab 리소스를 표시합니다
Allocated to 링크

Allocated to에 표시된 Serving 또는 Lab 리소스를 클릭하면 해당 리소스의 상세 페이지로 이동합니다. 권한이 없거나 로그인하지 않은 상태에서는 클릭할 수 없는 텍스트로 표시됩니다.

Device Inventory에서 디바이스 카드를 클릭하면 해당 디바이스의 Usage / Memory / Temperature / Power 시계열 그래프가 표시됩니다.

디바이스 상세 그래프


이상 징후 대응

모니터링 중 다음 상황이 발생하면 아래 조치를 취하세요.

증상조치
디바이스 온도 과열배포 고급 설정의 Temperature Policy를 확인하고, 임계값 초과 시 자동 스케일다운 또는 트래픽 제한이 적용되는지 점검합니다.
가속기 사용률 지속 100%모델 배포에서 Replica 수를 늘리거나 Auto Scaling 설정을 조정합니다.
노드 CPU·메모리·디스크 부족불필요한 Serving 또는 Lab을 중지하고, 스토리지에서 사용하지 않는 볼륨을 정리합니다.
Net In/Out 급증대용량 모델 다운로드, 데이터셋 import, 외부 요청 증가 여부를 확인하고 해당 Serving/Lab의 상세 페이지에서 로그와 리소스 사용량을 점검합니다.