Monitoring
클러스터 노드 리소스와 GPU/NPU 디바이스 상태를 확인하는 방법을 안내합니다.
좌측 사이드바에서 Monitoring 메뉴를 클릭하면 노드 중심의 모니터링 화면이 표시됩니다.
화면 구성
Monitoring 화면은 위에서 아래 순서로 다음 영역으로 구성됩니다.
| 영역 | 설명 |
|---|---|
| Summary | 전체 디바이스, 사용 중인 디바이스, 미할당 디바이스, 노드 수를 요약합니다 |
| Node Overview | 노드별 CPU / Memory / Disk / Net In / Net Out과 디바이스 사용 개수를 표시합니다 |
| Selected Node | 선택한 노드의 상세 리소스 카드와 시계열 그래프를 표시합니다 |
| Device Inventory | 선택한 노드에 설치된 GPU/NPU 디바이스 목록을 표시합니다 |
우측 상단의 시간 버튼(1h / 6h / 24h / 7d / 30d)으로 노드 및 디바이스 시계열 그래프 범위를 조절할 수 있습니다.
Node Overview
Node Overview는 클러스터의 각 노드를 카드로 표시합니다. 노드 카드를 클릭하면 해당 노드가 선택되고, 아래 Selected Node와 Device Inventory가 선택한 노드 기준으로 갱신됩니다.
| 항목 | 설명 |
|---|---|
| CPU | 노드 CPU 사용률 |
| Memory | 노드 메모리 사용률 |
| Disk | 노드 디스크 사용률 |
| Net In | 노드 네트워크 수신 처리량 |
| Net Out | 노드 네트워크 송신 처리량 |
| Devices | 해당 노드의 디바이스 사용 개수 / 전체 디바이스 개수 |
Net In/Out은 Prometheus의 node exporter 네트워크 메트릭을 사용합니다. 메트릭이 수집되지 않는 환경에서는 -로 표시될 수 있습니다.
Selected Node
선택한 노드의 리소스 현황과 시계열 그래프를 표시합니다.

| 항목 | 설명 |
|---|---|
| CPU / Memory / Disk | 선택한 노드의 현재 사용률 |
| Net In / Net Out | 선택한 노드의 현재 네트워크 처리량 |
| Devices | 선택한 노드의 디바이스 사용 개수 |
| Node Metrics Over Time | CPU / Memory / Disk / Net In / Net Out 시계열 그래프 |
Device Inventory
Device Inventory는 선택한 노드에 설치된 GPU/NPU 디바이스를 표시합니다. 상단 필터로 디바이스 타입과 할당 상태를 좁힐 수 있습니다.

| 항목 | 설명 |
|---|---|
| 디바이스 타입 필터 | GPU, RNGD 등 디바이스 종류별로 목록을 필터링합니다 |
| 할당 상태 필터 | 전체 / 사용 중 / 미할당 상태로 목록을 필터링합니다 |
| 디바이스 카드 | 개별 디바이스의 Usage / Memory / Temperature / Power와 할당 정보를 표시합니다 |
| Allocated to | 디바이스를 사용 중인 Serving 또는 Lab 리소스를 표시합니다 |
Allocated to에 표시된 Serving 또는 Lab 리소스를 클릭하면 해당 리소스의 상세 페이지로 이동합니다. 권한이 없거나 로그인하지 않은 상태에서는 클릭할 수 없는 텍스트로 표시됩니다.
Device Inventory에서 디바이스 카드를 클릭하면 해당 디바이스의 Usage / Memory / Temperature / Power 시계열 그래프가 표시됩니다.

이상 징후 대응
모니터링 중 다음 상황이 발생하면 아래 조치를 취하세요.
| 증상 | 조치 |
|---|---|
| 디바이스 온도 과열 | 배포 고급 설정의 Temperature Policy를 확인하고, 임계값 초과 시 자동 스케일다운 또는 트래픽 제한이 적용되는지 점검합니다. |
| 가속기 사용률 지속 100% | 모델 배포에서 Replica 수를 늘리거나 Auto Scaling 설정을 조정합니다. |
| 노드 CPU·메모리·디스크 부족 | 불필요한 Serving 또는 Lab을 중지하고, 스토리지에서 사용하지 않는 볼륨을 정리합니다. |
| Net In/Out 급증 | 대용량 모델 다운로드, 데이터셋 import, 외부 요청 증가 여부를 확인하고 해당 Serving/Lab의 상세 페이지에서 로그와 리소스 사용량을 점검합니다. |