버전: 0.1.0

Monitoring

클러스터 노드 리소스와 GPU/NPU 디바이스 상태를 확인하는 방법을 안내합니다.

좌측 사이드바에서 Monitoring 메뉴를 클릭하면 노드 중심의 모니터링 화면이 표시됩니다.

화면 구성

Monitoring 화면은 위에서 아래 순서로 다음 영역으로 구성됩니다.

영역	설명
Summary	전체 디바이스, 사용 중인 디바이스, 미할당 디바이스, 노드 수를 요약합니다
Node Overview	노드별 CPU / Memory / Disk / Net In / Net Out과 디바이스 사용 개수를 표시합니다
Selected Node	선택한 노드의 상세 리소스 카드와 시계열 그래프를 표시합니다
Device Inventory	선택한 노드에 설치된 GPU/NPU 디바이스 목록을 표시합니다

우측 상단의 시간 버튼(1h / 6h / 24h / 7d / 30d)으로 노드 및 디바이스 시계열 그래프 범위를 조절할 수 있습니다.

Node Overview는 클러스터의 각 노드를 카드로 표시합니다. 노드 카드를 클릭하면 해당 노드가 선택되고, 아래 Selected Node와 Device Inventory가 선택한 노드 기준으로 갱신됩니다.

팁

Net In/Out은 Prometheus의 node exporter 네트워크 메트릭을 사용합니다. 메트릭이 수집되지 않는 환경에서는 -로 표시될 수 있습니다.

선택한 노드의 리소스 현황과 시계열 그래프를 표시합니다.

선택 노드 상세 시계열 그래프

항목	설명
CPU / Memory / Disk	선택한 노드의 현재 사용률
Net In / Net Out	선택한 노드의 현재 네트워크 처리량
Devices	선택한 노드의 디바이스 사용 개수
Node Metrics Over Time	CPU / Memory / Disk / Net In / Net Out 시계열 그래프

Device Inventory는 선택한 노드에 설치된 GPU/NPU 디바이스를 표시합니다. 상단 필터로 디바이스 타입과 할당 상태를 좁힐 수 있습니다.

모니터링 Device

항목	설명
디바이스 타입 필터	GPU, RNGD 등 디바이스 종류별로 목록을 필터링합니다
할당 상태 필터	전체 / 사용 중 / 미할당 상태로 목록을 필터링합니다
디바이스 카드	개별 디바이스의 Usage / Memory / Temperature / Power와 할당 정보를 표시합니다
Allocated to	디바이스를 사용 중인 Serving 또는 Lab 리소스를 표시합니다

Allocated to 링크

Allocated to에 표시된 Serving 또는 Lab 리소스를 클릭하면 해당 리소스의 상세 페이지로 이동합니다. 권한이 없거나 로그인하지 않은 상태에서는 클릭할 수 없는 텍스트로 표시됩니다.

Device Inventory에서 디바이스 카드를 클릭하면 해당 디바이스의 Usage / Memory / Temperature / Power 시계열 그래프가 표시됩니다.

디바이스 상세 그래프

모니터링 중 다음 상황이 발생하면 아래 조치를 취하세요.

증상	조치
디바이스 온도 과열	배포 고급 설정의 Temperature Policy를 확인하고, 임계값 초과 시 자동 스케일다운 또는 트래픽 제한이 적용되는지 점검합니다.
가속기 사용률 지속 100%	모델 배포에서 Replica 수를 늘리거나 Auto Scaling 설정을 조정합니다.
노드 CPU·메모리·디스크 부족	불필요한 Serving 또는 Lab을 중지하고, 스토리지에서 사용하지 않는 볼륨을 정리합니다.
Net In/Out 급증	대용량 모델 다운로드, 데이터셋 import, 외부 요청 증가 여부를 확인하고 해당 Serving/Lab의 상세 페이지에서 로그와 리소스 사용량을 점검합니다.