본문으로 건너뛰기
버전: 0.1.0

Monitoring에서 지표 확인하기

NuFi의 Monitoring 메뉴에서 모델 서빙에 사용 중인 노드와 GPU/NPU 디바이스 상태를 확인합니다.


모니터링 대시보드 접속

좌측 사이드바에서 Monitoring을 클릭합니다. 화면 상단에는 전체 디바이스와 노드 요약이 표시되고, 아래에는 노드별 리소스 현황이 표시됩니다.


노드 선택

Node Overview에서 GPU 또는 RNGD 디바이스가 있는 노드를 클릭합니다. 노드를 선택하면 아래 Selected Node 영역에서 해당 노드의 상세 지표를 확인할 수 있습니다.

Monitoring — 노드 선택

확인할 수 있는 노드 지표는 다음과 같습니다.

지표설명
CPU노드 CPU 사용률
Memory노드 메모리 사용률
Disk노드 디스크 사용률
Net In노드 네트워크 수신 처리량
Net Out노드 네트워크 송신 처리량
Devices선택한 노드의 디바이스 사용 개수

우측 상단의 시간 범위 버튼(1h / 6h / 24h / 7d / 30d)을 바꾸면 시계열 그래프 범위가 함께 변경됩니다.


디바이스 상태 확인

Device Inventory는 선택한 노드에 설치된 디바이스 목록을 표시합니다. 디바이스 타입 필터와 할당 상태 필터를 사용해 원하는 디바이스만 볼 수 있습니다.

Monitoring — GPU 디바이스

디바이스 카드에서 확인할 수 있는 지표는 다음과 같습니다.

지표설명
UsageGPU/NPU 사용률
Memory디바이스 메모리 사용률
Temp디바이스 온도
Power전력 소비량
Allocated to이 디바이스를 사용 중인 Serving 또는 Lab

Allocated to에 Serving 또는 Lab 이름이 표시되면 해당 리소스를 클릭해 상세 페이지로 이동할 수 있습니다.

Device Inventory에서 디바이스 카드를 클릭하면 해당 디바이스의 Usage / Memory / Temperature / Power 시계열 그래프가 표시됩니다.

디바이스 상세 그래프

노드에 설치된 다른 Type의 Device들이 있다면 Tab으로 구분되어 출력됩니다.


튜토리얼 완료

서빙 모델의 응답과 클러스터 리소스 상태를 확인했습니다.