버전: Next

모델 서빙 배포

컴파일된 아티팩트를 사용하여 NPU 또는 GPU 기반 추론 서비스를 배포합니다.

NPU 서빙 배포

컴파일된 RNGD 아티팩트를 사용하여 NPU 기반 추론 서비스를 배포합니다.

1. 모델 선택

좌측 사이드바에서 Resources > Models를 클릭하고 03. 모델 다운로드에서 다운로드한 qwen-instruct-tutorial 모델을 선택합니다.

2. Quick Deploy

모델 상세 페이지에서 Quick Deploy 버튼을 클릭합니다.

목록에 있는 버전을 클릭하여 상세 페이지로 들어가면 컴파일된 내역을 확인할 수 있으며, 해당 페이지에서도 배포가 가능합니다.

3. 배포 설정 입력

Quick Deploy 폼 — RNGD 선택

4. Running 상태 확인

좌측 사이드바에서 Development > Serving을 클릭하여 tutorial-npu-serving의 상태가 Running이 되는지 확인합니다.

Serving 목록 — NPU Running

사전 조건

클러스터에 Nvidia GPU 노드가 있어야 합니다. GPU 노드가 없으면 이 단계를 건너뛰세요.

NPU 서빙 배포와 동일하게 진행하되, 3. 배포 설정 입력에서 Artifact를 base(GPU)로 선택합니다.

→ 08. Playground 테스트 — NPU/GPU 응답 품질 및 속도 비교
→ 09. 모니터링 지표 확인 — 실시간 서빙 메트릭 대시보드 확인