본문으로 건너뛰기

모델 배포하기

AI 모델을 NPU/GPU 기반 추론 서비스로 배포하고 관리하는 방법을 안내합니다.

Deployment 목록

Deployment 목록

좌측 사이드바에서 Deployment를 클릭합니다.

버튼설명
Create새 Deployment 생성
Connect동적 Endpoint 접속
Playground채팅 UI로 모델 테스트
DeleteDeployment 삭제

Deployment 생성

Create 버튼을 눌러 생성 페이지로 이동합니다. 생성은 3단계로 진행됩니다.

Deployment 생성 - 기본 정보

필드설명필수
Service NameDeployment 이름 (소문자, 숫자, 하이픈, 최대 63자)
DescriptionDeployment 설명-
Service Template추론 프레임워크 선택

Deployment 상세 페이지

Deployment 목록에서 항목을 클릭하면 상세 페이지로 이동합니다.

Deployment 상세 - Overview

카드정보
StatusReady Replicas, Health 상태
Container사용 중인 이미지
ResourcesCPU, Memory, GPU/NPU 정보
Created생성 시간
Auto Scaling자동 스케일링 설정 (Settings에서 활성화 시 출력)
Traffic Management트래픽 관리 설정 카드
Load Balancing로드밸런싱 설정 (Settings에서 활성화 시 출력)
Temperature Policy온도 기반 트래픽 제어 (Settings에서 활성화 시 출력)
Async Queue비동기 요청 설정 (Settings에서 활성화 시 출력)

네이밍 규칙

  • 소문자 영문, 숫자, 하이픈(-) 사용 가능
  • 하이픈으로 시작하거나 끝날 수 없음
  • 최대 63자 (Kubernetes 제한)

예시: my-model-v1, llm-server-prod


지원 가속기

가속기리소스 키사용 가능 기능
NVIDIA GPUnvidia.com/gpuLab, Deployment
Rebellions ATOMrebellions.ai/ATOMLab, Deployment
Furiosa RNGDfuriosa.ai/rngdLab, Deployment

다음 단계