본문으로 건너뛰기
버전: 0.1.0

Serving

AI 모델을 NPU/GPU 기반 추론 서비스로 배포하고 관리하는 방법을 안내합니다.

Serving 목록

좌측 사이드바에서 Development > Serving을 클릭합니다.

Serving 목록

Connect 버튼을 클릭하면 배포한 서비스에 접속하기 위한 엔드포인트 URL을 확인할 수 있습니다. https://<host>/<project>/<deployment-name> 형식의 추론 엔드포인트 URL이 표시되며, 이 URL에 추론 프레임워크의 API 경로(예: /v1/chat/completions)를 붙여 외부에서 모델 추론 요청을 보낼 수 있습니다.

상태

상태설명비정상 대응
Ready모든 Pod이 Ready 상태. 서비스 정상 운영 중
StartingPod이 시작 중. 모델 로딩 등으로 아직 Ready가 아닌 상태잠시 대기하세요. 오래 지속되면 로그를 확인하세요.
Degraded일부 Pod만 Ready. 요청은 처리되지만 전체 성능이 저하됨실패 Pod의 로그 및 이벤트를 확인하세요.
Error하나 이상의 Pod이 CrashLoopBackOff 등 오류 상태Status 컬럼 클릭 → popover에서 failureReason 및 로그 확인
PendingPod이 스케줄되지 않음. 리소스 부족 또는 이미지 Pull 실패클러스터 리소스 현황 및 이미지 설정을 확인하세요.
Scaled DownReplica가 0으로 축소된 상태필요 시 Replicas를 1 이상으로 변경하세요.

Status 컬럼 hover 또는 클릭 시 Pod 상태 popover가 표시됩니다. popover에는 주 에러 reason, Ready 카운트, 실패 Pod 목록과 각 Pod의 View logs 링크(새 탭, Logs 탭으로 이동)가 포함됩니다.


Serving 생성

Create 버튼을 눌러 생성 페이지로 이동합니다. 생성은 3단계로 진행됩니다.

Serving 생성 - 기본 정보

필드설명필수
Service NameServing 이름 (소문자, 숫자, 하이픈, 최대 63자)
DescriptionServing 설명-
Service Template추론 프레임워크 선택

Serving 상세 페이지

Serving 목록에서 항목을 클릭하면 상세 페이지로 이동합니다. Overview 탭 우측 상단의 Edit 버튼을 클릭하면 편집 모드로 전환되며, 변경 후 화면 하단의 Floating Save Bar에서 Save Changes 버튼을 클릭하여 적용합니다. Pod 재시작이 필요한 변경(이미지, 포트, 리소스, 볼륨 등)이 포함된 경우 확인 다이얼로그가 표시됩니다.

Serving 상세 - Overview 편집 모드

카드 구성

카드설명
StatusReady Replicas, Health, Auto Scaling, 생성 시각
Basic InformationServing 이름, 설명
Container컨테이너 이미지, 추론 포트
ResourcesCPU, Memory, 가속기 유형/개수, Replicas
Command & Arguments컨테이너 시작 명령어 및 인자
Environment Variables환경변수 목록
Volumes마운트된 PVC 목록
Transformer전/후처리 사이드카 설정
PodsPod별 상태 테이블 — 실패 Pod 우선 정렬

Pods 섹션

Serving 상세 — Pods 섹션

Pod별 상태, 노드, 재시작 횟수, Age, 실패 이유를 테이블로 표시합니다.

컬럼설명
StatusPod의 현재 상태 (Running / Pending / CrashLoopBackOff 등)
NodePod이 스케줄된 노드 이름
Restarts컨테이너 재시작 횟수
AgePod 생성 후 경과 시간
ReasonReady=false 또는 오류 시 실패 원인 메시지
View logsReady=false이거나 restartCount > 0인 Pod에 표시되는 로그 링크. 클릭 시 새 탭에서 해당 Pod의 Logs 탭으로 이동

실패 Pod은 테이블 상단에 우선 정렬됩니다.


네이밍 규칙

  • 소문자 영문, 숫자, 하이픈(-) 사용 가능
  • 하이픈으로 시작하거나 끝날 수 없음
  • 최대 63자 (Kubernetes 제한)

예시: my-model-v1, llm-server-prod


지원 가속기

가속기리소스 키사용 가능 기능
NVIDIA GPUnvidia.com/gpuLab, Serving
Furiosa RNGDfuriosa.ai/rngdLab, Serving