본문으로 건너뛰기
버전: 0.1.0

Serving Settings

Serving 상세 페이지의 Settings 탭에서 추론 서버, 트래픽, Transformer를 설정합니다.

Auto Scaling은 요청 부하에 따라 Pod 수를 자동으로 늘리거나 줄이는 기능입니다. 트래픽이 불규칙하거나 예측하기 어려운 서비스에 적합합니다. 고정된 수의 Pod를 항상 유지하려면 비활성화하고 Replicas만 조정하세요.

Inference Server 기본 설정

설정설명기본값
Replicas레플리카 수 조정1
Auto Scaling트래픽 부하에 따라 Pod 수 자동 조절Off
Readiness EndpointPod가 트래픽 받을 준비 여부 확인 엔드포인트 (예: /health, /v1/models)-
Liveness EndpointPod 정상 동작 여부 확인. 반복 실패 시 자동 재시작 (예: /health, /healthz)-

Auto Scaling 활성화 시 추가 설정:

Auto Scaling 활성화 설정

설정설명기본값
Min Replicas항상 유지할 최소 Pod 수. 0으로 설정하면 트래픽이 없을 때 Pod가 완전히 종료되어 리소스를 절약할 수 있지만, 새 요청 시 Pod 기동까지 cold start 지연(수십 초~수 분)이 발생합니다.1
Scale-in Delay (s)트래픽 감소 후 Pod 축소까지 대기 시간 (flapping 방지)60
Max Replicas최대 Pod 수 (클러스터 가속기 여유분 고려 필요)10
Target Response Time (ms)자동 확장 기준 P95 응답 시간 목표값. 초과 시 Pod 증가5000