본문으로 건너뛰기

배포 고급 설정

Deployment 상세 페이지의 Settings 탭에서 추론 서버, 트래픽, Transformer를 설정합니다.

Inference Server 기본 설정

설정설명기본값
Replicas레플리카 수 조정1
Auto Scaling트래픽 부하에 따라 Pod 수 자동 조절Off
Readiness EndpointPod가 트래픽 받을 준비 여부 확인 엔드포인트-
Liveness EndpointPod 정상 동작 여부 확인. 반복 실패 시 자동 재시작-

Auto Scaling 활성화 시 추가 설정:

Auto Scaling 활성화 설정

설정설명기본값
Min Replicas항상 유지할 최소 Pod 수1
Scale-in Delay (s)트래픽 감소 후 Pod 축소까지 대기 시간 (flapping 방지)60
Max Replicas최대 Pod 수 (클러스터 가속기 여유분 고려 필요)10
Target Response Time (ms)자동 확장 기준 P95 응답 시간 목표값. 초과 시 Pod 증가5000

다음 단계