배포 고급 설정

Deployment 상세 페이지의 Settings 탭에서 추론 서버, 트래픽, Transformer를 설정합니다.

Inference Server 기본 설정

Auto Scaling 활성화 시 추가 설정:

Auto Scaling 활성화 설정

설정	설명	기본값
Min Replicas	항상 유지할 최소 Pod 수	1
Scale-in Delay (s)	트래픽 감소 후 Pod 축소까지 대기 시간 (flapping 방지)	60
Max Replicas	최대 Pod 수 (클러스터 가속기 여유분 고려 필요)	10
Target Response Time (ms)	자동 확장 기준 P95 응답 시간 목표값. 초과 시 Pod 증가	5000

Traffic Management 기본 설정

기능	설명	기본값
Load Balancing	여러 Pod로 요청 분산	Off
Temperature Policy	GPU/NPU 온도 임계값 초과 시 해당 Pod 트래픽 자동 차단, 회복 시 재개	Off
Async Queue	Redis 기반 비동기 요청 큐 활성화	Off

Load Balancing 활성화 시 Policy 드롭다운이 나타납니다:

Load Balancing 활성화

Temperature Policy 활성화 시 임계값 설정이 나타납니다:

Temperature Policy 활성화

설정	설명	기본값
Critical Threshold (°C)	트래픽 차단 온도 기준	85
Recovery Threshold (°C)	트래픽 재개 온도 기준	70

Transformer 기본 설정

추론 요청 전/후에 사이드카 컨테이너를 거치도록 설정합니다.

기능	설명
Enable Preprocessor	요청 → 전처리 사이드카 → 추론 서버
Enable Postprocessor	추론 서버 → 후처리 사이드카 → 클라이언트

Preprocessor / Postprocessor 활성화 시 컨테이너 설정:

Preprocessor 활성화 설정

다음 단계