버전: 0.1.0

Playground

이 페이지에서는 배포된 모델에 직접 메시지를 보내고, 여러 Serving를 나란히 비교하며 프롬프트와 파라미터를 실험할 수 있습니다. 서비스 배포 전 응답 품질 검증, 모델 간 비교, 파라미터 튜닝에 활용합니다.

좌측 사이드바의 Playground 항목을 클릭하면 Playground 페이지로 이동합니다. 페이지 상단의 Device / Model 탭으로 상단 상태 바 메트릭 종류를 전환할 수 있습니다. 두 탭 모두 동일한 채팅 UI를 제공하며, 상태 바에 표시되는 지표만 달라집니다.

탭	상태 바 지표
Device	하드웨어 메트릭 — CPU / 온도 / 전력 / 메모리
Model	추론 성능 메트릭 — TTFT / ITL / Output TPS / 전성비(tok/s/W)

아래는 GPU 배포를 선택한 Device 탭의 예시입니다. 채팅 전송 후 상단 상태 바에 사용률·온도·전력·메모리가 실시간으로 갱신되며, 상태 바를 클릭하면 최근 5분 시계열 차트를 확인할 수 있습니다.

Playground Device 탭 — GPU 배포 선택 후 실시간 하드웨어 지표

Device 탭

Device 탭에서는 기존 채팅 UI와 하드웨어 메트릭을 함께 확인할 수 있습니다.

Playground 멀티 패널

번호	설명
①	비교할 Serving 선택 드롭다운. OpenAI 호환 API를 지원하는 Serving만 표시됩니다
②	활성화 시 모든 패널에 동일한 메시지를 동시에 전송하여 응답을 비교합니다
③	System Prompt, Temperature, Max Tokens, Top P 등 추론 파라미터를 설정합니다
④	현재 패널의 메시지를 전송합니다. 응답은 SSE 스트리밍으로 수신됩니다
⑤	비교 패널을 추가합니다. 최대 4개까지 나란히 배치할 수 있습니다

Model 탭 — 추론 성능 메트릭

Model 탭은 Device 탭과 동일한 채팅 UI를 제공하며, 상단 상태 바가 하드웨어 메트릭 대신 LLM 추론 성능 지표로 교체됩니다. 채팅으로 모델에 요청을 보내면서 TTFT·TPS 등 서비스 응답 품질 지표를 실시간으로 확인할 수 있어, GPU와 NPU 배포 비교나 파라미터 튜닝 결과를 수치로 모니터링할 때 활용합니다.

PanelInferenceBar 상태 바에 다음 4개 지표가 실시간 표시됩니다.

지표	설명
TTFT(p50)	첫 번째 토큰이 생성되기까지의 중앙값 시간 (Time To First Token, 밀리초)
ITL(p50)	토큰 간 생성 간격 중앙값 (Inter-token Latency, 밀리초)
Output TPS	초당 출력 토큰 수 (Tokens Per Second)
Tokens/sec/Watt	소비 전력 1W당 생성 토큰 수 (전성비)

PanelInferenceBar를 클릭하면 최근 5분간의 시계열 팝오버가 표시됩니다. TTFT, ITL, Output TPS, tok/s/W 4개 라인 차트로 추세를 확인할 수 있습니다.

디바이스별 메트릭 소스

GPU(NVIDIA) 배포: vLLM 메트릭(vllm:*) + DCGM 전력 메트릭 사용
RNGD(Furiosa) 배포: furiosa-llm 메트릭(furiosa_llm_*) + furiosa_npu_hw_power 사용

메트릭 소스는 Serving에 할당된 가속기 유형에 따라 자동으로 분기됩니다.

Serving 선택 및 Sync

각 패널 상단의 ① Select Serving 드롭다운에서 비교할 Serving를 선택합니다. OpenAI 호환 API(/v1/chat/completions)를 지원하는 Serving만 목록에 표시됩니다.

② Sync 버튼을 활성화하면 모든 패널에 동일한 메시지를 동시에 전송하여 응답을 한 번에 비교할 수 있습니다.

파라미터 설정

③ Settings 버튼을 클릭하면 파라미터를 조정하거나 대화를 초기화할 수 있습니다.

파라미터	설명	범위	기본값
System Prompt	모델의 역할과 동작 방식을 정의하는 사전 지시문	—	—
Temperature	응답의 무작위성 조절. 높을수록 다양하고 창의적인 응답, 낮을수록 일관된 응답	0 – 2	0.7
Max Tokens	생성할 최대 토큰 수	1 – 4096	2048
Top P	상위 확률 토큰만 샘플링. Temperature와 함께 다양성 조절	0 – 1	1.0
Presence Penalty	이미 언급된 주제의 반복을 줄여 새로운 주제 유도	0 – 2	0.0
Frequency Penalty	같은 단어·구문의 반복 사용을 줄여 표현 다양화	0 – 2	0.0

Temperature vs Top P

일반적으로 Temperature와 Top P 중 하나만 조정합니다. 둘 다 기본값이 아닌 경우 예측하기 어려운 응답이 나올 수 있습니다.

Device 탭​

Model 탭 — 추론 성능 메트릭​

Serving 선택 및 Sync​

파라미터 설정​

Device 탭

Model 탭 — 추론 성능 메트릭

Serving 선택 및 Sync

파라미터 설정