Model Compilations
Model Registry에 등록된 모델을 NPU 전용 바이너리로 자동 변환합니다. 변환이 완료되면 결과 아티팩트가 Model Registry에 자동 등록되어 바로 배포할 수 있습니다.
사전 조건
- NuFi Model Registry에 모델과 버전이 등록되어 있어야 합니다.
- 변환 대상 아티팩트의 platform이
rngd가 아닌 원본 포맷(예:safetensors)이어야 합니다. - 클러스터에 충분한 CPU 및 메모리 리소스가 있어야 합니다.
NPU 컴파일 진입 경로
NPU 컴파일은 모델 버전 상세 페이지에서 시작합니다.
- 좌측 사이드바에서 Models를 클릭하여 모델 목록 페이지로 이동합니다.
- 컴파일할 모델 행을 클릭하여 모델 상세 페이지로 이동한 뒤, 컴파일할 버전 행을 클릭하여 버전 상세 페이지로 이동합니다.
- 버전 상세 페이지에서 다음 두 가지 방식으로 컴파일을 시작할 수 있습니다.
- Compilations 탭의 Quick Compile 버튼 클릭
- Artifacts 탭의 각 행 우측
아이콘 클릭 (해당 아티팩트가 자동 선택된 상태로 생성 다이얼로그가 열림)
NPU 컴파일 목록
버전 상세 페이지의 Compilations 탭에서 해당 버전에 대한 컴파일 이력을 확인할 수 있습니다.

컬럼
| 컬럼 | 설명 |
|---|---|
| Platform | 대상 NPU 플랫폼 |
| Hash | 컴파일 옵션 해시 (동일 옵션 식별용) |
| Config | 컴파일 옵션이 저장된 이력은 보기 버튼을 표시합니다. 버튼을 클릭하면 컴파일 설정 다이얼로그에서 Max Seq Len, Tensor Parallel, Pipeline Parallel, Prefill Buckets, Decode Buckets, Tokenwise Seq Lens를 확인할 수 있습니다. 설정 정보가 없는 기존 이력은 -로 표시됩니다. |
| Phase | 현재 파이프라인 상태 |
| Created | 생성 시간 |
상태
| Phase | 설명 | 비정상 대응 |
|---|---|---|
| Pending | 파이프라인이 스케줄 대기 중 | 클러스터 리소스가 충분한지 확인하세요. |
| Running | 컴파일 스텝이 실행 중 | — |
| Succeeded | 컴파일 완료. NPU 아티팩트가 Model Registry에 등록됨 | — |
| Failed | 하나 이상의 스텝이 실패 | 상세 페이지에서 실패 스텝 로그를 확인하고 재시도 버튼으로 재실행하세요. |
| Registered | 컴파일 결과가 Model Registry에 등록 완료 | — |
액션 아이콘
행 우측의 아이콘은 좌측부터 다음과 같습니다.
| 아이콘 | 기능 | 설명 |
|---|---|---|
| Re-compile | 해당 파이프라인의 컴파일 옵션이 사전 입력된 생성 다이얼로그를 엽니다. 기존 run은 이력으로 보존됩니다. Pending/Running 상태이거나 저장된 컴파일 옵션이 없는 이력에서는 비활성화됩니다. | |
| Delete | 해당 컴파일 이력을 삭제합니다. 확인 다이얼로그에서 승인하면 파이프라인과 이력이 영구적으로 삭제됩니다. |
파이프라인 생성
Compile 버튼을 클릭하면 생성 다이얼로그가 열립니다.

고정된 설정
다이얼로그 상단의 고정된 설정 영역에는 진입 시점에 결정된 컴파일 대상 정보가 표시됩니다. 사용자가 변경할 수 없습니다.
| 항목 | 설명 |
|---|---|
| Model | 진입한 버전 상세 페이지의 모델 이름 |
| Version | 진입한 버전 |
| Base Artifact | 변환 대상 아티팩트. Compilations 탭의 Quick Compile로 진입하면 해당 버전의 원본 아티팩트(예: original)가, Artifacts 탭의 CPU 아이콘으로 진입하면 클릭한 아티팩트가 자동 선택됩니다. |
플랫폼 선택
| 필드 | 설명 | 필수 |
|---|---|---|
| Platform | 대상 NPU 플랫폼 선택 (예: RNGD) | ✓ |
리소스 설정
| 필드 | 설명 |
|---|---|
| CPU Request | 컴파일 Job에 할당할 CPU 코어 수 |
| Memory Request | 컴파일 Job에 할당할 메모리 크기 |
컴파일 설정
| 필드 | 설명 |
|---|---|
| Max Context Length | 모델이 처리할 최대 컨텍스트 토큰 수. 길수록 메모리 요구량이 증가합니다. |
| Tensor Parallel | 텐서를 병렬로 처리할 NPU 내부 core 수. 일반적으로 4의 배수로 설정합니다. |
| Pipeline Parallel | 파이프라인 병렬 단계 수. 모델 레이어를 여러 NPU에 분산합니다. |
| Prefill Buckets | Prefill 단계 시퀀스 길이 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,128, 1,512 |
| Decode Buckets | Decode 단계 배치 크기 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,512, 1,1024 |
| Tokenwise Seq Lens | 토큰 생성 시 사용할 메모리 공간 윈도우 크기. 컴파일 시간과 직결됩니다. 일반적으로 설정한 128부터 Max Context Length까지의 2의 제곱승 수들을 전부 포함시킵니다. 예: 128,256,512,1024,2048,4096 |
| 추가 Args | 컴파일러에 직접 전달할 추가 인자. RNGD는 현재 추가 인자를 지원하지 않습니다. |
| 환경 변수 | 컴파일 Job 컨테이너에 주입할 환경 변수. KEY=VALUE 형식으로 한 줄에 하나씩 입력하거나, .env 파일을 드래그·업로드할 수 있습니다. Hugging Face 게이티드 모델처럼 인증 토큰이 필요한 경우 HF_TOKEN=hf_... 형식으로 추가하세요. |
- Tensor Parallel / Pipeline Parallel: 보유한 NPU 장치 수에 맞게 설정합니다. 단일 NPU를 사용한다면 Tensor Parallel은
8, Pipeline Parallel은1로 설정하세요. RNGD 기준 NPU 당 8개의 core를 가집니다. - Prefill / Decode Buckets: 실제 서비스에서 예상되는 입력 길이 분포에 맞게 설정합니다. 버킷이 많을수록 컴파일 시간과 바이너리 크기가 증가합니다.
Platform으로 RNGD를 선택하면 추가 Args 입력이 자동으로 비활성화되고 'Python SDK · args 미지원' 안내 배지가 표시됩니다. RNGD 컴파일은 Python SDK(ArtifactBuilder)를 사용하며 추가 인자를 지원하지 않습니다. RNGD로 플랫폼을 전환하면 이미 입력된 추가 Args 값은 자동으로 초기화됩니다.

위 화면과 같이, RNGD 플랫폼을 선택하면 추가 Args 입력란 옆에 'Python SDK · args 미지원' 배지가 표시되고 입력란이 자동으로 비활성화됩니다.
생성 버튼을 클릭하면 파이프라인이 시작됩니다.
파이프라인 상세
목록에서 파이프라인 행을 클릭하면 상세 페이지로 이동합니다.

상세 페이지는 2-step 타임라인으로 구성됩니다.
| 스텝 | 설명 |
|---|---|
| 컴파일 | 모델을 NPU 전용 바이너리로 변환합니다. |
| Artifact 파일 검증 | 컴파일 스텝이 생성한 아티팩트 파일이 예상 경로에 존재하는지만 확인합니다. 실제 디바이스에 로드하거나 추론을 수행하지는 않습니다. atomic publish가 이 단계에서 수행됩니다. |
각 스텝 카드에는 다음 정보가 표시됩니다.
| 항목 | 설명 |
|---|---|
| Phase | 스텝의 현재 상태 (Pending / Running / Succeeded / Failed) |
| 시작 / 종료 시간 | 스텝 실행 시작 및 종료 타임스탬프 |
| 소요 시간 | 스텝 실행에 걸린 시간 |
| Retry Count | 재시도 횟수 (1회 이상 재시도한 경우에만 표시) |
| Output Files | 스텝이 생성한 출력 파일 목록 |
| 로그 링크 | 해당 스텝의 상세 로그 보기 링크 |
스텝 단위 재시도: 파이프라인 전체가 Failed 상태일 때, 실패한 각 스텝 카드의 재시도 버튼으로 해당 스텝만 독립적으로 다시 실행할 수 있습니다. 예를 들어 Artifact 파일 검증 스텝만 실패한 경우 컴파일 스텝을 다시 실행하지 않고 검증 스텝만 재시도할 수 있습니다.
컴파일 + 검증 두 스텝이 모두 Succeeded 상태가 되면, 컴파일된 NPU 아티팩트가 Model Registry의 원본 버전에 자동으로 추가됩니다. 이후 해당 아티팩트로 Quick Deploy를 실행할 수 있습니다.
컴파일 설정 확인
상세 페이지의 Meta 정보 카드 아래에 컴파일 설정 카드가 표시됩니다. 파이프라인 생성 시 사용된 컴파일 옵션 전체를 여기서 확인할 수 있습니다.

| 필드 | 설명 |
|---|---|
| Max Seq Len | 컴파일 시 설정된 최대 컨텍스트 토큰 수 |
| Tensor Parallel | 텐서 병렬 처리 NPU core 수 |
| Pipeline Parallel | 파이프라인 병렬 단계 수 |
| Prefill Buckets | Prefill 단계 시퀀스 길이 버킷 목록 |
| Decode Buckets | Decode 단계 배치 크기 버킷 목록 |
| Tokenwise Seq Lens | 토큰 생성 시 메모리 공간 윈도우 크기 목록 |