NPU 포팅 파이프라인
Model Registry에 등록된 모델을 NPU 전용 바이너리로 자동 변환합니다. 변환이 완료되면 결과 아티팩트가 Model Registry에 자동 등록되어 바로 배포할 수 있습니다.
사전 조건
- NuFi Model Registry에 모델과 버전이 등록되어 있어야 합니다.
- 변환 대상 아티팩트의 platform이
rngd가 아닌 원본 포맷(예:safetensors)이어야 합니다. - 클러스터에 충분한 CPU 및 메모리 리소스가 있어야 합니다.
NPU 포팅 파이프라인 목록
좌측 사이드바에서 Porting을 클릭합니다.

컬럼
| 컬럼 | 설명 |
|---|---|
| Name | 파이프라인 이름 |
| Model / Version / Artifact | 변환 대상 모델·버전·아티팩트 |
| Platform | 대상 NPU 플랫폼 |
| Phase | 현재 파이프라인 상태 |
| Created | 생성 시간 |
Phase 상태
| Phase | 설명 | 비정상 대응 |
|---|---|---|
| Pending | 파이프라인이 스케줄 대기 중 | 클러스터 리소스가 충분한지 확인하세요. |
| Running | 컴파일 스텝이 실행 중 | — |
| Succeeded | 컴파일 완료. NPU 아티팩트가 Model Registry에 등록됨 | — |
| Failed | 하나 이상의 스텝이 실패 | 상세 페이지에서 실패 스텝 로그를 확인하고 Retry 버튼으로 재실행하세요. |
| Registered | 컴파일 결과가 Model Registry에 등록 완료 | — |
버튼
| 버튼 | 설명 |
|---|---|
| ① Create | 새 NPU 포팅 파이프라인 생성 다이얼로그 실행 |
| ② Re-compile | 기존 파이프라인과 동일한 설정으로 새 포팅 파이프라인을 다시 생성합니다. Succeeded / Failed 상태에서 사용 가능합니다. |
| ③ Delete | 파이프라인 삭제 |
Phase 필터 버튼(All / Pending / Running / Succeeded / Failed / Registered)으로 목록을 필터링할 수 있습니다.
파이프라인 생성
Create 버튼을 클릭하면 생성 다이얼로그가 열립니다.

모델 선택
| 필드 | 설명 | 필수 |
|---|---|---|
| Model | 변환할 모델 선택 | ✓ |
| Version | 모델 버전 선택 (모델 선택 후 활성화) | ✓ |
| Artifact | 변환할 아티팩트 선택 (버전 선택 후 활성화) | ✓ |
| Platform | 대상 NPU 플랫폼 선택 | ✓ |
리소스 설정
| 필드 | 설명 |
|---|---|
| CPU Request | 컴파일 Job에 할당할 CPU 코어 수 |
| Memory Request | 컴파일 Job에 할당할 메모리 크기 |
컴파일 설정
| 필드 | 설명 |
|---|---|
| Max Context Length | 모델이 처리할 최대 컨텍스트 토큰 수. 길수록 메모리 요구량이 증가합니다. |
| Tensor Parallel | 텐서를 병렬로 처리할 NPU 내부 core 수. 일반적으로 4의 배수로 설정합니다. |
| Pipeline Parallel | 파이프라인 병렬 단계 수. 모델 레이어를 여러 NPU에 분산합니다. |
| Prefill Buckets | Prefill 단계 시퀀스 길이 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,128, 1,512 |
| Decode Buckets | Decode 단계 배치 크기 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,512, 1,1024 |
| Tokenwise Seq Lens | 토큰 생성 시 사용할 메모리 공간 윈도우 크기. 컴파일 시간과 직결됩니다. 일반적으로 설정한 128부터 Max Context Length까지의 2의 제곱승 수들을 전부 포함시킵니다. 예: 128,256,512,1024,2048,4096 |
| 추가 Args | 컴파일러에 직접 전달할 추가 인자. RNGD는 현재 추가 인자를 지원하지 않습니다. |
컴파일 설정 선택 기준
- Tensor Parallel / Pipeline Parallel: 보유한 NPU 장치 수에 맞게 설정합니다. 단일 NPU를 사용한다면 Tensor Parallel은
8, Pipeline Parallel은1로 설정하세요. RNGD 기준 NPU 당 8개의 core를 가집니다. - Prefill / Decode Buckets: 실제 서비스에서 예상되는 입력 길이 분포에 맞게 설정합니다. 버킷이 많을수록 컴파일 시간과 바이너리 크기가 증가합니다.
생성 버튼을 클릭하면 파이프라인이 시작됩니다.
파이프라인 상세
목록에서 파이프라인 행을 클릭하면 상세 페이지로 이동합니다.

상세 페이지는 스텝 타임라인으로 구성됩니다. 각 스텝 카드에는 다음 정보가 표시됩니다.
| 항목 | 설명 |
|---|---|
| Phase | 스텝의 현재 상태 (Pending / Running / Succeeded / Failed) |
| 시작 / 종료 시간 | 스텝 실행 시작 및 종료 타임스탬프 |
| 소요 시간 | 스텝 실행에 걸린 시간 |
| Retry Count | 재시도 횟수 |
| Output Files | 스텝이 생성한 출력 파일 목록 |
| 로그 링크 | 해당 스텝의 상세 로그 보기 링크 |
실패 스텝 재실행: Phase가 Failed인 스텝 카드의 Retry 버튼을 클릭하면 해당 스텝부터 재실행됩니다. 이미 완료된 이전 스텝은 다시 실행되지 않습니다.
컴파일 완료 후 자동 등록
모든 스텝이 Succeeded 상태가 되면, 컴파일된 NPU 아티팩트가 Model Registry의 원본 버전에 자동으로 추가됩니다. 이후 해당 아티팩트로 Quick Deploy를 실행할 수 있습니다.