본문으로 건너뛰기
버전: Next

Model Compilations

Model Registry에 등록된 모델을 NPU 전용 바이너리로 자동 변환합니다. 변환이 완료되면 결과 아티팩트가 Model Registry에 자동 등록되어 바로 배포할 수 있습니다.


사전 조건

  • NuFi Model Registry에 모델과 버전이 등록되어 있어야 합니다.
  • 변환 대상 아티팩트의 platform이 rngd가 아닌 원본 포맷(예: safetensors)이어야 합니다.
  • 클러스터에 충분한 CPU 및 메모리 리소스가 있어야 합니다.

NPU 컴파일 진입 경로

NPU 컴파일은 모델 버전 상세 페이지에서 시작합니다.

  1. 좌측 사이드바에서 Models를 클릭하여 모델 목록 페이지로 이동합니다.
  2. 컴파일할 모델 행을 클릭하여 모델 상세 페이지로 이동한 뒤, 컴파일할 버전 행을 클릭하여 버전 상세 페이지로 이동합니다.
  3. 버전 상세 페이지에서 다음 두 가지 방식으로 컴파일을 시작할 수 있습니다.
    • Compilations 탭Quick Compile 버튼 클릭
    • Artifacts 탭의 각 행 우측 cpu 아이콘 클릭 (해당 아티팩트가 자동 선택된 상태로 생성 다이얼로그가 열림)

NPU 컴파일 목록

버전 상세 페이지의 Compilations 탭에서 해당 버전에 대한 컴파일 이력을 확인할 수 있습니다.

NPU 컴파일 목록

컬럼

컬럼설명
Platform대상 NPU 플랫폼
Hash컴파일 옵션 해시 (동일 옵션 식별용)
Config컴파일 옵션이 저장된 이력은 보기 버튼을 표시합니다. 버튼을 클릭하면 컴파일 설정 다이얼로그에서 Max Seq Len, Tensor Parallel, Pipeline Parallel, Prefill Buckets, Decode Buckets, Tokenwise Seq Lens를 확인할 수 있습니다. 설정 정보가 없는 기존 이력은 -로 표시됩니다.
Phase현재 파이프라인 상태
Created생성 시간

상태

Phase설명비정상 대응
Pending파이프라인이 스케줄 대기 중클러스터 리소스가 충분한지 확인하세요.
Running컴파일 스텝이 실행 중
Succeeded컴파일 완료. NPU 아티팩트가 Model Registry에 등록됨
Failed하나 이상의 스텝이 실패상세 페이지에서 실패 스텝 로그를 확인하고 재시도 버튼으로 재실행하세요.
Registered컴파일 결과가 Model Registry에 등록 완료

액션 아이콘

행 우측의 아이콘은 좌측부터 다음과 같습니다.

아이콘기능설명
rotate-ccwRe-compile해당 파이프라인의 컴파일 옵션이 사전 입력된 생성 다이얼로그를 엽니다. 기존 run은 이력으로 보존됩니다. Pending/Running 상태이거나 저장된 컴파일 옵션이 없는 이력에서는 비활성화됩니다.
trashDelete해당 컴파일 이력을 삭제합니다. 확인 다이얼로그에서 승인하면 파이프라인과 이력이 영구적으로 삭제됩니다.

파이프라인 생성

Compile 버튼을 클릭하면 생성 다이얼로그가 열립니다.

NPU 컴파일 생성

고정된 설정

다이얼로그 상단의 고정된 설정 영역에는 진입 시점에 결정된 컴파일 대상 정보가 표시됩니다. 사용자가 변경할 수 없습니다.

항목설명
Model진입한 버전 상세 페이지의 모델 이름
Version진입한 버전
Base Artifact변환 대상 아티팩트. Compilations 탭의 Quick Compile로 진입하면 해당 버전의 원본 아티팩트(예: original)가, Artifacts 탭의 CPU 아이콘으로 진입하면 클릭한 아티팩트가 자동 선택됩니다.

플랫폼 선택

필드설명필수
Platform대상 NPU 플랫폼 선택 (예: RNGD)

리소스 설정

필드설명
CPU Request컴파일 Job에 할당할 CPU 코어 수
Memory Request컴파일 Job에 할당할 메모리 크기

컴파일 설정

필드설명
Max Context Length모델이 처리할 최대 컨텍스트 토큰 수. 길수록 메모리 요구량이 증가합니다.
Tensor Parallel텐서를 병렬로 처리할 NPU 내부 core 수. 일반적으로 4의 배수로 설정합니다.
Pipeline Parallel파이프라인 병렬 단계 수. 모델 레이어를 여러 NPU에 분산합니다.
Prefill BucketsPrefill 단계 시퀀스 길이 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,128, 1,512
Decode BucketsDecode 단계 배치 크기 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,512, 1,1024
Tokenwise Seq Lens토큰 생성 시 사용할 메모리 공간 윈도우 크기. 컴파일 시간과 직결됩니다. 일반적으로 설정한 128부터 Max Context Length까지의 2의 제곱승 수들을 전부 포함시킵니다. 예: 128,256,512,1024,2048,4096
추가 Args컴파일러에 직접 전달할 추가 인자. RNGD는 현재 추가 인자를 지원하지 않습니다.
환경 변수컴파일 Job 컨테이너에 주입할 환경 변수. KEY=VALUE 형식으로 한 줄에 하나씩 입력하거나, .env 파일을 드래그·업로드할 수 있습니다. Hugging Face 게이티드 모델처럼 인증 토큰이 필요한 경우 HF_TOKEN=hf_... 형식으로 추가하세요.
컴파일 설정 선택 기준
  • Tensor Parallel / Pipeline Parallel: 보유한 NPU 장치 수에 맞게 설정합니다. 단일 NPU를 사용한다면 Tensor Parallel은 8, Pipeline Parallel은 1로 설정하세요. RNGD 기준 NPU 당 8개의 core를 가집니다.
  • Prefill / Decode Buckets: 실제 서비스에서 예상되는 입력 길이 분포에 맞게 설정합니다. 버킷이 많을수록 컴파일 시간과 바이너리 크기가 증가합니다.
RNGD 플랫폼의 추가 Args

Platform으로 RNGD를 선택하면 추가 Args 입력이 자동으로 비활성화되고 'Python SDK · args 미지원' 안내 배지가 표시됩니다. RNGD 컴파일은 Python SDK(ArtifactBuilder)를 사용하며 추가 인자를 지원하지 않습니다. RNGD로 플랫폼을 전환하면 이미 입력된 추가 Args 값은 자동으로 초기화됩니다.

NPU 컴파일 생성 — RNGD 플랫폼 선택 시 추가 Args 비활성화

위 화면과 같이, RNGD 플랫폼을 선택하면 추가 Args 입력란 옆에 'Python SDK · args 미지원' 배지가 표시되고 입력란이 자동으로 비활성화됩니다.

생성 버튼을 클릭하면 파이프라인이 시작됩니다.


파이프라인 상세

목록에서 파이프라인 행을 클릭하면 상세 페이지로 이동합니다.

NPU 컴파일 상세 — 2-step 타임라인

상세 페이지는 2-step 타임라인으로 구성됩니다.

스텝설명
컴파일모델을 NPU 전용 바이너리로 변환합니다.
Artifact 파일 검증컴파일 스텝이 생성한 아티팩트 파일이 예상 경로에 존재하는지만 확인합니다. 실제 디바이스에 로드하거나 추론을 수행하지는 않습니다. atomic publish가 이 단계에서 수행됩니다.

각 스텝 카드에는 다음 정보가 표시됩니다.

항목설명
Phase스텝의 현재 상태 (Pending / Running / Succeeded / Failed)
시작 / 종료 시간스텝 실행 시작 및 종료 타임스탬프
소요 시간스텝 실행에 걸린 시간
Retry Count재시도 횟수 (1회 이상 재시도한 경우에만 표시)
Output Files스텝이 생성한 출력 파일 목록
로그 링크해당 스텝의 상세 로그 보기 링크

스텝 단위 재시도: 파이프라인 전체가 Failed 상태일 때, 실패한 각 스텝 카드의 재시도 버튼으로 해당 스텝만 독립적으로 다시 실행할 수 있습니다. 예를 들어 Artifact 파일 검증 스텝만 실패한 경우 컴파일 스텝을 다시 실행하지 않고 검증 스텝만 재시도할 수 있습니다.

컴파일 완료 후 자동 등록

컴파일 + 검증 두 스텝이 모두 Succeeded 상태가 되면, 컴파일된 NPU 아티팩트가 Model Registry의 원본 버전에 자동으로 추가됩니다. 이후 해당 아티팩트로 Quick Deploy를 실행할 수 있습니다.


컴파일 설정 확인

상세 페이지의 Meta 정보 카드 아래에 컴파일 설정 카드가 표시됩니다. 파이프라인 생성 시 사용된 컴파일 옵션 전체를 여기서 확인할 수 있습니다.

NPU 컴파일 상세 — 컴파일 설정 카드

필드설명
Max Seq Len컴파일 시 설정된 최대 컨텍스트 토큰 수
Tensor Parallel텐서 병렬 처리 NPU core 수
Pipeline Parallel파이프라인 병렬 단계 수
Prefill BucketsPrefill 단계 시퀀스 길이 버킷 목록
Decode BucketsDecode 단계 배치 크기 버킷 목록
Tokenwise Seq Lens토큰 생성 시 메모리 공간 윈도우 크기 목록