본문으로 건너뛰기

NPU 포팅 파이프라인

Model Registry에 등록된 모델을 NPU 전용 바이너리로 자동 변환합니다. 변환이 완료되면 결과 아티팩트가 Model Registry에 자동 등록되어 바로 배포할 수 있습니다.


사전 조건

  • NuFi Model Registry에 모델과 버전이 등록되어 있어야 합니다.
  • 변환 대상 아티팩트의 platform이 rngd가 아닌 원본 포맷(예: safetensors)이어야 합니다.
  • 클러스터에 충분한 CPU 및 메모리 리소스가 있어야 합니다.

NPU 포팅 파이프라인 목록

좌측 사이드바에서 Porting을 클릭합니다.

NPU 포팅 파이프라인 목록

컬럼

컬럼설명
Name파이프라인 이름
Model / Version / Artifact변환 대상 모델·버전·아티팩트
Platform대상 NPU 플랫폼
Phase현재 파이프라인 상태
Created생성 시간

Phase 상태

Phase설명비정상 대응
Pending파이프라인이 스케줄 대기 중클러스터 리소스가 충분한지 확인하세요.
Running컴파일 스텝이 실행 중
Succeeded컴파일 완료. NPU 아티팩트가 Model Registry에 등록됨
Failed하나 이상의 스텝이 실패상세 페이지에서 실패 스텝 로그를 확인하고 Retry 버튼으로 재실행하세요.
Registered컴파일 결과가 Model Registry에 등록 완료

버튼

버튼설명
① Create새 NPU 포팅 파이프라인 생성 다이얼로그 실행
② Re-compile기존 파이프라인과 동일한 설정으로 새 포팅 파이프라인을 다시 생성합니다. Succeeded / Failed 상태에서 사용 가능합니다.
③ Delete파이프라인 삭제

Phase 필터 버튼(All / Pending / Running / Succeeded / Failed / Registered)으로 목록을 필터링할 수 있습니다.


파이프라인 생성

Create 버튼을 클릭하면 생성 다이얼로그가 열립니다.

NPU 포팅 파이프라인 생성

모델 선택

필드설명필수
Model변환할 모델 선택
Version모델 버전 선택 (모델 선택 후 활성화)
Artifact변환할 아티팩트 선택 (버전 선택 후 활성화)
Platform대상 NPU 플랫폼 선택

리소스 설정

필드설명
CPU Request컴파일 Job에 할당할 CPU 코어 수
Memory Request컴파일 Job에 할당할 메모리 크기

컴파일 설정

필드설명
Max Context Length모델이 처리할 최대 컨텍스트 토큰 수. 길수록 메모리 요구량이 증가합니다.
Tensor Parallel텐서를 병렬로 처리할 NPU 내부 core 수. 일반적으로 4의 배수로 설정합니다.
Pipeline Parallel파이프라인 병렬 단계 수. 모델 레이어를 여러 NPU에 분산합니다.
Prefill BucketsPrefill 단계 시퀀스 길이 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,128, 1,512
Decode BucketsDecode 단계 배치 크기 버킷 목록 (쉼표 구분). 빈 배열로 요청 시 Max Context Length에 적합한 버킷을 설정합니다. 예: 1,512, 1,1024
Tokenwise Seq Lens토큰 생성 시 사용할 메모리 공간 윈도우 크기. 컴파일 시간과 직결됩니다. 일반적으로 설정한 128부터 Max Context Length까지의 2의 제곱승 수들을 전부 포함시킵니다. 예: 128,256,512,1024,2048,4096
추가 Args컴파일러에 직접 전달할 추가 인자. RNGD는 현재 추가 인자를 지원하지 않습니다.
컴파일 설정 선택 기준
  • Tensor Parallel / Pipeline Parallel: 보유한 NPU 장치 수에 맞게 설정합니다. 단일 NPU를 사용한다면 Tensor Parallel은 8, Pipeline Parallel은 1로 설정하세요. RNGD 기준 NPU 당 8개의 core를 가집니다.
  • Prefill / Decode Buckets: 실제 서비스에서 예상되는 입력 길이 분포에 맞게 설정합니다. 버킷이 많을수록 컴파일 시간과 바이너리 크기가 증가합니다.

생성 버튼을 클릭하면 파이프라인이 시작됩니다.


파이프라인 상세

목록에서 파이프라인 행을 클릭하면 상세 페이지로 이동합니다.

NPU 포팅 파이프라인 상세

상세 페이지는 스텝 타임라인으로 구성됩니다. 각 스텝 카드에는 다음 정보가 표시됩니다.

항목설명
Phase스텝의 현재 상태 (Pending / Running / Succeeded / Failed)
시작 / 종료 시간스텝 실행 시작 및 종료 타임스탬프
소요 시간스텝 실행에 걸린 시간
Retry Count재시도 횟수
Output Files스텝이 생성한 출력 파일 목록
로그 링크해당 스텝의 상세 로그 보기 링크

실패 스텝 재실행: Phase가 Failed인 스텝 카드의 Retry 버튼을 클릭하면 해당 스텝부터 재실행됩니다. 이미 완료된 이전 스텝은 다시 실행되지 않습니다.

컴파일 완료 후 자동 등록

모든 스텝이 Succeeded 상태가 되면, 컴파일된 NPU 아티팩트가 Model Registry의 원본 버전에 자동으로 추가됩니다. 이후 해당 아티팩트로 Quick Deploy를 실행할 수 있습니다.


다음 단계