클라우드 전문 기업 가비아가 국내 AI 반도체 기업 리벨리온의 NPU(신경망처리장치) 'ATOM-Max' 기반 클라우드 서비스 'NPUaaS'를 9일 출시했다.
AI 서비스가 모델 개발을 넘어 실서비스 적용 단계로 빠르게 전환되면서 AI 에이전트·생성형 AI·영상 분석 등 실시간 추론(Inference) 인프라 수요가 급증하고 있다. 엔비디아 GPU 수급 불안정과 비용 부담으로 공급망 리스크가 부각되면서 국내 AI 반도체 기반 추론 인프라를 검토하는 기업이 늘고 있다.
NPUaaS(NPU as a Service)는 NPU 인프라를 클라우드 방식으로 구독해 사용하는 서비스다. NPU는 학습된 AI 모델을 실제 서비스에 적용하는 추론 작업에 특화된 반도체로 GPU 대비 전력 소모가 적고 비용 효율이 높아 GPU 의존도를 낮추려는 기업의 대안으로 주목받고 있다.
인스턴스(VM) 기반으로 출시된 가비아의 NPUaaS는 OS 커널 수준의 세밀한 환경 설정과 커스터마이징이 가능하다. 특정 AI 워크로드 요건에 맞는 정밀한 인프라 구성을 지원하며 서비스 목적에 따라 유연하게 확장할 수 있다는 점이 특징이다.
가비아 NPUaaS에서 활용 가능한 ATOM-Max는 1장 기준 128 TFLOPS(FP16)의 연산 성능과 NPU 메모리 64GB, CPU 16vCore, 시스템 메모리 256GB, 무료 트래픽 4TB를 제공한다. LLM·비전 AI·멀티모달 AI·Physical AI 등 다양한 워크로드를 지원하며 도입 규모에 따라 다중 구성도 가능하다.
가비아 NPUaaS는 특정 AI 워크로드에 맞춰 인프라 환경을 정밀하게 제어해야 하는 기업을 주요 고객으로 한다. 대규모 LLM 서빙 등 고성능 추론 환경의 세밀한 튜닝이 요구되는 워크로드, 저지연이 요구되는 실시간 영상·음성 분석, 보안 정책상 커널 수준의 격리가 필요한 금융·의료·공공 분야 등에 적합하다.
서비스 출시에 맞춰 가비아는 도입을 검토 중인 기업을 대상으로 'AI 추론 프레임워크 최적화 컨설팅'을 함께 제공한다. AI 모델을 개발하고도 서빙 환경 구축 단계에서 어려움을 겪는 기업이 적지 않은 까닭이다. 컨설팅은 SDK(소프트웨어 개발 키트) 기반 환경 설정부터 성능 최적화까지 전문 인력이 직접 담당한다. 지원 프레임워크는 PyTorch·TensorFlow이며 Hugging Face Hub에 등록된 오픈소스 모델과의 연동도 지원한다. 서빙·최적화 도구로는 vLLM·Triton Inference Server·TorchServe를 활용할 수 있다.
고객사 워크로드 특성에 따른 맞춤형 기술 지원도 병행한다. Llama 3, Gemma 등 오픈소스 LLM이 ATOM-Max 환경에서 최적으로 구동될 수 있도록 전문 인력이 프로파일링·커널 최적화·파라미터 튜닝을 수행한다. 컨설팅 서비스는 출시 시점을 기준으로 도입을 협의 중인 PoC 고객사를 대상으로 운영된다.
정대원 가비아 상무는 "AI 서비스의 경쟁력은 모델 성능만큼이나 추론 환경의 효율성에 달려 있다"며 "NPUaaS와 전문 컨설팅을 결합해 기업이 인프라 부담 없이 AI 비즈니스에 집중할 수 있는 환경을 만들겠다"고 말했다.