카카오가 자체 개발한 AI 모델의 오케스트레이션 능력 평가 지표인 '오케스트레이션 벤치마크(Orchestration Benchmark)'가 세계 3대 AI 학회인 'ICLR 2026'의 논문으로 채택했다. /사진=카카오

카카오는 자체 개발한 인공지능(AI) 모델 오케스트레이션 능력 평가 지표 '오케스트레이션 벤치마크(Orchestration Benchmark)'가 세계 3대 AI 학회인 'ICLR 2026'의 논문으로 채택됐다고 3일 밝혔다.

ICLR(국제표현학습학회)은 글로벌 빅테크 기업들이 주목하는 AI 분야의 최고 학술대회로 올해 약 19000여건의 논문이 제출됐으며 상위 28%만이 채택됐다.


카카오는 최근 대형 언어모델(LLM)이 이용자의 요청을 스스로 계획하고 조율하는 에이전틱 AI로 발전하는 흐름에 대응해 벤치마크를 개발했다. 실제 서비스 환경에서의 멀티 스텝과 멀티 도메인 처리 능력을 평가하는 것이 핵심이다.

기존의 LLM 벤치마크는 성능 평가에 그쳐 복잡한 사용자 요청을 해석해 적절한 도구를 호출하고 다양한 작업 간 의존 관계를 관리하는 오케스트레이션 능력을 평가하기 어려웠다. 이에 카카오는 실제 서비스 시나리오를 기반으로 AI 모델의 작업 계획과 도구 실행을 분리해 평가의 정밀도를 높였다.

오케스트레이션 벤치마크는 여행·쇼핑·금융·일정 등 17개 서비스 도메인과 100여개의 가상 도구를 포함해 구성했으며 사용자 요청 변경이나 추가 질문 등 실제 대화 흐름을 토대로 시나리오를 구축해 실용성을 높였다.


모든 평가 데이터는 AI 어노테이터 수작업을 통해 검증됐으며 한국어와 영어 두 가지 언어를 지원한다. 한국어의 경우 문화적 특성과 맥락을 반영해 평가의 정확도와 신뢰도를 높인 것이 특징이다.

카카오는 글로벌 AI 생태계 활성화와 연구 개발 성과의 자유로운 활용을 위해 해당 논문을 오픈소스 플랫폼 깃허브(GitHub)에 공개했다.

카카오 관계자는 "오케스트레이션 벤치마크는 에이전틱 AI가 실제 서비스 환경에서 안정적으로 작동하는지를 평가하는 핵심 도구"라며 "앞으로도 에이전트 간 협업 및 오케스트레이션 능력 강화를 위한 연구를 지속해 카카오의 에이전틱 AI 방향성에 부합하는 기술을 고도화해 나가겠다"이라고 말했다.