khaiii의 CNN모델 네트워크 구조. /사진=카카오 브런치
khaiii의 CNN모델 네트워크 구조. /사진=카카오 브런치
카카오가 개발한 인공지능(AI) 언어모델이 한국어 학습데이터 ‘KorQuAD’ 기반 기계독해 능력평가에서 91.85점으로 1위를 차지했다.
평가에 참여한 카카오의 AI 언어모델은 구글의 BERT에 카카오 형태소분석기 ‘khaiii’를 접목한 형태로 설계됐다. 조사의 사용과 어미 변형 등 한국어 고유특성에 최적화된 모델이다.

이번 결과가 의미있는 것은 AI가 인간의 기록을 넘어섰기 때문이다. 평가를 주최한 LG CNS에 따르면 동일한 평가에서 인간이 받은 점수는 91.20점으로 집계됐다. 카카오 AI는 인간보다 0.65점 높은 점수를 획득했다.


LG CNS가 운영하는 기계독해 능력평가는 미국 스탠포드 대학에서 시작된 AI 언어지능 연구용 질의응답 학습 데이터셋인 SQuAD와 같은 형태로 구현됐다. 지난해 12월 LG CNS는 관련 평가를 위해 한국어 학습용 데이터 KorQuAD를 구축하고 오픈소스로 공개했다.

평가는 데이터셋에서 추출한 내용을 질문으로 제시하고 개발 모델이 답을 찾아내는 방식으로 진행된다.

예를 들어 “아이유는 1993년 5월16일 서울시에서 태어났고 경기도 하남시와 의정부시를 거쳐 서울시 광진구에서 자랐다. 초등학교는 하남시 하남천현초등학교에서 3학년까지 다니다가 서울 광진구 서울양남초등학교로 전학 후 졸업했다”는 지문이 제공되고 “아이유가 졸업한 초등학교는 어디인가?”라는 질문에 “서울양남초등학교”라는 형태로 정답을 찾는 방식이다.


김응균 카카오 자연어처리파트장은 “이번 결과는 카카오 AI 자연어 처리기술로 인간의 독해 능력을 넘어서는 최초 모델을 구현했다는 점에서 높게 평가받을만 하다”며 “언어모델기술을 스마트 스피커에 적용하기 위한 연구를 진행 중”이라고 말했다.