구글이 메모리 사용을 최소화해 인공지능(AI) 성능을 극대화하는 '터보퀀트' 기술을 내놓았다. 메모리 사용량과 속도 면에서 획기적인 개선을 이뤄낸 만큼 AI 확산을 가속할 거란 분석이 제기된다.
27일 업계에 따르면 구글 리서치는 최근 AI 압축 알고리즘 터보퀀트를 발표했다. 대규모언어모델(LLM)의 임시 기억장치인 'KV 캐시'를 3비트 수준으로 압축해 메모리 사용량을 6배가량 줄이는 게 핵심이다.
계산 중간값 과정도 생략된다. 필요할 때만 다시 계산하는 형태라 메모리 사용량이 줄고 연산량은 늘어난다. 문제 역시 압축된 형태로 변환하기 때문에 같은 문제를 더 작은 수식으로 풀 수 있게 된다.
시장에서는 터보퀀트 기술이 상용화될 경우 메모리 수요가 현재의 6분의 1 수준이 될 거라는 해석이 나온다. 특히 기존 알고리즘 대비 더 적은 오류로 데이터를 압축하는 동시에 AI 처리 속도를 8배 이상 끌어올릴 수 있다. AI의 가장 큰 병목으로 지적됐던 메모리 이슈를 해소한 만큼 AI 대중화에 주효할 역할을 할 것으로 관측된다.
터보퀀트의 등장으로 AI 발전에 속도가 붙으면 메모리 시장에는 호재가 될 수 있다는 관측도 있다. 이영진 삼성증권 연구원은 "터보퀀트 알고리즘이 활용되면 추론 비용이 하락을 달성할 수 있지만 수요는 폭발할 것"이라며 "속도·퀄리티 하향 없이 장기 컨텍스트 윈도 및 대규모 배치의 활용이 가능하다"고 말했다.
AI 기술이 고도화되면서 메모리 수요 자체도 다변화될 수 있다. 고대역폭메모리(HBM)나 D램 이외에도 S램을 기반으로 한 추론용 AI칩 등의 메모리 수요가 늘어날 것으로 보인다. 이영진 연구원은 "터보퀀트로 추론 비용이 적어질 경우 장문맥 처리와 대규모 배치 활용이 가능해진다"며 "전체 추론 수요는 오히려 증가할 것"이라고 분석했다.