본문 바로가기

FINANCE SCOPE

구독하기
플랫폼

카카오, 멀티모달 AI '카나나-o' 공개…"GPT-4o보다 한국어 잘한다"

윤영훈 기자

입력 2025.12.12 09:19

숏컷

X

텍스트·음성·이미지 동시 이해…연내 고성능 모델 '카나나-2' 개발 계획

Kanana-o와 글로벌 경쟁모델 벤치마크 성능비교. (사진=카카오)

카카오가 텍스트와 음성, 이미지를 동시에 이해하고 한국어 맥락과 감정 표현에 특화된 인공지능(AI) 모델을 선보였다.

카카오는 12일 테크블로그를 통해 자체 개발한 AI 모델 2종의 개발 과정과 성능을 공개했다. 이번에 공개된 모델은 통합 멀티모달 언어모델 '카나나-o(Kanana-o)'와 멀티모달 임베딩 모델 '카나나-v-임베딩(Kanana-v-embedding)'이다.

'카나나-o'는 텍스트, 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 모델이다. 카카오는 기존 모델들이 음성 대화 시 답변이 단순해지거나 추론 능력이 떨어지는 한계를 보완했다. 이를 위해 지시 이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악하도록 개선했다.

특히 한국어 성능을 대폭 강화했다. 카카오 측은 벤치마크 평가 결과, 카나나-o가 영어 음성 성능에서는 오픈AI(OpenAI)의 GPT-4o와 유사하고 한국어 음성 인식 및 감정 인식 능력에서는 월등히 높은 수준을 기록했다고 밝혔다. 기쁨, 슬픔 등 상황별 감정 표현은 물론 미세한 음색 변화까지 구현했다.

함께 공개된 '카나나-v-임베딩'은 이미지 검색의 핵심 기술이다. 텍스트와 이미지를 동시에 처리해 '경복궁', '붕어빵' 같은 한국적 고유명사나 오타가 포함된 단어도 문맥을 파악해 정확한 이미지를 찾아낸다. 이 기술은 현재 카카오 내부에서 광고 소재의 유사도를 분석하고 심사하는 시스템에 적용됐다.

카카오는 향후 모바일 기기 등 온디바이스(On-device) 환경에서 작동하는 경량화 모델도 연구할 방침이다. 또한 전문가 혼합(MoE) 구조를 적용한 고성능·고효율 모델인 '카나나-2'를 연내 개발할 계획이다.

김병학 카나나 성과리더는 "카나나는 단순한 정보 나열을 넘어 사용자의 감정을 이해하고 자연스럽게 대화하는 AI를 지향한다"며 "사람처럼 상호작용할 수 있는 AI 구현에 주력하겠다"고 말했다.


윤영훈 기자 jihyunengen@finance-scope.com

섹터 VIEW