
카카오는 허깅페이스를 통해 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 'Kanana-1.5-v-3b'와 MoE(Mixture of Experts) 언어모델 'Kanana-1.5-15.7b-a3b'를 오픈소스로 공개했다고 24일 밝혔다.
카카오는 지난 5월 공개한 언어모델 Kanana-1.5 4종에 이어 두 달 만에 추가 모델을 오픈소스로 공개하며 독자적 모델 설계 기반의 기술 경쟁력을 보여줬다.
멀티모달 모델 'Kanana-1.5-v-3b', GPT-4o 수준 성능 달성

'Kanana-1.5-v-3b'는 텍스트와 이미지 정보를 모두 처리할 수 있는 멀티모달 언어모델이다. 지난 5월 말 오픈소스로 공개한 Kanana 1.5 모델을 기반으로 한다.
Kanana 1.5는 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 '프롬 스크래치(From Scratch)' 방식으로 개발됐다.
경량 모델임에도 이미지로 표현된 한국어와 영어 문서 이해 능력이 글로벌 멀티모달 언어모델 GPT-4o와 견줄 수 있을 정도로 뛰어나다는 것이 회사 측의 설명이다. 한국어 벤치마크에서는 유사 사이즈의 국내외 공개 모델과 비교해 최고 점수를 기록했다.
다양한 영어 벤치마크에서도 해외 오픈소스 공개 모델과 비교했을 때 유사한 수준의 성능을 보였다. 지시 이행 능력 벤치마크는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 수준의 성능을 기록했다.
카카오는 인간 선호 반영 학습(Human Preference Alignment Training)과 지식 증류(Knowledge Distillation)를 통해 'Kanana-1.5-v-3b'의 성능을 극대화했다. 지식 증류는 고성능의 대형 모델(Teacher Model)로부터 비교적 작은 모델(Student Model)을 학습하는 방식이다.
'Kanana-1.5-v-3b'는 이미지 및 글자 인식, 동화 및 시 창작, 국내 문화유산 및 관광지 인식, 도표 이해, 수학 문제풀이 등 여러 분야에서 유연하게 활용할 수 있다.

국내 최초 MoE 모델, 비용 효율성과 성능 동시 확보카카오는 이날 일반적인 '밀집(Dense)' 모델과 차별화되는 MoE(Mixture of Experts) 구조의 언어모델을 오픈소스도 함께 공개했다.
'MoE'는 입력 데이터 처리 시 모든 파라미터가 연산에 참여하는 기존 모델과 달리, 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식이다. 효율적인 컴퓨팅 자원 활용과 비용 절감이 강점이다.
MoE 아키텍처를 적용한 'Kanana-1.5-15.7b-a3b'는 전체 15.7B의 파라미터 중 추론 시 약 3B 파라미터만 활성화돼 동작한다. 카카오는 자사의 3B 규모의 모델 'Kanana-Nano-1.5-3B'에 '업사이클링(Upcycling)' 방식을 적용해 개발했다.
업사이클링은 기존 다층 신경망(MLP, Multi-Layer Perceptron) 레이어를 복제해 여러 전문가 레이어로 변환하는 방식이다. 모델을 처음부터 개발하는 방식에 비해 효율적이다.
활성화되는 파라미터가 3B에 불과하지만 성능은 'Kanana-1.5-8B'와 동등하거나 상회하는 수준을 기록했다.
카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 제공할 수 있다. 특히 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리하다.
카나나 모델 지속 개발로 국내 AI 생태계 확장카카오는 지난해 자체 개발 AI 모델 '카나나(Kanana)'의 라인업을 공개한 이래, 다양한 모델들의 성능과 개발기를 공개해왔다. 지난 2월 말 오픈소스로 공개한 자체 개발 모델로부터 성능이 한층 향상된 카나나 언어모델 4종을 5월 오픈소스로 공개한 바 있다.
특히, 국내 AI 생태계 기여를 위해 상업적 활용까지 가능한 아파치 2.0 라이센스를 적용해 연구자, 스타트업 등이 국산 LLM을 자유롭게 실험하고 서비스할 수 있는 토대를 제공했다.
카카오는 모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 멀티모달 이해 능력, 사용자 지시 수행 능력, 추론 능력을 갖추도록 발전시키는 데 주력하고 있다. 하반기 중에는 에이전트형 AI 구현에 필수적인 추론 모델의 성과도 공개할 예정이다.
김병학 카카오 카나나 성과리더는 "이번 오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과를 거둔 것"이라며 "단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합하는 결과물"이라고 했다.
한편, 정부가 추진하는 '독자 AI 파운데이션 모델 프로젝트'에 참여한 카카오는 자체 모델 개발 역량 및 카카오톡 등의 대규모 서비스 운영 경험을 토대로 전 국민의 AI 접근성을 높이고 국가 AI 경쟁력을 강화하는 데 기여한다는 방침이다.