AI 데이터 전문 기업 비큐AI가 자체 구축한 CoT(사고의 사슬) 데이터셋을 활용해 초경량 sLLM(소형언어모델) ‘RDP-N1’을 개발했다고 16일 밝혔다.
이번 모델은 오픈소스 7B(파라미터 70억개) 기반 모델을 파라미터 효율적 미세 조정 방식으로 학습시켜, 적은 자원으로도 비약적인 성능 향상을 이뤄낸 것이 특징이다.
비큐AI는 QLoRA(Quantized Low-Rank Adaptation) 기법과 양자화 기술을 적용해 기존 29GB에 달하던 모델 용량을 7.1GB로 획기적으로 줄였다.
이를 통해 EM, ROUGE, BLEU, KoBERT 유사도 등 주요 인공지능 성능 지표에서 최대 93%의 성능 향상을 달성했다.
이는 비큐AI의 데이터 파이프라인인 데이터 통합 공급 플랫폼 ‘RDPLINE’을 통해 생산된 고품질 CoT 데이터가 모델의 추론 능력을 얼마나 정교하게 끌어올릴 수 있는지 정량적으로 입증한 결과다.
학습에 활용된 CoT 데이터는 단순히 정답만 제시하는 것이 아니라, 정답에 도달하기 위한 추론 근거와 판단 조건을 단계적으로 학습하도록 설계된 고난도 데이터다.
비큐AI 관계자는 “CoT 데이터는 수작업 구축이 매우 까다롭기 때문에, 로우 데이터를 기반으로 질의응답과 추론 과정을 생성한 뒤 고성능 LLM으로 자동 평가해 모순을 제거하는 단계적 검증 체계를 적용했다”며 이를 통해 확보한 고신뢰 데이터만이 학습에 활용됐다고 설명했다.
이어 “이번 개발의 핵심은 모델 자체의 크기보다 고품질 CoT 데이터가 성능 향상에 미치는 효과를 검증하는 데 있었다”며 “동일한 원리를 더 큰 파라미터 모델에도 적용할 수 있다는 점이 기술적으로 매우 큰 의미를 가진다”고 덧붙였다.
향후 비큐AI는 RDPLINE을 통해 확보한 대규모 뉴스 및 미디어 데이터 파이프라인을 기반으로 ‘RDP-N1’을 다양한 서비스 영역에 적용할 방침이다.
특히 경량 모델과 고성능 모델을 적재적소에 조합해 성능과 비용을 동시에 최적화하는 전략을 추진하며 시장 경쟁력을 강화해 나갈 계획이다.
