인공지능(AI) 테크 기업 크라우드웍스가 대형 보험사 메리츠화재의 AI 성능 평가 사업을 수주하며, 기업들이 자체 개발한 AI 에이전트의 성능과 신뢰도를 전문적으로 검증해주는 'AI 평가' 시장이 본격적으로 열리고 있다.
크라우드웍스는 메리츠화재의 AI 에이전트 성능 평가 사업을 수주했다고 30일 밝혔다.
이번 사업은 메리츠화재가 개발한 설계사 영업 지원 AI 서비스의 성능을 고도화하는 것이 목표다. 이 AI는 보험약관, 보장 내용 등을 학습해 설계사들의 업무를 지원한다. 크라우드웍스는 이 AI의 응답 정확성, 과업 성공률, 신뢰도 등을 종합적으로 평가할 예정이다.
이 과정에서 크라우드웍스가 자체 개발한 AI 평가·검증 솔루션 '알피 이밸류에이션(Alpy Evaluation)'이 활용된다. 해당 솔루션은 AI 서비스의 성능을 LLM, RAG, 에이전트 영역에서 평가할 수 있으며, 유해 콘텐츠 제작이나 편향성 등을 방지하는 안전성 평가도 함께 지원한다.
이번 평가의 핵심은 '보험업'에 특화된 데이터셋이다. 크라우드웍스는 보험업 경력을 보유한 전문가들을 투입해 실제 상담 시나리오 기반의 평가 데이터를 구축한다. 이를 통해 일반 벤치마크로는 검증하기 어려운 보험 도메인 특유의 문맥 이해력과 정확성을 정밀하게 평가한다.
김우승 크라우드웍스 대표는 "AI 에이전트 평가에서는 로직의 기술력보다 평가용 질문(Instruction) 설계의 정교함이 핵심"이라며 "보험 도메인에 특화된 데이터와 자동화된 평가 시스템을 결합해 금융권 AI 서비스의 품질관리 수준을 한층 높일 것"이라고 말했다.
