아크릴은 7일 미국 소재 글로벌 탑티어 클라우드 서비스 제공사(CSP) 환경에서 자사의 GPU 클러스터 최적화 기술 'JONATHAN GPUBASE'를 대상으로 'K-Scale Evaluation' 사전 평가를 진행해 최대 25배의 성능 개선 효과를 확인했다고 밝혔다.
K-Scale Evaluation은 국내 AI 기업의 기술이 글로벌 수준의 대규모 클라우드 환경에서도 얼마나 잘 작동하고 확장될 수 있는지를 검증하는 성능 평가 체계를 의미한다.
회사는 수백 대 규모의 GPU 클러스터를 대상으로 총 7개 시험 항목을 검증했다. 이번 평가는 다양한 학습과 추론 워크로드가 동시에 작동하는 실제 AX 인프라 부하 환경에 초점을 맞췄다.
아크릴은 학술 논문(ACM IMC'24, IEEE ICNP'18)을 기준으로 4단계 부하 수준(없음·하·중·상)을 적용했다.
이후 GPUBASE 비적용 환경과 적용 환경을 A/B 방식으로 비교했다. 그 결과 GPUBASE를 적용하지 않은 환경은 '상' 수준 부하에서 성능이 최대 95%까지 떨어졌다.
반면 GPUBASE 적용 환경은 모든 부하 조건에서 무부하 상태와 동일한 성능을 유지했다. 이는 기준선 대비 최대 25배 향상된 수치다.
이러한 성능 향상은 실제 파운데이션 모델 학습 환경에서도 나타났다. 한국어 특화 대규모 언어모델(11B 파라미터)과 자사 의료 AI 모델(27B 파라미터) 학습 벤치마크 결과, 부하 수준에 따라 학습 속도가 2배에서 최대 25배까지 빨라졌다.
학습과 추론이 동시에 이뤄지는 혼합 부하 환경에서도 효과가 입증됐다. GPUBASE 적용 환경은 기준선 대비 6배 빠른 학습 속도를 기록했으며, 동시에 추론 응답 시간 SLA(서비스 수준 계약)도 충족했다. 반면 기준선 환경은 동일 기준을 만족하지 못했다.
GPU 장애 대응 검증에서는 전 시나리오에 대한 자동 감지와 복구에 성공했다. 플랫폼 핵심 기능 8종에 대한 정확성 검증도 100% 통과했다.
염익준 아크릴 CTO는 "대부분의 GPU 벤치마크는 트래픽이 없는 환경을 전제로 하지만 실제 데이터센터는 다양한 트래픽이 상시 발생하는 구조"라며 "GPUBASE는 이런 실제 운영 환경에서도 성능을 안정적으로 보장할 수 있음을 이번 평가를 통해 정량적으로 입증했다"고 말했다.
아크릴은 이번 결과를 바탕으로 대규모 실증을 병행 추진한다.
복수 CSP에서 누적 1000대 이상 GPU를 검증하는 'Horizontal K-Scale'과 단일 CSP에서 1000대 이상 단일 클러스터를 검증하는 'Vertical K-Scale'을 진행한다. Phase 1(GPU 1000장)은 2026년 상반기에, Phase 2(GPU 3000장 이상)는 연내 착수할 예정이다.
