본문 바로가기

FINANCE SCOPE

구독하기
인공지능

이스트소프트, 음성 길이 맞춘 AI 자동 더빙 “EMNLP서 발표”

서윤석 기자

입력 2025.11.17 08:47

숏컷

X

AI학회 EMNLP 2025서 발표 발화 길이·리듬까지 재현하는 차세대 AI 더빙 기술 소개
정상원 대표 “Perso AI 기반 실증 연구로 서비스 고도화 및 글로벌 경쟁력 더 강화할 것”

사진=EMNLP 2025 참석한 이스트소프트 연구진 


이스트소프트는 17일 자체개발한 AI 자동 더빙 기술 연구를 인공지능·자연어 처리 학회 ‘EMNLP 2025’에서 발표했다고 밝혔다. 

EMNLP(Empirical Methods in Natural Language Processing)는 글로벌 AI 연구자들이 참여하는 자연어 처리(NLP) 학회다. 

이스트소프트 연구진의 발표내용은 ‘대규모 언어모델(LLM)’[형변1] 을 활용한 종단 간 다국어 자동 더빙 프레임워크(End-to-End Multilingual Automatic Dubbing via Duration-based Translation with Large Language Models)’이다. 

이번 연구는 이스트소프트의 페르소 AI 더빙(Perso AI Dubbing) 서비스 고도화를 배경으로 추진됐다. 연구의 핵심은 영상 원본에서의 화자 발화 시간과 일치하는 더빙 영상을 생성하는 프레임워크를 제안한 것이다. 기존의 자동 더빙 시스템이 원본의 음성과 번역된 음성의 길이가 맞지 않아 부자연스러운 영상을 생성했던 한계를 극복한 것이라고 회사측은 설명했다.

프레임워크의 구조는 STT(Speech-to-Text), NMT(Neural Machine Translation), TTS(Text-to-Speech) 세 가지 모듈로 구성됐으며, 연구진은 NMT 모듈에 ‘발화 길이 조정 번역(DT, Duration-based Translation)’과 ‘발화 정지 정보 통합(Pause Integration)’ 개념을 도입했다.

LLM 기반의 발화 길이 조정 번역 기술은 원본 음성의 지속 시간을 기반으로 번역에 필요한 최적의 음소 수를 동적으로 예측해 번역의 길이를 제어할 수 있는 환경을 제공한다. 발화 정지 정보 통합 기술은 음성에 포함된 묵음까지 반영해 원본과 동기화를 향상시킨다. 이를 통해 원본의 발화 속도와 리듬을 자연스럽게 유지한 더빙 영상을 생성한다.

실험 결과, 이스트소프트 연구진이 제안한 방식은 상용화된 기존의 AI 더빙 시스템 대비 영상·음성 싱크 정확도는 24%, 다국어 청취 만족도는 12% 향상된 것으로 나타났다. 

정상원 이스트소프트 대표는 “페르소 AI(Perso AI)는 실제 서비스에서 확인된 문제를 해결해 가며 AI 더빙 기술을 고도화해 왔다”라며 “앞으로도 AI 학회에서 인정받은 기술 경쟁력으로 글로벌 AI 더빙 시장을 이끌어 갈 수 있도록 하겠다”라고 말했다.

서윤석 기자 yoonseok.suh@finance-scope.com

섹터 VIEW