적은 데이터, 단일 모델로 고품질 음성 제작
엔씨소프트가 게임의 음성제작 과정 전반에 활용할 수 있는 AI 모델 'Zero-shot Multi-verse TTS(멀티버스 TTS)'를 공개했습니다.TTS(Text to Speech)는 자연어를 입력해 캐릭터 목소리 같은 음성 콘텐츠를 제작하는 음성 합성 기술입니다.
이번에 엔씨(NC)가 공개한 '멀티버스 TTS'는 3초 분량의 프롬프트 음성만으로도 ▲다양한 발화 스타일 변환 ▲화자 음색 일치도가 높은 교차 언어 생성 ▲다국어 음성 제작을 수행합니다.
엔씨소프트 사옥 / 사진 = 엔씨소프트
엔씨(NC)는 해당 모델을 활용하면 제한된 음성 리소스를 활용해 고품질의 풍부한 AI 캐릭터 보이스 제작이 가능해 기존 음성 작업에 소요되던 시간과 비용을 크게 절감할 수 있다며 '멀티버스 TTS' 기술을 게임 음성 제작 과정 전반에 활용할 계획이라고 설명했습니다.
이번 기술은 인공지능 관련기술 학회 EMNLP(Empirical Methods in Natural Language Processing)에 게재됐습니다.
[정주영 기자 jaljalaram@mbn.co.kr]