Виртуальная новостная студия

Приложение на Unreal Engine. Пользователь вводит текст (новость) и выбирает диктора: реалистичную девушку (она была смоделирована в MetaHuman) или лягушку Pepe (3D модель). Приложение создаёт видео произношения этого текста. Рендер в видео позволяет использовать такие настройки графики, на которые компьютер пользователя не способен в реальном времени.

Видео результата около середины разработки: https://www.youtube.com/@avatarasoftware4509 Более позднее видео см. в папке NewsRoom.

Реализация

Текст преобразуется в аудио произносящего его голоса с помощью возможностей TTS, встроенных в Windows. Это аудио анализируется с помощью Oculus Lipsync, чтобы получить данные о том, какова была бы речевая мимика производящего этот голос человека. Следуя этим данным осуществляется липсинк — анимация модели. В процессе липсинка к анимации добавляются инерция, случайность, неречевые движения, моргания.