Техническое медиа Ferra.ru, входящее в состав Rambler Group, первым среди российских СМИ интегрировало в свои новости диджитал-телеведущую Елену от SberDevices. Созданная с помощью нейросетей, она может вести новостные сюжеты, используя только текст для генерации полноценного видеоизображения и речи, а также имитирует мимику и эмоции человека. Первый выпуск с участием Елены уже доступен на сайте Ferra.ru.
Елена — цифровой двойник телеведущей, созданный в 2019 году в Лаборатории робототехники Сбербанка с привлечением группы компаний ЦРТ, технологии которой обеспечивают синтез речи аватара. Его особенность — в использовании сложных нейросетевых моделей для непрерывной генерации речевого аудиосигнала по тексту. Это позволяет добиться плавности и выразительности искусственной речи, а благодаря мощному лингвистическому процессору прочтение текста выполняется со всеми нормами языка даже в сложных случаях.
Изображение Елены — тоже результат работы нейросетевых моделей, обученных на видеозаписях реального человека. Использование новейших исследований в области нейросетевой генерации видео позволяет добиться высокого уровня фотореалистичности персонажа и убедительного сходства с реальным человеком. Собственные разработки компаний экосистемы Сбербанка в этой области уже сейчас позволяют осуществлять одновременную генерацию и речи, и изображения виртуального персонажа.
Владимир Тодоров, директор по развитию медиа Rambler Group:
«Первые аватары телеведущих, созданные и управляемые искусственным интеллектом, появились еще пару лет назад в Китае. За это небольшое время цифровые технологии сильно шагнули вперед, предоставив нам еще больше вариантов для их использования. Для медиа сейчас одним из наиболее перспективных направлений является искусственный интеллект, который уже активно внедряется в издания Rambler Group, делая их еще более интересными и привлекательными для читателей. Так, совместно с компаниями экосистемы Сбербанка мы решили изменить привычную модель подачи информации на Ferra.ru: теперь новости издания можно не только читать, но и смотреть в исполнении прекрасного профессионала — цифрового аватара Елены. Она едва отличима от обычных людей: технологии максимально точно имитируют не только голосовую составляющую Елены, но и отражают человеческие эмоции, повторяют живую мимику».
Николай Симон, руководитель управления разработки виртуальных персонажей SberDevices:
«С момента старта проекта всеми участниками была проделана большая исследовательская работа. Следующий важный шаг — довести эти результаты до массового рынка и сформировать понятный рынку продукт. Очевидно, что это только начало пути: в исследовательской части еще очень много актуальных задач, связанных с генерацией фотореалистичных цифровых персонажей, моделированием качественной анимации тела (включая мимику лица и жесты) и различных стилей (одежда, прически, макияж). Отдельная большая задача — заставить такие технологии работать быстро, в идеале — в режиме реального времени. Это и есть главный фокус SberDevices сегодня, а проект с Ferra.ru — дебют Елены за пределами Сбербанка».
Дмитрий Дырмовский, генеральный директор группы компаний ЦРТ:
«Использование синтеза группы ЦРТ для диджитал-телеведущей — один из знаковых для нас проектов. По сравнению с предшествующей технологией (компилятивного синтеза), применение нейронных сетей позволило нам вывести качество генерируемой речи на новый уровень. С помощью гибких настроек мы привнесли целый пласт новых возможностей по ее управлению: естественное изменение темпа, тона речи, а также стиля прочтения текста. В ближайшем будущем подобная технология сможет еще точнее моделировать человеческие эмоции и в полной мере будет конкурировать с профессиональными дикторами. Кроме того, мы сделали свой синтез доступным не только в виде SDK для встраивания в конечное решение, но и из облака, предоставляя рынку еще больше возможностей».
До сегодняшнего дня Елена присутствовала только во внутрикорпоративных коммуникациях Сбербанка. Развитием и поддержкой проекта занимается SberDevices.
Группа компаний ЦРТ (входит в экосистему Сбербанка) — глобальный разработчик продуктов и решений на основе интеллектуальных речевых технологий, распознавания лиц. Технологический эксперт в области искусственного интеллекта и машинного обучения с 30-летним опытом. Одна из немногих компаний в мире, которая создает и развивает обе биометрические модальности: лицо и голос. Выявление подделок голоса и распознавание речи от группы ЦРТ занимает лидирующие позиции в мировых рейтингах NIST, ASVspoof Challenge, VOiCES, CHiME Challenge. Группа ЦРТ реализовала более 5000 проектов с применением искусственного интеллекта в 70 странах.
Контакты для СМИ — pr@speechpro.com.