Синтез речи группы компаний ЦРТ (входит в экосистему Сбера) теперь используют для озвучивания детских сказок на сервисе MySkazka. При помощи технологии было озвучено 10 сказок, которые можно воспроизводить женским и мужским голосом.
Синтез речи — это технология перевода печатного текста в звучащую речь. В группе ЦРТ эту технологию создают на стеке методов глубинного обучения, что позволяет добиться высокого качества синтезированного голоса.
Дмитрий Дырмовский, генеральный директор группы компаний ЦРТ: «Особенность синтеза ЦРТ — в использовании сложных нейросетевых моделей для непрерывной генерации речевого аудиосигнала по тексту, глубокий синтаксический и лексический анализ текста, моделирование интонаций, возможность моделирования дыхания. Это позволяет добиться плавности и выразительности искусственной речи, сделать речь более реалистичной. Синтез группы ЦРТ работает в составе сложных продуктов и AI-решений в различных отраслях по всей стране: в банках, телеком, медицине и др. Совместный проект по интеграции синтеза в проект MySkazka — особый для нас, поскольку связан с самой юной аудиторией и мы рады поддержать его. Уверен, что проект будет развиваться».
MySkazka.com — первый онлайн-сервис в Рунете, который реализовал персональные сказки с иллюстрациями и озвучиванием. Все сказки сервиса написаны профессиональными детскими психологами и писателями. Для создания иллюстраций был проведён отбор среди более чем 100 иллюстраторов. Проект был запущен в конце августа 2020 года, тогда встал вопрос о реализации озвучки сказок.
Иван Глушков, Co-founder MySkazka.com: «Перед нами стояла трудная задача, так как в работе сервиса используются персональные переменные, которые пользователь заполняет в реальном времени. Поэтому простой вариант — озвучить наши сказки с помощью профессионального диктора, нам не подошел. Мы начали искать технологическое решение и выбрали синтез группы ЦРТ: для нас было важно не просто синтезировать речь из текстов сказок, но сделать её максимально похожей на настоящую — с интонацией, придыханием, знаками препинания, ведь целевая аудитория сервиса MySkazka — дети. Озвучивание сказок с помощью синтеза позволит пользоваться сервисом детям, которые еще не умеют читать или испытывают специфические трудности с чтением, а также тем, кто предпочитает формат аудиокниг. Озвучка работает всего неделю, но мы уже наблюдаем положительную динамику — Retention rate сервиса (коэффициент удержания пользователей) вырос на 30%, а конверсия новых пользователей в регистрации увеличилась с 7 до 11%».
Группа компаний ЦРТ (входит в экосистему Сбера) — глобальный разработчик продуктов и решений на основе интеллектуальных речевых технологий, распознавания лиц. Технологический эксперт в области искусственного интеллекта и машинного обучения с 30-летним опытом. Одна из немногих компаний в мире, которая создаёт и развивает обе биометрические модальности — лицо и голос. Выявление подделок голоса и распознавание речи от группы ЦРТ занимает лидирующие позиции в мировых рейтингах NIST, ASVspoof Challenge, VOiCES. На CHiME 2020 технология распознавания речи от ЦРТ была признана лучшей в мире. Группа ЦРТ реализовала более 5000 проектов с применением искусственного интеллекта в 70 странах.