Фото: Александр Коряков, Коммерсантъ
Экспертное мнение
Российские технологии распознавания речи занимают верхние строчки мировых рейтингов. Речевые технологии, биометрию, диалоговых ассистентов масштабируют все новые индустрии. О развитии рынка искусственного интеллекта и о том, почему появление больших языковых моделей задает мощный импульс, корреспонденту
Business Guide Анастасии Захаровой рассказал генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.
BUSINESS GUIDE: Что, на ваш взгляд, можно назвать главным технологическим событием года?
ДМИТРИЙ ДЫРМОВСКИЙ: Главным технологическим событием стали новые возможности генеративного искусственного интеллекта, среди которых LLM (Large Language Model) — большие языковые модели. К ним относятся зарубежный ChatGPT и российский GigaChat от Сбера. Мы реализовали эксперименты по внедрению GigaChat в свои решения для контактных центров: речевую аналитику, диалоговых ассистентов. Комбинация больших языковых моделей с другими моделями позволяет упростить процессы, сокращать ручное обучение и открывает потрясающие перспективы.
BG: Пока это эксперименты?
Д. Д.: Мы уже представили SpeechXplore — готовое решение для онлайн-обработки, исследования и развития коммуникаций с клиентами в контакт-центрах крупного бизнеса и госсектора. Все звонки расшифровываются в онлайн-режиме, прямо в момент обращения клиента. Это позволяет операторам не просто отвечать на вопросы, а прогнозировать желания клиентов. Новые инструменты анализа на основе GigaChat помогают обобщить содержание и тематики диалогов, оценивать их результативность и тональность.
BG: Технологии помогают исследовать обращения, поступившие только по телефону?
Д. Д.: Мы давно перешли от привычного анализа диалогов «клиент — оператор». Наши решения помогают исследовать обращения во всех каналах: по телефону, в мессенджерах, чат-ботах, голосовых ассистентах, соцсетях. Возможен анализ полилогов, к примеру, комментариев в соцсетях и общения в офисах продаж.
BG: По данным Telecom Daily, в 2024–2025 годах российский рынок речевой аналитики в среднем вырастет на 15%. Согласны с оценкой?
Д. Д.: Прогноз корректный. Markets & Markets оценили объем мирового рынка речевой аналитики в 2022 году в $2,3 млрд, а к 2027 году он достигнет $5,1 млрд при годовых темпах роста 17,3%. Среди драйверов — использование LLM.
BG: В том же отчете указано, что по выручке в сегменте речевой аналитики лидирует ЦРТ с долей рынка более 33%. Можете ли выделить успешные кейсы?
Д. Д.: Речевая аналитика ЦРТ работает в контактном центре Сбера для корпоративных клиентов. В том числе за счет технологий речевой аналитики удалось улучшить ключевые показатели клиентского опыта: индекс удовлетворенности клиентов, показатель удобства пользования.
Речевая аналитика ВТБ помогает найти трудности, с которыми сталкиваются клиенты. Это позволило повысить показатель удовлетворенности на 44%. Речевую аналитику использует и Газпромбанк. Инструмент помог улучшить качество сервиса, увеличить рост продаж персонально подобранных продуктов и сократить затраты на обслуживание.
BG: Есть ли новые реализованные кейсы в телекоме?
Д. Д.: Да, телеком — одна из прогрессивных индустрий. В МТС речевая аналитика менее чем за год помогла на 10% снизить количество операторских ошибок, повысить уровень удовлетворенности клиентов и эффективность прямых продаж интернет-магазина. Речевую аналитику масштабирует «Ростелеком», который миллионам семей предоставляет услуги интернет-доступа и телевидения. Аналитика уже охватывает более 80% продуктов и 75% процессов обслуживания клиентов в большинстве макрорегионов, работает более чем на 3 тыс. рабочих мест операторов. За год с ее помощью изучено более 38 млн звонков, свыше 13 млн чатов. Удалось снизить долю повторных обращений и на 30% увеличить количество благодарностей клиентов.
BG: Как развиваются диалоговые ассистенты?
Д. Д.: Диалоговые ассистенты уже очень близки к человеческому, human-like-уровню. В тренде уникальность: диалоговые ассистенты становятся полноценными персонажами, элементами бренда. В перспективе LLM могут позволить понимать запрос пользователя без ручного обучения классификатора, что ускорит разработку сценария ассистента в несколько раз. LLM смогут самостоятельно генерировать ответы на вопросы с учетом контекста и тональности диалога.
BG: Недавно группа ЦРТ представила синтез речи нового поколения. В чем его преимущество?
Д. Д.: Новое поколение обеспечивает плавность, возможность настройки интонаций и эмоций в зависимости от кейса. Прорыв не только в реалистичности, но и в скорости: теперь для создания синтеза для промышленного применения требуется около часа речи диктора и две недели разработки, тогда как ранее была потребность в десятках часов и трех месяцах разработки.
BG: Какого диалогового ассистента вы можете выделить?
Д.Д.: Можно выделить Александру — чат-бота столичного метрополитена, которая недавно отметила день рождения — ей исполнилось три года. Александра стала незаменимым помощником пассажирам, пешеходам и автомобилистам, горожане стали быстрее получать нужную информацию о работе городского транспорта. В день она обрабатывает 13 тыс. сообщений, ответила более чем на 5,5 млн вопросов.
BG: Если говорить о развитии ассистентов в целом, то какие векторы можно отметить?
Д. Д.: Диалоговые ассистенты оптимизируют не только внешнее взаимодействие с пользователями, но и внутреннее. На AI-платформе ЦРТ уже создан «ВиКо» — виртуальный ассистент, который оптимизировал работу Главного вычислительного центра РЖД. За первый месяц работы «ВиКо» успел обработать более 34 тыс. запросов, в 85% случаев успешно решив проблему.
BG: Группа ЦРТ представила новый релиз решения для протоколирования. В чем оно заключается?
Д. Д.: Мы представили продукт Нестор.BRIEF, который преобразует голоса участников совещаний в текст. Среди обновлений — технология, которая позволяет выделять реплики до десяти спикеров, формируя протокол с указанием, кому какая реплика принадлежит. И здесь мы также экспериментируем с LLM. В перспективе это позволит расширить функциональность: формировать краткие протоколы, автоматически создавать поручения для участников.
BG: В каких индустриях сегодня применяются речевые технологии?
Д. Д.: Можно выделить здравоохранение. Продукт Voice2Med преобразует голос врача в текст, позволяет надиктовывать описание исследования. В московских поликлиниках голосом заполнено более 210 тыс. медпротоколов лучевых исследований. Центр диагностики и телемедицины Департамента здравоохранения Москвы зафиксировал, что экономия времени врачей за счет голосового ввода составляет более 20%, а точность распознавания речи — 98%. При заполнении специальных форм голосовой ввод экономит более 50% времени. В Центре Алмазова в Петербурге голосом заполнено более 17 тыс. медпротоколов по лучевой диагностике. Решение используют и в петербургской городской поликлинике № 91. В этом году мы представили словари для врачей уже девяти специализаций, точечно масштабировали решение в 69-й регион страны.
BG: Могут ли другие отрасли применять практику голосового ввода?
Д. Д.: Голосовой ввод актуален в промышленности, ТЭК, энергосбытовых компаниях. На основе синтеза и распознавания речи работает сервис в «Мосэнергосбыте», который позволяет принимать показания счетчиков электроэнергии голосом. Виртуальные ассистенты автоматизировали более 40% звонков, а пользователи оценили качество синтеза речи.
BG: Какие еще направления развития вы можете отметить?
Д. Д.: Среди ключевых — технологии лицевой биометрии. Биометрическая система компьютерного зрения ЦРТ «Визирь» работает на 250 объектах транспорта по всей стране, также реализуются проекты в спорте, АПК «Безопасный город». Эффективность позволяет обеспечить дальнейшее масштабирование.
BG: Технологический прорыв, связанный с LLM, изменил бизнес и IT-ландшафт?
Д. Д.: Мы в начале большой трансформации. Все больше компаний, осознавая тренд, будут экспериментировать с LLM, будут появляться и усложняться новые кейсы, мультимодальные сценарии. Вероятно, мы увидим и попытки создавать свои модели, и попытки их имплементации в самостоятельно разработанные продукты. Это объяснимо: бизнес уже столкнулся с уходом ряда вендоров, поэтому некоторые компании пытаются разрабатывать решения самостоятельно. Выиграет тот, кто сможет умножить опыт и экспертизу на новые технологии и скорость. Поэтому мы с клиентами прорабатываем новые кейсы с учетом современных потребностей. Уверен, что в синергии мы продолжим демонстрировать бизнес-результаты и развивать рынок.
Источник: https://www.kommersant.ru/amp/6410132