В 2014 году компания «ЦРТ-инновации», резидент Сколково, при финансовой поддержке Министерства образования и науки РФ приступила к разработке методов и алгоритмов, которые позволят внедрить средства интеллектуального анализа данных в новых отраслях рынка, связанных с решением задач структурирования, тематизации и понимания больших объемов речевых данных.
При разработке методов и алгоритмов акцент ставился на направлениях, учитывающих специфику текстов, полученных в результате распознавания спонтанной русской речи. Отдельно прорабатывались направления, затрагивающие особенности лингвистического, синтаксического и семантического анализа русского языка. В 2015 году разработанные методы и алгоритмы были представлены международному научному сообществу на конференциях в Дрездене (INTERSPEECH-2015) и в Афинах (SPECOM-2015).
К настоящему моменту процесс теоретических исследований перешел в стадию разработки программного комплекса, реализующего разработанные на ранних этапах проекта методы и алгоритмы. С помощью разрабатываемого программного комплекса пользователи-аналитики смогут решать такие задачи, как:
- Структурирование больших массивов необработанных данных методами иерархической кластеризации и тематической классификации. Решение этой задачи позволит получить представление о составе, структуре и содержании новой, незнакомой аналитику, базы данных. Например, выявить наиболее частые поводы для обращения абонентов в контактный центр, обнаружить связи между этими обращениями, узнать объемы кластеров таких обращений и т.п.
- Поиск в массиве переговоров звукозаписей, нетипичных для конкретной выборки. Например, эта функциональность может быть использована для выявления бытовых разговоров (с родственниками или знакомыми) среди звукозаписей рабочих переговоров.
- Получение автоматических аннотаций переговоров, содержащих извлеченные из диалога смысловые паттерны и семантические связи.
- Выделение связных контекстов слов с использованием синтаксического и семантического парсинга для получения информации о том, в каких контекстах чаще всего употребляются интересующие эксперта персоны, организации, названия и другие именованные сущности.
Особое внимание при разработке программного комплекса уделяется возможностям визуального отображения результатов анализа речи. Система имеет интерфейс интерактивного взаимодействия с пользователем, обеспечивающий универсальность системы для автоматизации решения широкого спектра аналитических задач и расширение возможностей экспертного участия в процессе анализа.
Основными потенциальными потребителями разработки являются аналитические службы контактных центров. Индустриальным партнером «ЦРТ-инновации», который планирует внедрять результаты исследований в свои решения, выступает компания «Центр речевых технологий» (ЦРТ).