Система, созданная разработчиками и учеными из группы ЦРТ, допустила меньше всех ошибок, определяя попытки взлома с помощью записей и воспроизведения чужих голосов на последнем Automatic Speaker Verification Spoofing and Countermeasures Challenge. Об этом на форуме по практической безопасности PHDays рассказал генеральный директор ЦРТ Дмитрий Дырмовский.
Конкурс проходит раз в два года при крупнейшей конференции по речевым технологиям Interspeech. Его организуют ученые европейских университетов, а участие в нем принимают команды от крупных компаний, исследовательских институтов и вузов. Так, например, свои решения выставляют Samsung и Pindrop, являющиеся признанными лидерами на мировом рынке голосовой биометрии.
Каждый раз организаторы предлагают бороться с атаками определенной разновидности и максимально реалистично имитируют их, оценивая число точных и ложных срабатываний фильтров у биометрических систем конкурсантов. На этот раз участникам предложили бороться с «атаками повтора аудиозаписи» (Audio replay attack). При атаке такого типа мошенник записывает на диктофон, как пользователь произносит парольную фразу, а потом воспроизводит эту запись при попытке взлома системы, чтобы выдать себя за пользователя.
Решение ЦРТ показало на конкурсе лучший результат, с вероятностью ошибки 6,73% (Equal error rate). У лидера американского рынка Pindrop, занявшего седьмое место, показатель почти в три раза хуже – 18,14%.
Дмитрий Дырмовский, генеральный директор группы ЦРТ:
– Чем больше услуг государства и бизнесы позволяют получить удаленно, чем выше важность данных, к которым можно получить доступ, подтвердив личность голосовой или видеобиометрией, тем надежней должна быть защита. Кажется, что «простые» атаки не стоят внимания компаний-разработчиков, но это большое заблуждение.
Мы проводим пилот с крупным бразильским банком. По оценке местного интегратора Certisign, фродовая нагрузка на интернет-банкинг на рынке Латинской Америки порядка 20%. И это не сложносочиненные схемы. Большая часть из них – попытки «взять крепость с наскоку». Конечно, к чувствительной информации доступ фразой «Ок, Google», не откроешь. Такие данные обычно защищают сложные бимодальные системы, построенные на принципах непрерывной параллельной голосовой и видеобиометрии с использование динамических парольных фраз. Но люди быстро привыкнут логиниться голосом – это ведь так удобно, биометрическая авторизация будет распространятся на многие-многие сервисы, не все их них будут готовы внедрять сложные многоуровневые решения. И это значит, что проблема простых паролей всплывет на новом уровне.