Выделение огибающей сложных периодических сигналов

Введение

Голос и речь человека несут, как известно, явную индивидуальную информацию в силу уникальности физиологического строения его артикуляторного аппарата и специфики речи. Именно поэтому они привлекают внимание фирм -- разработчиков биометрических систем к применению верификации и идентификации диктора для различных приложений. Особенность голосовой биометрики состоит в том, что помимо прочего она допускает удаленную (по телефону) и скрытую аутентификацию с помощью простых и доступных сенсоров (микрофонов), что иногда невозможно или дорого для иной биометрической информации. Удобство для пользователя, простота, способность легко интегрироваться с другими методами -- также важные факторы, говорящие о целесообразности применения речевых технологий в биометрических системах как отдельно, так и в комплексе с другими методами верификации/идентификации личности.

Верификация диктора предполагает подтверждение или отвержение личности по ее речевой фразе при авторизации, т.е. система решает "да" при принятии решения о признании диктора тем, за кого он себя выдает, или "нет" при попытке обмана системы диктором, пытающимся получить авторизацию под чужим именем. Качество системы верификации личности определяется двумя типами ошибок: FAR -- вероятностью принять "чужака" за "своего" и FRR -- вероятностью отвергнуть "своего". Но иногда критерий качества определяется как среднее этих ошибок EER= (FAR+FRR)/2 при условии их равенства. Система верификации диктора работает хорошо, если вероятность ошибочных решений относительно мала.

Идентификация диктора (31) по его речевой фразе представляет собой определение конкретной личности из заданной группы в N дикторов или вынесение решения, что диктор не принадлежит к этой группе. Решения системы 51 могут быть таковы: правильное определение конкретной личности, входящей в заданную группу; ошибочное определение личности, входящей в указанную группу ("перепутывание"); отвержение "своего"; принятие (и отождествление с одним из членов группы) или отвержение "чужака". Качество системы тем выше, чем меньше вероятность ошибки при вынесении решения. Однако некоторые ошибки могут быть менее значимы, чем другие (например, принятие "чужака" может приводить к более драматическим последствиям, т.е. более высокой цене решения, чем неверная идентификация личности из заданной группы).

Приложения систем верификации и идентификации могут быть самыми разнообразными -- от систем локальной или удаленной (по телефону) авторизации личности, связанной с предоставлением прав (используется при допуске к охраняемым объектам или к информации и финансовым операциям в рамках, например, электронной коммерции) до юридических аспектов аутентификации личности в судебной практике. Надежность верификации или идентификации, а также стоимость решения -- важные вопросы, решение которых зависит от конкретного приложения и имеющихся альтернатив.

Речевая фраза, являющаяся объектом анализа и принятия решения при распознавании диктора, может иметь фиксированный характер (пароль), быть выбранной системой по случайному закону из заданного набора или быть произвольной. Соответственно различают текстозависимый, текстоподсказанный или текстонезависимый режим SVI.

Системы автоматической верификации диктора по речевому сигналу обеспечивают надежность, соизмеримую с надежностью принятия решения человеком, хорошо знакомым с голосом диктора, а в некоторых ситуациях превосходят поточности решения человека (особенно при верификации по телефону). Система должна быть предварительно информирована о том, с каким конкретно диктором она взаимодействует, что обеспечивается вводом PIN-кода в речевой или иной форме. Вероятности ошибки EER на уровне долей процента характерны для продвинутых систем SV. Наиболее низкие значения EER характерны для текстозависимого режима, когда верификация диктора проводится по фиксированной парольной фразе, а искажения речевого сигнала отсутствуют. Предполагается, что диктор сотрудничает с системой, т.е. обеспечивает нормальнее взаимодействие с ней в режиме использования парольных фраз.

При идентификации диктора, входящего в небольшую группу (например, жителей интеллектуального дома или корпоративных пользователей) вероятность ошибки может быть на уровне одного процента или менее при хорошем качестве сигнала. Но с ростом числа дикторов надежность падает. Если для идентификации диктора используется текстонезависимый режим, когда речевая фраза может быть произвольной, то это также может понижать надежность.

Содержание