4.1 Техническая характеристика технологии VoiceKey
Технология идентификации по голосу Voice Key основана на уникальности геометрии речевого тракта каждого человека. В Voice Key используется спектрально-формантный метод, базирующийся на различных спектральных характеристиках речи разных людей. Спектрально-формантный метод основан на анализе поведения трех и более формант (спектральных максимумов), отражающих уникальность геометрии речевого тракта индивида.
Наиболее явно различие спектральных характеристик проявляется в соположении формант в вокализованных отрезках речи. Пример формантного представления речи двух разных людей при произнесении фразы «Голосовой поиск» приводится на рисунке №1 ниже (по вертикальной оси - частота сигнала в Гц, по горизонтальной - время звучания в секундах, степень зачернения отражает концентрацию энергии).
Рисунок №1. Пример формантного представления речи двух разных людейИспользуемый в Voice Key спектрально-формантный метод основан на выделении и сравнении положения и динамики поведения трех и более формант. Используется несколько десятков параметров, характеризующих формантную структуру речи.
Принцип работы включает 4 основных этапа:
· Создание шаблона -- сведения о физиологической или поведенческой характеристике преобразуются в форму, доступную компьютерным технологиям, и сохраняются в память биометрической системы
· Выделение -- из вновь предъявленного идентификатора выделяются уникальные признаки, анализируемые системой
· Сравнение -- сопоставляются сведения о вновь предъявленном и ранее зарегистрированном идентификаторе
· Решение -- вносится заключение о том, совпадают или не совпадают вновь предъявленный и ранее зарегистрированный идентификатор
Заключение о совпадении/несовпадении идентификаторов затем транслируется другим системам (контроля доступа, защиты информации и т.д.), которые далее действуют в зависимости от полученной информации.
Важнейшим элементом успешного распознавания дикторов является выбор информативных признаков (речевых параметров), способных эффективно представлять информацию об особенностях речи конкретного диктора.
К ним предъявляются следующие требования:
эффективность представления информации об особенностях речи конкретного диктора;
простота измерения;
стабильность во времени;
частое и естественное появление в речи;
невосприимчивость к имитации.
В качестве уникального вектора признаков можно использовать одномерный частотный вектор кепстральных коэффициентов, а также вектор, составленный из его производных.
Кепстральные коэффициенты определяются в соответствии со схемой, представленной на Рисунке №2:
Рисунок №2 - Общая схема кепстрального анализа сигнала (FFT - блок быстрого преобразования Фурье сигнала, LOG - блок логарифмирования спектра, IFFT - блок обратного быстрого преобразования Фурье)
В качестве вектора признаков можно использовать коэффициенты отражения. Физический смысл коэффициентов отражения состоит в определении величины волны, отраженной на границе двух акустических труб.
Коэффициенты отражения рассчитываются путем преобразования вектора коэффициентов предсказывающего фильтра a в коэффициенты отражения соответствующей решетчатой структуры по следующему рекурсивному алгоритму:
k(n)=an(n) (1.1)
(1.2)
Данные формулы основаны на рекурсивном алгоритме Левинсона. Для его реализации в цикле перебираются элементы вектора a, начиная с последнего и заканчивая вторым.
Иногда используются также функции от коэффициентов отражения - логарифмические отношения площадей (Log-Area Ratio - LAR):
(1.3)
где ki - коэффициенты отражения.
Еще одним признаком являются площади поперечных сечений акустических труб. Голосовой тракт можно представить в виде последовательности р акустических труб одинаковой длины и различных диаметров, имеющие площади поперечных сечений Ai. Представление голосового тракта в виде последовательности труб изображено на Рисунке №3.
Площади поперечных сечений Ai акустических труб вычисляется через коэффициенты отражения:
(1.4)
где р - порядок линейного предсказателя,
ki - коэффициенты отражения.
(A2 ,..., Ap+1) - вектор признаков, основанный на площадях акустической трубы.
Рисунок №3- Представление голосового тракта в виде последовательности труб
Коэффициенты отражения определяют соотношение площадей соседних секций. Таким образом, площади поперечного сечения не определяются абсолютно точно, но все-таки эти площади часто бывают сходными с конфигурацией голосового тракта, используемого человеком при речеобразовании.
В настоящее время на мировом рынке существуют аналоги данной системе. Это технологии STC Grid ID, Veri Speak, BioLink AMIS, VOCORD VoicelD, Трал Лаб и М ID.
Отличительные особенности каждой из систем представлены в таблице №2.
Таблица №2
Наименование основных параметров (характеристик) продукции |
Сравнительные значения зарубежных аналогов продукции |
Сравнительные значения отечественных аналогов продукции |
Рассматриваемая технология |
||||||
STC Grid ID |
Veri Speak |
BioLink AMIS |
VOCOD VoicelD |
Трал Лаб |
М ID |
Voice Key |
|||
Использование технологий шумоочистки речевых сигналов Технологии шумоочистки речевых сигналов классифицируются по типу искажения. |
1)BABBLE NOISE |
+ |
+ |
+ |
+ |
+ |
+ |
+ |
|
2) MUSIC NOISE |
+ |
+ |
- |
- |
+ |
- |
+ |
||
3)NONSTATIONARY NOISE |
+ |
- |
+ |
+ |
- |
+ |
- |
||
4) PULSE NOISE |
+ |
+ |
+ |
- |
+ |
+ |
- |
||
5)TONAL NOISE |
+ |
- |
+ |
+ |
+ |
- |
- |
||
6)WIDEBAND NOISE |
+ |
+ |
+ |
+ |
+ |
- |
+ |
||
7) GSM HINDRANCE |
+ |
- |
+ |
+ |
- |
+ |
- |
||
8)CLIPPING |
+ |
+ |
- |
+ |
+ |
- |
+ |
||
9)REVERBERATION & NOISE |
+ |
- |
+ |
- |
+ |
- |
+ |
||
10) Объем базы данных ( образцов голосов) |
1 200000 |
800 000 |
1 000000 |
800 000 |
600 000 |
500 000 |
600 000 |
||
11) Пиковая производительность2 (сравнений за минуту) |
300 000 |
400 00 |
250 000 |
200 000 |
300 000 |
350 000 |
300 000 |
||
12) Возможность удаленной работы3 |
Полноценная |
Полноценная |
Ограниченная |
Полноценная |
Ограниченная |
Ограниченная |
Ограниченная |
||
13) Платформо-независимость4 |
Полноценная |
Ограниченная |
Полноценная |
Полноценная |
Полноценная |
Ограниченная |
Ограниченная |
||
Комбинации с другими биометрическими методами5 |
14)VERILOOK |
+ |
+ |
- |
- |
+ |
- |
- |
|
15)VERIFINGER |
- |
+ |
- |
- |
- |
+ |
- |
||
16)VERIEYE |
- |
+ |
- |
- |
+ |
- |
- |
||
17) Макс, общая емкость СУБД (млн. записей) |
300 |
200 |
200 |
150 |
100 |
100 |
150 |
||
18) Длительность аудиозаписи6 (сек) |
90 |
60 |
60 |
80 |
60 |
60 |
70 |
||
19) Отношение сигнал/шум7 (Дб) |
12 |
12 |
10 |
14 |
14 |
12 |
14 |
1.Технологии шумоочистки речевых сигналов:
1) BABBLE NOISE - технология подавления шума толпы
2) MUSIC NOISE - технология подавления шума музыки
3) NONSTATIONARY NOISE - технология подавления нестационарных шумов
4) PULSE NOISE - технология подавления импульсных шумов
5) TONAL NOISE - технология подавления тональные помех
6) WIDEBAND NOISE - технология подавления широкополосных шумов
7) GSM HINDRANCE - технология подавления наводки мобильных телефонов
8) CLIPPING - клиппирование сигнала - обрезание пороговых значений.
9) REVERBERATION & NOISE - реверберация
2. Пиковая производительность - максимальна возможная скорость работы системы.
3. Возможность удаленной работы - поддерживаемые браузеры и типы Веб-интерфейса в совокупности с защищенными протоколами передачи данных.
4. Платформонезависимость - определяет, в какой степени система совместима со всеми существующими операционными системами, что позволяет подстраиваться под IT-инфраструктуру Заказчика.
5. Комбинации с другими биометрическими методами:
1) VERILOOK - идентификация лица, отпечатков пальцев и ладони
2) VERIFINGER - идентификация отпечатков пальцев и ладони
3) VERIEYE - идентификация радужной оболочки
6. Длительность аудиозаписи - длительность аудиозаписи для корректного получения индивидуальных особенностей голоса диктора, используемых при построении «дикторской» карточки.
7. Отношение сигнал/шум - в таблице указаны минимальные значения параметра.
Проанализировав данную таблицу можно сказать, что технология Voice Key является конкурентоспособной благодаря оптимальному соотношению цены и функциональности. Данная система поддерживает основные технологии шумоочистки речевых сигналов, а значения основных параметров не уступают существующим аналогам. Также, технология Voice Key имеет два уровня защиты (сравнение биометрических данных и проверка пароля) и может работать в зашумленных условиях. Все это позволяет предположить, что данная технология сможет успешно позиционировать себя на мировом рынке.
- 1. ТЕХНИКО-ЭКОНОМИЧЕСКОЕ ОБОСНОВАНИЕ ПРОЕКТА VOICEKEY
- 1.1 Технология идентификации по голосу
- 1.2 Преимущества биометрических систем аутентификации
- 2.1 Обоснование актуальности Технологии VoiceKey
- 3. ОБОСНОВАНИЕ ПРЕДЛАГАЕМОГО ПРОЕКТНОГО РЕШЕНИЯ
- 3.1 Состояние рынка биометрических технологий
- 3.2 Характеристика современных систем голосовой биометрии
- 3.3 Голосовая биометрия в России
- 4. ХАРАКТЕРИСТИКА ПРЕДЛАГАЕМОЙ ТЕХНОЛОГИИ
- 4.1 Техническая характеристика технологии VoiceKey
- 5. СОДЕРЖАНИЕ ВЫПОЛНЯЕМЫХ РАБОТ
- 5.1 Сроки исполнения и финансирование по этапам
- 6. ОБЛАСТЬ ВОЗМОЖНОГО ИСПОЛЬЗОВАНИЯ
- 6.1 Голосовая биометрия
- 6.2 Использование голосовой биометрии в различных областях
- 6.3 Состояние рынка систем идентификации в настоящее время
- 6.4 Системы голосовой аутентификации различных компаний
- 6.5 Перспективы голосовой биометрии
- The keys
- Voice input
- 13. Технологии бесконтактной идентификации.
- Voice input
- 13.Биометрические средства идентификации 2. (лицо, голос, сосуды)
- Идентификация по голосу и особенностям речи
- 5. Биометрическая идентификация пользователей. Идентификация по манере работы по клавиатуре. Идентификация по голосу. Распознавание пользователей по лицу.
- Передача голоса
- In blue: Key at 31.