logo
Технология идентификации по голосу Voice Key

4.1 Техническая характеристика технологии VoiceKey

Технология идентификации по голосу Voice Key основана на уникальности геометрии речевого тракта каждого человека. В Voice Key используется спектрально-формантный метод, базирующийся на различных спектральных характеристиках речи разных людей. Спектрально-формантный метод основан на анализе поведения трех и более формант (спектральных максимумов), отражающих уникальность геометрии речевого тракта индивида.

Наиболее явно различие спектральных характеристик проявляется в соположении формант в вокализованных отрезках речи. Пример формантного представления речи двух разных людей при произнесении фразы «Голосовой поиск» приводится на рисунке №1 ниже (по вертикальной оси - частота сигнала в Гц, по горизонтальной - время звучания в секундах, степень зачернения отражает концентрацию энергии).

Рисунок №1. Пример формантного представления речи двух разных людейИспользуемый в Voice Key спектрально-формантный метод основан на выделении и сравнении положения и динамики поведения трех и более формант. Используется несколько десятков параметров, характеризующих формантную структуру речи.

Принцип работы включает 4 основных этапа:

· Создание шаблона -- сведения о физиологической или поведенческой характеристике преобразуются в форму, доступную компьютерным технологиям, и сохраняются в память биометрической системы

· Выделение -- из вновь предъявленного идентификатора выделяются уникальные признаки, анализируемые системой

· Сравнение -- сопоставляются сведения о вновь предъявленном и ранее зарегистрированном идентификаторе

· Решение -- вносится заключение о том, совпадают или не совпадают вновь предъявленный и ранее зарегистрированный идентификатор

Заключение о совпадении/несовпадении идентификаторов затем транслируется другим системам (контроля доступа, защиты информации и т.д.), которые далее действуют в зависимости от полученной информации.

Важнейшим элементом успешного распознавания дикторов является выбор информативных признаков (речевых параметров), способных эффективно представлять информацию об особенностях речи конкретного диктора.

К ним предъявляются следующие требования:

эффективность представления информации об особенностях речи конкретного диктора;

простота измерения;

стабильность во времени;

частое и естественное появление в речи;

невосприимчивость к имитации.

В качестве уникального вектора признаков можно использовать одномерный частотный вектор кепстральных коэффициентов, а также вектор, составленный из его производных.

Кепстральные коэффициенты определяются в соответствии со схемой, представленной на Рисунке №2:

Рисунок №2 - Общая схема кепстрального анализа сигнала (FFT - блок быстрого преобразования Фурье сигнала, LOG - блок логарифмирования спектра, IFFT - блок обратного быстрого преобразования Фурье)

В качестве вектора признаков можно использовать коэффициенты отражения. Физический смысл коэффициентов отражения состоит в определении величины волны, отраженной на границе двух акустических труб.

Коэффициенты отражения рассчитываются путем преобразования вектора коэффициентов предсказывающего фильтра a в коэффициенты отражения соответствующей решетчатой структуры по следующему рекурсивному алгоритму:

k(n)=an(n) (1.1)

(1.2)

Данные формулы основаны на рекурсивном алгоритме Левинсона. Для его реализации в цикле перебираются элементы вектора a, начиная с последнего и заканчивая вторым.

Иногда используются также функции от коэффициентов отражения - логарифмические отношения площадей (Log-Area Ratio - LAR):

(1.3)

где ki - коэффициенты отражения.

Еще одним признаком являются площади поперечных сечений акустических труб. Голосовой тракт можно представить в виде последовательности р акустических труб одинаковой длины и различных диаметров, имеющие площади поперечных сечений Ai. Представление голосового тракта в виде последовательности труб изображено на Рисунке №3.

Площади поперечных сечений Ai акустических труб вычисляется через коэффициенты отражения:

(1.4)

где р - порядок линейного предсказателя,

ki - коэффициенты отражения.

(A2 ,..., Ap+1) - вектор признаков, основанный на площадях акустической трубы.

Рисунок №3- Представление голосового тракта в виде последовательности труб

Коэффициенты отражения определяют соотношение площадей соседних секций. Таким образом, площади поперечного сечения не определяются абсолютно точно, но все-таки эти площади часто бывают сходными с конфигурацией голосового тракта, используемого человеком при речеобразовании.

В настоящее время на мировом рынке существуют аналоги данной системе. Это технологии STC Grid ID, Veri Speak, BioLink AMIS, VOCORD VoicelD, Трал Лаб и М ID.

Отличительные особенности каждой из систем представлены в таблице №2.

Таблица №2

Наименование основных параметров (характеристик) продукции

Сравнительные значения зарубежных аналогов продукции

Сравнительные значения отечественных аналогов продукции

Рассматриваемая технология

STC Grid ID

Veri

Speak

BioLink AMIS

VOCOD VoicelD

Трал Лаб

М ID

Voice Key

Использование

технологий шумоочистки речевых

сигналов Технологии шумоочистки речевых сигналов классифицируются по типу искажения.

1)BABBLE NOISE

+

+

+

+

+

+

+

2) MUSIC NOISE

+

+

-

-

+

-

+

3)NONSTATIONARY NOISE

+

-

+

+

-

+

-

4) PULSE NOISE

+

+

+

-

+

+

-

5)TONAL NOISE

+

-

+

+

+

-

-

6)WIDEBAND NOISE

+

+

+

+

+

-

+

7) GSM HINDRANCE

+

-

+

+

-

+

-

8)CLIPPING

+

+

-

+

+

-

+

9)REVERBERATION & NOISE

+

-

+

-

+

-

+

10) Объем базы данных

( образцов голосов)

1 200000

800 000

1 000000

800 000

600 000

500 000

600 000

11) Пиковая производительность2 (сравнений за минуту)

300 000

400 00

250 000

200 000

300 000

350 000

300 000

12) Возможность удаленной работы3

Полноценная

Полноценная

Ограниченная

Полноценная

Ограниченная

Ограниченная

Ограниченная

13) Платформо-независимость4

Полноценная

Ограниченная

Полноценная

Полноценная

Полноценная

Ограниченная

Ограниченная

Комбинации с другими биометрическими методами5

14)VERILOOK

+

+

-

-

+

-

-

15)VERIFINGER

-

+

-

-

-

+

-

16)VERIEYE

-

+

-

-

+

-

-

17) Макс, общая емкость СУБД (млн. записей)

300

200

200

150

100

100

150

18) Длительность аудиозаписи6 (сек)

90

60

60

80

60

60

70

19) Отношение сигнал/шум7 (Дб)

12

12

10

14

14

12

14

1.Технологии шумоочистки речевых сигналов:

1) BABBLE NOISE - технология подавления шума толпы

2) MUSIC NOISE - технология подавления шума музыки

3) NONSTATIONARY NOISE - технология подавления нестационарных шумов

4) PULSE NOISE - технология подавления импульсных шумов

5) TONAL NOISE - технология подавления тональные помех

6) WIDEBAND NOISE - технология подавления широкополосных шумов

7) GSM HINDRANCE - технология подавления наводки мобильных телефонов

8) CLIPPING - клиппирование сигнала - обрезание пороговых значений.

9) REVERBERATION & NOISE - реверберация

2. Пиковая производительность - максимальна возможная скорость работы системы.

3. Возможность удаленной работы - поддерживаемые браузеры и типы Веб-интерфейса в совокупности с защищенными протоколами передачи данных.

4. Платформонезависимость - определяет, в какой степени система совместима со всеми существующими операционными системами, что позволяет подстраиваться под IT-инфраструктуру Заказчика.

5. Комбинации с другими биометрическими методами:

1) VERILOOK - идентификация лица, отпечатков пальцев и ладони

2) VERIFINGER - идентификация отпечатков пальцев и ладони

3) VERIEYE - идентификация радужной оболочки

6. Длительность аудиозаписи - длительность аудиозаписи для корректного получения индивидуальных особенностей голоса диктора, используемых при построении «дикторской» карточки.

7. Отношение сигнал/шум - в таблице указаны минимальные значения параметра.

Проанализировав данную таблицу можно сказать, что технология Voice Key является конкурентоспособной благодаря оптимальному соотношению цены и функциональности. Данная система поддерживает основные технологии шумоочистки речевых сигналов, а значения основных параметров не уступают существующим аналогам. Также, технология Voice Key имеет два уровня защиты (сравнение биометрических данных и проверка пароля) и может работать в зашумленных условиях. Все это позволяет предположить, что данная технология сможет успешно позиционировать себя на мировом рынке.