Анализатор информационных признаков речевых сигналов. Блок выделения огибающей речевого сигнала

дипломная работа

ВВЕДЕНИЕ

За 30-летний период своего развития ЭВМ были существенно усовершенствованы. Число лиц, имеющих прямой доступ к машине, возросло. Возникла необходимость использования таких терминалов, которые были бы более простыми, не требующими сложной подготовки в процессе управления. Стало бурно развиваться направление «человек-ЭВМ».

Диалог «человек-ЭВМ» представляет собой обмен информацией в двух аспектах. Для аспекта «ЭВМ-человек» коммуникация может осуществляться через устройство синтеза, которое извлекает из запоминающего устройства ЭВМ данные, необходимые для составления сообщения по определённым правилам. Разнообразные системы, применяющиеся в настоящее время, осуществляют синтез различных языковых единиц. При этом исходной единицей является слово. Однако для такой исходной единицы синтез значительных словарных объемов не представляется возможным, так как предполагает нежелательную перегрузку машинной памяти. Современные исследования направлены на определение правил синтеза, применимых к более мелким единицам, таким как, например, дифоны, фонемы, слоги. С помощью этих единиц можно синтезировать в принципе безграничное число словарных единиц-слов.

В диалоге «человек-ЭВМ» информация передается обычно с помощью клавиатуры, что предполагает некоторую подготовку пользователя при запросе на том языке, который ЭВМ способна интерпретировать. Если бы ЭВМ смогла понимать человеческую речь, то это было бы оптимальным решением проблемы. При первом подходе к данной проблеме необходимо было заменить человеческий голос кодом на клавиатуре, т.е. ввести в схему вычислительной машины распознающее устройство, способное, например, воспринимать десять цифр и простейшие слова, такие как да и нет. Конечная цель состоит в том, чтобы добиться такой диалоговой системы, которая была бы наиболее естественной для человека и представляла бы больше «инициативы» ЭВМ для передачи семантического содержания речи. Эта сложная задача относится к области распознавания речи.

В области телефонной и телеграфной связи также предполагается использование диалога «человек-ЭВМ». Такие случаи, как указание на номер абонента и расчет стоимости (информация о стоимости коммуникации), носят лимитированный характер, поскольку ЭВМ дает лишь типовой ответ. Более сложным является, например, создание автоматического справочного центра, который включает в себя распознающее и синтезирующее устройства.

Речь является наиболее естественной опорой коммуникации. Она представляет собой процесс производства и приема сложного акустического сигнала, посредством которого мысль одного индивида (адресанта) может быть передана и понята другим (адресатом). Простой акт говорения затрагивает такие сложные процессы, которые по сегодняшний день остаются недостаточно понятными. Процесс мышления уподобляется источнику информации. Затем информация кодируется на различных уровнях мозговой деятельности для создания сложного акустического сигнала, передающегося адресату с помощью канала (например, воздушного пространства или телефона). Ухо адресата декодирует этот сигнал и воспроизводит его форму, необходимую для последующей интерпретации.

Усилия, предпринятые в направлении создания успешного диалога «человек-ЭВМ», привели к неоднозначным результатам, поскольку не было достаточной информации в области фонации и артикуляции. Обратились к результатам, основанным на спектральном анализе речевого сигнала. Конечная цель заключается в том, чтобы смоделировать совокупность процессов, принимающих участие в производстве речи, исходным моментом которой является мышление, представляющее собой основной источник информации. На сегодняшний день для окончательного достижения этой цели сведений еще недостаточно.

Видимо, перспективно опираться на моделирование слуховой системы человека. Однако этот процесс еще мало известен, что затрудняет его оптимальное моделирование. Вместе с тем известно, что внутреннее ухо осуществляет предварительный спектральный анализ речевого сигнала непосредственно перед поступлением его в мозг. Так что вполне закономерна опора процедуры узнавания именно на спектральный анализ речевого сигнала.

Эффективность анализа речи зависит от адекватности извлечения искомого типа информации и ее компрессии в потоке речи. Классическим примером применения речевого анализа является цифровая передача речи. В этом случае анализатор должен осуществлять такое сокращение речевой информации, подлежащей передаче, например, которое обеспечивало бы на должном уровне соответствующее ее восстановление при телефонной связи. Все операции по анализу и синтезу при этом должны осуществляться за реальный отрезок времени.

Данные, необходимые для синтеза речи в диалоге «человек-машина», получают с помощью анализа. В целях определения опорной единицы информации (фонемы, дифона, слога и т.д.), которую предполагается использовать для синтеза, выбирают оптимальный исходный речевой материал. Качество синтезированной речи зависит, главным образом, от качества воспроизводства сигнала после анализа. Интерес к использованию единиц, воспроизводство которых ведет к синтетическому сигналу, связан с проблемой запоминания данных.

В основе диалога лежит необходимость распознавания ЭВМ человеческой речи. Можно выделить различные уровни сложности такого применения: узнавание нескольких ключевых слов, узнавание большего словарного запаса (например, машине задается выполнение относительно простых видов работ, таких как модификация картотеки, содержащей данные по состоянию складов какого-либо магазина и т.д.); распознавание обширного словарного запаса в контексте завершенного диалога «человек-машина». В данном случае предусмотрены программированное обучение и прямое программирование ЭВМ. Независимо от применения качество распознавания зависит от качества полученных с помощью анализа параметров. В данной области используется, как правило, спектральный анализ. Первоначальный этап анализа состоит в распознавании различных речевых единиц по параметрам, полученным в ходе анализа акустического сигнала. Согласно гипотезе идентификация подобного рода должна привести к полному распознаванию последовательности фонем в непрерывно звучащей речи. Поскольку результаты данного подхода оказались недостаточными, поиски были переориентированы на ввод в процедуру по распознаванию лингвистических ограничений. В связи с этим активно разрабатывались системы, включающие различные языковые уровни: фонологический, лексический, синтаксический, семантический.

Делись добром ;)