logo search
Лекции

Раздел 6. Лекция 15. Вероятностные автоматы

Детерминированные автоматы S мы задавали совокупностью из пяти объектов: S(A, X, Y, d, l), где A = {a0,a1,a2,...,aM}– множество внутренних состояний автомата, X = {x1, x2,…, xF} – множество входных сигналов (входной алфавит), xi – буква входного алфавита, Y = {y1, y2,…, yG} – множество выходных сигналов (выходной алфавит),

d - функция переходов, обеспечивающая однозначный переход автомата в состояние as из состояния аm под действием входного сигнала xf, то есть as = d [am, xf],

l - функция выходов, определяющая однозначное значение выходного сигнала yg в зависимости от состояния автомата аm и входного сигнала xf, т.е. yg = l[аm , xf].

В работе Поспелова Д.А. «Вероятностные автоматы» рассмотрена более общую модель автомата, а именно: зная состояние автомата аm и входной сигнал xf, мы не можем с вероятностью, равной 1 сказать, в каком состоянии окажется автомат в следующий момент времени, а также какой выходной сигнал он в этом случае вырабатывает. Однако мы можем указать вероятности наступления соответствующего события, а именно: зная состояние аm и входной сигнал xf, мы можем указать вероятности перехода автомата в состояния {а0, а1, …, аm, …, аM}, а также вероятности появления выходных сигналов {y1, y2,…,yg, …, yG}, т.е. задаем закон распределения вероятностей. Законы распределения задаются в виде следующих таблиц:

am,xf

a0

a1

am

aM

a0,x1

P010

P011

P01m

P01M

a0,x2

P020

P021

P02m

P02M

am,xF

P0F0

P0F1

P0Fm

P0FM

a1,x1

P110

P111

P11m

P11M

am,xf

Pmf0

Pmf1

Pmfm

PmfM

aM,xF

PMF0

PMF1

PMFm

PMFM

am,xf

y1

y2

yy

aM

a0,x1

q011

q012

q01y

q01G

a0,x2

q021

q022

q02y

q02G

am,xF

q0F1

q0F2

q0Fy

q0FG

a1,x1

q111

q112

q11y

q11G

am,xf

qmf1

qmf2

qmfy

qmfG

aM,xF

qMF1

qMF2

qMFy

qMFG

Т.е. в каждом случае имеем закон распределения, заданный в виде гистограмм.

Очевидно, т.к. автомат обязательно перейдет в одно из состояний, то

, ,

где ,.

Автоматы, в которых зная состояние автомата аm и входной сигнал xf, мы можем указать лишь вероятности перехода в новое состояние и вероятности появления выходных сигналов, т.е. законы распределения, называются вероятностными автоматами (ВА).

По аналогии с детерминированными автоматами, Можно определить ВА Мили и Мура. ВА, у которых вероятности появления выходных сигналов (закон распределения) зависят лишь от состояний автомата, но не зависят от входных сигналов, называются ВА Мура. Если же вероятности появления выходных сигналов (закон распределения) зависят как от состояний автомата, так и от входных сигналов, имеем автомат Мили.

Рассмотрим некоторые частные случаи вероятностных автоматов. Может быть, что выходные сигналы автомата определяются детерминировано, а переходы автомата – случайно. Такие автоматы называются Y – детерминированными вероятностными автоматами. Если состояния определяются детерминировано, то имеем А- детерминированный вероятностный автомат.

Если в процессе функционирования автомата законы распределения вероятностей появления выходных сигналов и вероятности перехода автомата в новые состояния не меняются во времени, то такие ВА называются ВА с постоянной структурой.

Очевидно, можно рассмотреть общий случай, когда эти законы распределения зависят от времени. Такие автоматы называются ВА с переменной структурой.

ВА с переменной структурой в каждый фиксированный такт работы является некоторым обычным ВА, но в период между тактами ВА может изменять свои матрицы переходных вероятностей или таблицы выходных вероятностей, или и то и другое вместе.

Часто при построении ВА изменение вероятностей производят по некоторому закону, причем закон зависит от истории функционирования автомата (т.е. зависит от входных сигналов, поданных на него и от выходных сигналов, т.е. реакции автомата). Такие ВА с переменной структурой называются автоматами компенсирующего типа. Их разработке и уделяется основное внимание.

В этом случае можно сказать, что ВА работает в некоторой среде, в которую он выдает выходные сигналы и из которой он получает входные.

Входные сигналы условно можно разделить на поощрения («нештрафы») и наказания («штрафы»). При этом в зависимости от выходного сигнала на вход подается поощрение или штраф. Если в зависимости от этих сигналов менять вероятности перехода автомата из одного состояния в другое, то оказывается, что с течением времени автомат перестраивается таким образом, что он начинает с большой вероятностью получать сигналы поощрения, т.е. он в некотором смысле приспосабливается к той среде, в которой он находится.

Проблема организации целесообразного поведения автомата в случайной среде тесно связана со способом изменения вероятностей перехода автомата. Возможно изменение вероятностей перехода автомата по строкам и по столбцам.

Рассмотрим У-детерминированный вероятностный автомат. Пусть автомат в некоторый момент времени t находится в состоянии аm, выдал соответствующий этому состоянию выходной сигнал yg и получил на вход сигнал поощрения. Тогда вероятность рmm перехода из состоянии аm в состояние аm увеличиваются на некоторую величину , а все остальные вероятности в строке уменьшаются на /М. Если же автомат получает сигнал штрафа, товероятность рmm перехода из состоянии аm в состояние аm уменьшаются на некоторую величину , а все остальные вероятности в строке на увеличиваются на/М, чтобы сумма вероятностей осталась равной 1.

Возможен и другой принцип изменения вероятностей, при котором происходит учет предыстории поведения автомата. Если автомат в момент времени t перешел из состояния аm в состояние ак и в момент времени t+1 получил сигнал «штраф», то вероятность рmк заменяется на рmк, где коэффициентбольше 0 и меньше 1, а все остальные вероятности в строке изменяются на величину. Если же получил сигнал «нештраф»,то вероятность рmк величину , а все остальные уменьшаются на величину.

Можно менять вероятности в матрице перехода не только по строкам, но и по столбцам. Например, возможен следующий алгоритм. Если в момент времени t под влиянием входного сигнала xf автомат перешел в состояние аm и в момент времени t+1 получил сигнал «штраф», то независимо от того, из какого состояния он перешел, все элементы m-го столбца в матрице переходов заменяются на (рmm – ) или рmm , а все остальные вероятности изменяются аналогично тому, как это происходило при изменении вероятностей по строкам.

Подобные автоматы уже находят применение при управлении в сложных системах и дают больший эффект там, где раньше работали детерминированные автоматы.

Рассмотрим пример, который приводит Д.А. Поспелов – регулирование движения через автомобильный перекресток. Обычно (мы с вами всегда сталкиваемся именно с таким светофором) задают жесткий режим переключения светофоров, при котором длительность включенных сигналов (красного и зеленого) – постоянны. Однако, как показывает практика работы таких светофоров, решение задачи получается мало эффективным, поскольку предполагается, что потоки машин постоянные, стационарные.

Можно установить датчики на перекрестке, которые бы подсчитывали число машин (очередь), возникающее в данном направлении при красном свете светофора. Пусть на перекрестке стоит ВА компенсирующего типа, который имеет 2 состояния: включен красный свет вдоль главного направления и включен зеленый свет. Каждому состоянию однозначно соответствует выходной сигнал, т.е. автомат У-детерминированный. С датчиков поступают сигналы штрафа и нештрафа.

Матрица переходов выглядит следующим образом: .

Пусть в начале все эти вероятности равны 0,5 и на главном направлении скопилось П1 машин, а на другом – П2. На вход автомата поступает сигнал = П1 – П2. Пусть > 0, т.е. на главном направлении больше машин. Тогда если автомат в момент времени t находился в состоянии зеленом, перешел в состояние зеленый и получил сигнал нештраф, то вероятность рзз (t+1) увеличивается, а вероятность рзк (t+1) уменьшается: рзк (t+1) = рзк (t),

а вероятность рзз (t+1) = 1– рзк (t+1).

Тем самым увеличивается вероятность состояния зеленое вдоль главного направления, т.е. автомат подстраивается под обстановку. Заметим, что если потоки одинаковы, то оптимальной является следующая матрица переходов: .