logo
Информационный процесс в автоматизированных системах

2.3. Измерение информации в теории информации (информация как снятая неопределенность)

В теории информации количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания и характеризующую неопределенность, которая исчезает после получения сообщения в виде данного сигнала - в этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.

Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество вероятности в сообщении о нем равно 0. Чем вероятнее событие, тем больше информации о нем несет сообщение.

Лишь при равновероятных ответах ответ "да" или "нет" несет 1 бит информации. Оценка количества информации основывается на законах теории информации. Сообщение имеет ценность, несет информацию, когда мы узнаем и понимаем смысл данного сообщения.

Какое количество информации содержится, к примеру, в тексте романа "Война и мир", в фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро.

А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является вывод: в определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

Теория информации как самостоятельная научная дисциплина была основана Клодом Шенноном в конце 40-х годов 20 века. Предложенная им теория основывалась на фундаментальном понятии количественной меры неопределенности - энтропии и связанного с нею понятия количества информации.

Сигнал - это материальный носитель информации (предмет, явление, процесс) в пространстве и во времени. Любой сигнал неразрывно связан с определенной системой, которая является системой связи или системой передачи информации и состоит из следующих модулей: источник, передатчик, канал связи, приемник и адресат. Источник информации задает некоторое множество сообщений. Генерация определенного сообщения заключается в выборе его из множества всех возможных. Сообщения бывают дискретными и непрерывными. Светофор или передача сообщения с помощью азбуки Морзе - примеры дискретного сигнала.

Особым видом сигналов являются знаки, которые в отличие от сигналов естественного происхождения создаются самоорганизующимися системами и предназначаются для передачи и хранения информации. Есть знаки, входящие в четко организованную систему, и внесистемные знаки. Например: знаки дорожного движения, система цветов светофора, музыка, речь и языки, как естественные, так и искусственные. Внесистемные знаки - это или остатки некогда существовавших знаковых систем, или знаки, созданные временно, обычно в небольших коллективах людей. Например, языки жестов и поз.

В теории информации и кодировании принят энтропийный подход к измерению информации, который основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

При энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т.д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия [1].

Энтропия - мера внутренней неупорядоченности информационной системы.

Энтропия увеличивается при хаотическом распределении информационных ресурсов и уменьшается при их упорядочении.

На основе понятий энтропии и количества информации в теории информации введены важные характеристики сигналов и информационных систем:

скорость создания информации;

скорость передачи информации;

избыточность;

пропускная способность каналов связи.

Одним из самых замечательных результатов теории информации является доказательство, что при любых помехах и шумах можно обеспечить передачу информации без потерь.

Первая теорема Шеннона гласит, что при скорости создания информации меньшей пропускной способности канала можно передавать информацию со сколь угодно малой вероятностью ошибок, несмотря на шумы.

Шеннон сформулировал энтропию как меру хаоса в противовес количеству информации как меры упорядоченности структур.

Рассмотрим некоторую сложную систему и проследим ее эволюцию. Пусть эта система представляет собой находящийся в сосуде газ, состоящий из огромного числа беспорядочно движущихся молекул. Мы не знаем точного положения и скорости в каждый момент времени каждой частицы газа, но нам известны макропараметры: давление, объем, температура и состав газа. Фактически мы должны рассчитать число способов, которыми можно осуществить внутренние перестройки в системе, чтобы наблюдатель не заметил изменений макросостояния системы. При этом предполагается неотличимость атомов друг от друга.

Если в системе, состоящей из одного атома, произошло его энергетическое возбуждение, нам это может стать известно по значению температуры. При этом возможно только одно распределение возбуждения в системе равному единице. Энтропия связана с распределением следующим образом: . В нашем случае , а значит, система обладает нулевой энтропией.

В системе из ста атомов, распределение возбуждения может быть осуществлено ста способами, т.е. , . Энтропия системы выросла и стала хаотичной, поскольку мы не знаем, где находится в каждый момент возбужденный атом.

Принято считать, что любая система стремится к состоянию равновесия, т.е. растет энтропия системы. Однако второе начало термодинамики (закон сохранения энтропии и информации) требует компенсировать рост энтропии. Информация и является средством компенсации.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.

Р. Хартли предложил в качестве меры неопределенности логарифм от числа возможностей, т.е. процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определяет как двоичный логарифм N: - формула Хартли.

Обычно количество информации представляется в виде: , где m - число возможных выборов. Тогда стандартной единицей количества информации будет выбор из двух возможностей. Такая единица получила наименование бит и представляется одним символом двоичного алфавита: 0 или 1.

Пример: нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: .Т. е. сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Другие примеры равновероятных сообщений: при бросании монеты: "выпала решка", "выпал орел"; на странице книги: "количество букв чётное", "количество букв нечётное".

В некоторых случаях, когда однозначно нельзя ответить на вопросы распределения вероятности, для определения количества информации уже нельзя использовать формулу Хартли.

Пример: являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона:

,

где рi - вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Если вероятности равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.