2.1. Количество информации, и ее мера
Главным свойством случайных событий является отсутствие полной уверенности в их наступлении, создающее известную неопределенность при выполнении связанных с этим событий. Ясно, что степень этой неопределенности в различных случаях будет совершенно разной. К примеру, сравните опыты:
- определение цвета первой встретившейся вам вороны (иногда встречаются белые):
- первый встретившийся - левша (обоснование);
- первый встретившийся мужчина или женщина ( степень неопределенности);
- номер лотерейного билета (выигравший).
Для практики важно уметь численно оценивать степень неопределенности опытов, чтобы иметь возможность сравнивать их.
Начнем с рассмотрения опытов, имеющих k равновероятных исходов. Очевидно, что степень неопределенности оценивается числом k. При k=1 исход опыта не является случайным. С ростом k, т.е. при наличии большего числа разнообразных исходов, предсказания результата становятся затруднительными.
Таким образом, искомая численная характеристика степени неопределенности должна зависеть от k, т.е. являться f(k). При k=1, f(k)=0 (ибо в этом случае неопределенность полностью отсутствует и при увеличении k, f(k) должна увеличиваться.
Для более полного определения f(k) надо предъявить к ней дополнительные требования. Рассмотрим два независимых опыта и (т.е. любые сведения об исходе первого из них не влияют на исход второго). Пусть опыт имеет k исходов, опыт исходов. Рассмотрим сложный опыт , состоящий в одновременном выполнении событий и . Естественно считать, что степень неопределенности опыта будет равна сумме неопределенностей, характеризующих и , т.е.
Последнее условие наталкивает на мысль, что за меру неопределенности опыта, имеющего k равновероятных исходов можно принять число , а для сложного опыта . При этом log1=0 т. е. f(1)=0; f(k) > f(l) при k > l.
Заметим, что выбор основания логарифма здесь не существенен, т.к. переход от одной системы логарифма к другой сводится лишь к умножению функции на модуль перехода logb a .
Теперь перейдем от случайных событий к системам передачи информации. Допустим, что на вход системы передачи информации (СПИ) от источника информации подается совокупность сообщений, выбранных из ансамбля сообщений (рис.2.1).
Помехи
x1 y1
x2 y2
… …
xn yn
Рис. 2.1. Система передачи информации
Ансамбль сообщений – множество возможных сообщений с их вероятностными характеристиками - {Х, р(х)}. При этом: Х={х1, х2 ,…, хm } - множество возможных сообщений источника; i = 1, 2 ,..., m, где m - объем алфавита; p(xi) - вероятности появления сообщений, причем p(xi) 0 и поскольку вероятности сообщений представляют собой полную группу событий, то их суммарная вероятность равна единице
.
Каждое сообщение несет в себе определенное количество информации. Определим количество информации, содержащееся в сообщении xi, выбранном из ансамбля сообщений источника {Х, р(х)}. Одним из параметров, характеризующих данное сообщение, является вероятность его появления - p(xi), поэтому естественно предположить, что количество информации I(xi) в сообщении xi является функцией p(xi). Вероятность появления двух независимых сообщений x1 и x2 равна произведению вероятностей p(x1, x2) = p(x1).p(x2), а содержащаяся в них информация должна обладать свойством аддитивности, т. е.:
I(x1, x2) = I(x1)+I(x2).
Поэтому для оценки количества информации предложена логарифмическая мера:
.
В зависимости от основания логарифма используют следующие единицы информации:
2 - [бит] (bynary digit – двоичная единица), используется при анализе информационных процессов в ЭВМ и др. устройствах, функционирующих на основе двоичной системы счисления;
e - [нит] (natural digit – натуральная единица), используется в математических методах теории связи;
10 -[дит] (decimal digit – десятичная единица), используется при анализе процессов в приборах работающих с десятичной системой счисления.
Битом (двоичной единицей информации) – называется количество информации, которое снимает неопределенность в отношении наступления одного из двух равновероятных, независимых событий.
Среднее количество информации для всей совокупности сообщений можно получить путем усреднения по всем событиям:
.
Исторически первые шаги к понятию меры неопределенности были сделаны в 1928 г. американским инженером-связистом Хартли. Эта мера хотя и позволяла решить определенные практические задачи, но во многих случаях была мало показательной, поскольку полностью игнорирует различие между характером имеющихся исходов.
Невероятные события имеют такой же смысл и значение как и весьма вероятные. Столь грубую модель источника информации Хартли оправдывал "психологическими" факторами. Число сообщений , которое можно получить, комбинируя символов алфавита по элементов в сообщении,
Ошибочность теории Хартли была показана Клодом Шенноном, предложившим принять в качестве меры неопределенности опыта с возможными исходами A1, A2,…, Ak величину,
Руководствуясь некоторыми физическими аналогиями, эту величину предложили назвать энтропией, и, как сказано выше, здесь величины p(A1), p(A2),…, p(Ak) - вероятности отдельных исходов. Т.о., "психологические факторы" Хартли здесь учитываются с помощью понятия вероятности, имеющий чисто статистический характер.
Однако следует отметить, что и мера Шеннона не может претендовать на полный учет всех факторов, встречающихся в жизни.
Например, сравните 2 метода лечения: первый метод дает полное выздоровление 90 из 100, и 10 улучшение; второй - успешен в 90 из 100, но 10 - смертельный исход. При этом степень неопределенности одинакова.
Отмеченная особенность энтропии объясняется тем, что это понятие впервые введено в теории передачи сообщений по линиям связи, а там, для определения времени и стоимости такой передачи, сообщение совершенно несущественно.
Энтропия – среднее количество информации, приходящееся на элемент сообщения. Количество информации, в сообщении, состоящем из n неравновероятных его элементов равно (эта мера предложена в 1948 г. К. Шенноном):
.
Для случая независимых равновероятных событий количество информации определяется (эта мера предложена в 1928 г. Р. Хартли):
.
- Тема 1. Предмет и методы теории информации и кодирования
- 1.1. Введение
- 1.2. Основные понятия и определения
- 1.3. Системы передачи информации
- Тема 2. Математическая теория информации
- 2.1. Количество информации, и ее мера
- 2.2. Свойства количества информации
- 2.3. Энтропия информации
- 5.2. График энтропии для двух альтернативных событий
- 2.4. Свойства энтропии сообщений
- 2.5. Безусловная энтропия и ее свойства
- 2.6. Условная энтропия.
- 2.5. Энтропия объединения
- Энтропия объединения (совместная энтропия) находится при помощи матрицы ( табл.3) путем суммирования по строкам или столбцам всех вероятностей вида
- Уяснению взаимосвязи между рассмотренными видами энтропий дискретных систем способствует их графическое изображение.
- Тема 3. Основы теории кодирования
- 3.1.Основные понятия и определения
- 3.2. Классификация кодов
- 3.3. Способы представления кодов
- Тема 4. Каналы связи
- 4.1. Каналы связи, их классификация и характеристики
- Пропускная способность дискретного канала связи
- Дискретный канал связи без помех
- Дискретный канал связи с помехами
- Пример. По каналу связи передаются сообщения, вероятности которых соответственно равны:
- Пропускная способность бинарного, симметричного канала
- Избыточность сообщений
- Тема 5. Оптимальное кодирование
- 5.1. Основные понятия и определения
- 5.2. Код Шеннона-Фано
- 5.3. Код Хаффмена
- Тема 6. Помехоустойчивое кодирование
- 6.1. Общие положения
- 6.2. Обнаруживающие коды
- Тема 7. Корректирующие коды
- 7.1. Основные понятия
- 7.2 Линейные групповые коды
- 7.3. Код хэмминга
- Тема 8. Циклические коды
- 8.1. Операции над циклическими кодами
- 8.2. Циклические коды, исправляющие одиночную ошибку
- Если задана длина кодовой комбинации, то число контрольных разрядов определяем по формуле
- Так как частное q(X) имеет такую же степень, как и кодовая комбинация g(X) , то q(X) является кодовой комбинацией того же k - значного кода.
- 8.3. Матричная запись циклического кода
- 8.4. Циклические коды, обнаруживающие трехкратные ошибки
- Тема 9. Коды боуза-чоудхури- хоквингема
- Сигнальные символы это вспомогательные данные, облегчающие декодирование: служебные сигналы, сигналы синхронизации и т. Д.
- Тема 10. Введение в криптологию
- 0 1 2 3 4 5 6 7 8 9 25 Ключ
- 4 7 9 2 3 5 1 6 8 Ключ
- Функция дискретного логарифма обратная