Информация в кибернетике. Естественнонаучное понимание И. основано на двух определениях этого понятия, предназначенных для различных целей (для информации теории, иначе называемой статистической теорией связи, и теории статистических оценок). К ним можно присоединить и третье (находящееся в стадии изучения), связанное с понятием сложности алгоритмов.
Центральное положение понятия И. в кибернетике объясняется тем, что кибернетика (ограничивая и уточняя интуитивное представление об И.) изучает машины и живые организмы с точки зрения их способности воспринимать определённую И., сохранять её в «памяти», передавать по «каналам связи» и перерабатывать её в «сигналы», направляющие их деятельность в соответствующую сторону.
В некоторых случаях возможность сравнения различных групп данных по содержащейся в них И. столь же естественна, как возможность сравнения плоских фигур по их «площади»; независимо от способа измерения площадей можно сказать, что фигура A имеет не большую площадь, чем B, если A может быть целиком помещена в В (сравни примеры 1—3 ниже). Более глубокий факт — возможность выразить площадь числом и на этой основе сравнить между собой фигуры произвольной формы — является результатом развитой математической теории. Подобно этому, фундаментальным результатом теории И. является утверждение о том, что в определённых весьма широких условиях можно пренебречь качественными особенностями И. и выразить её количество числом. Только этим числом определяются возможности передачи И. по каналам связи и её хранения в запоминающих устройствах.
Пример 1. В классической механике знание положения и скорости частицы, движущейся в силовом поле, в данный момент времени даёт И. о её положении в любой будущий момент времени, притом полную в том смысле, что это положение может быть предсказано точно. Знание энергии частицы даёт И., но, очевидно, неполную.
Пример 2. Равенство
a = b (1)
даёт И. относительно вещественных переменных a и b. Равенство
a2 = b2 (2)
даёт меньшую И. [так как из (1) следует (2), но эти равенства не равносильны]. Наконец, равенство
a3 = b3 (3)
равносильное (1), даёт ту же И., то есть (1) и (3) — это различные формы задания одной и той же И.
Пример 3. Результаты произведённых с ошибками независимых измерений какой-либо физической величины дают И. о её точном значении. Увеличение числа наблюдений увеличивает эту И.
Пример 3 а. Среднее арифметическое результатов наблюдений также содержит некоторую И. относительно рассматриваемой величины. Как показывает математическая статистика, в случае нормального распределения вероятностей ошибок с известной дисперсией среднее арифметическое содержит всю И.
Пример 4. Пусть результатом некоторого измерения является случайная величина X. При передаче по некоторому каналу связи X искажается, в результате чего на приёмном конце получают величину Y = X + q, где q не зависит от X (в смысле теории вероятностей). «Выход» Y даёт И. о «входе» X; причём естественно ожидать, что эта И. тем меньше, чем больше дисперсия случайной ошибки q.
В каждом из приведённых примеров данные сравнивались по большей или меньшей полноте содержащейся в них И. В примерах 1—3 смысл такого сравнения ясен и сводится к анализу равносильности или неравносильности некоторых соотношений. В примерах 3 а и 4 этот смысл требует уточнения. Это уточнение даётся, соответственно, математической статистикой и теорией И. (для которых эти примеры являются типичными).
В основе теории информации лежит предложенный в 1948 американским учёным К. Шенноном способ измерения количества И., содержащейся в одном случайном объекте (событии, величине, функции и т. п.) относительно другого случайного объекта. Этот способ приводит к выражению количества И. числом. Положение можно лучше объяснить в простейшей обстановке, когда рассматриваемые случайные объекты являются случайными величинами, принимающими лишь конечное число значений. Пусть X — случайная величина, принимающая значения x1, x2,..., xn с вероятностями p1, p2,..., pn, а Y — случайная величина, принимающая значения y1, y2,..., ymс вероятностями q1, q2,..., qm. Тогда И. I (X,Y) относительно Y, содержащаяся в X, определяется формулой
где pij — вероятность совмещения событий X = xi и Y =yj и логарифмы берутся по основанию 2. И. I (X, Y) обладает рядом свойств, которые естественно требовать от меры количества И. Так, всегда I (X, Y) ³ 0 и равенство I (X, Y) = 0 возможно тогда и только тогда, когда pij = piqj при всех i и j, т. е. когда случайные величины X и Y независимы. Далее, всегда I (X, Y) £ I (Y, Y) и равенство возможно только в случае, когда Y есть функция от X (например, Y = X2 и т. д.). Кроме того, имеет место равенство I (X, Y) = I (Y, X).
Величина
носит название энтропии случайной величины X. Понятие энтропии относится к числу основных понятий теории И. Количество И. и энтропия связаны соотношением
I (X, Y) = H (X) + H (Y) — H (X, Y), (5)
где H (X, Y) — энтропия пары (X, Y), т. е.
Величина энтропии указывает среднее число двоичных знаков (см. Двоичные единицы), необходимое для различения (или записи) возможных значений случайной величины (подробнее см.(смотри) Кодирование, Энтропия). Это обстоятельство позволяет понять роль количества И. (4) при «хранении» И. в запоминающих устройствах. Если случайные величины X и Y независимы, то для записи значения X требуется в среднем H (X) двоичных знаков, для значения Y требуется H (Y) двоичных знаков, а для пары (X, Y) требуется Н (Х) + H (Y) двоичных знаков. Если же случайные величины X и Y зависимы, то среднее число двоичных знаков, необходимое для записи пары (X, Y), оказывается меньшим суммы Н (Х) + H (Y), так как
H (X, Y) = H (X) + H (Y) — I (X, Y).
С помощью значительно более глубоких теорем выясняется роль количества И. (4) в вопросах передачи И. по каналам связи. Основная информационная характеристика каналов, так называемая пропускная способность (или ёмкость), определяется через понятие «И.» (подробнее см.(смотри) Канал).
Если X и Y имеют совместную плотность p(x, y), то
где буквами р и q обозначены плотности вероятности Х и Y соответственно. При этом энтропии Н (X) и Н (Y) не существуют, но имеет место формула, аналогичная (5),
I (X, Y) = h (X) + h (Y) — h (X, Y), (7)
где
дифференциальная энтропия X [h (Y) и h (X, Y) определяется подобным же образом].
Пример 5. Пусть в условиях примера 4 случайные величины X и q имеют нормальное распределение вероятностей с нулевыми средними значениями и дисперсиями, равными соответственно s2х и s2q. Тогда, как можно подсчитать по формулам (6) или (7):
Таким образом, количество И. в «принятом сигнале» Y относительно «переданного сигнала» X стремится к нулю при возрастании уровня «помех» q (т. е. при s2q® ¥) и неограниченно возрастает приисчезающе малом влиянии «помех» (т. е. при s2q® 0).
Особенный интерес для теории связи представляет случай, когда в обстановке примеров 4 и 5 случайные величины X и Y заменяются случайными функциями (или, как говорят, случайными процессами) X (t) и Y (t), которые описывают изменение некоторой величины на входе и на выходе передающего устройства. Количество И. в Y (t) относительно X (t) при заданном уровне помех («шумов», по акустической терминологии) q(t) может служить критерием качества самого этого устройства (см. Сигнал, Шеннона теорема).
В задачах математической статистики также пользуются понятием И. (сравни примеры 3 и 3а). Однако как по своему формальному определению, так и по своему назначению оно отличается от вышеприведённого (из теории И.). Статистика имеетдело с большим числом результатов наблюдений и заменяет обычно их полное перечисление указанием некоторых сводных характеристик. Иногда при такой замене происходит потеря И., но при некоторых условиях сводные характеристики содержат всю И., содержащуюся в полных данных (разъяснение смысла этого высказывания даётся в конце примера 6). Понятие И. в статистике было введено английским статистиком Р. Фишером в 1921.
Пример 6. Пусть X1, X2, ..., Xn, — результаты n независимых наблюдений некоторой величины, распределённые по нормальному закону с плотностью вероятности
где параметры a и s2 (среднее и дисперсия) неизвестны и должны быть оценены по результатам наблюдений. Достаточными статистиками (т. е. функциями от результатов наблюдении, содержащими всю И. о неизвестных параметрах) в этом примере являются среднее арифметическое
и так называемая эмпирическая дисперсия
Если параметр s2 известен, то достаточной статистикой будет только X (сравни пример 3 а выше).
Смысл выражения «вся И.» может быть пояснён следующим образом. Пусть имеется какая-либо функция неизвестных параметров j = j (a, s2) и пусть
j* = j*(X1, X2, ..., Xn)
— какая-либо её оценка, лишённая систематической ошибки. Пусть качество оценки (её точность) измеряется (как это обычно делается в задачах математической статистики) дисперсией разности j* — j. Тогда существует другая оценка j**, зависящая не от отдельных величин Xi, а только отсводных характеристик X и s2, не худшая (в смысле упомянутого критерия), чем j*. Р. Фишером была предложена также мера (среднего) количества И. относительно неизвестного параметра, содержащейся в одном наблюдении. Смысл этого понятия раскрывается в теории статистических оценок.
Лит.: Крамер Г., Математические методы статистики, пер.(перевод) с англ.(английский), М., 1948; Ван-дер-Варден Б. Л., Математическая статистика, пер.(перевод) с нем.(немецкий), М., 1960; Кульбак С., Теория информации и статистика, пер.(перевод) с англ.(английский), М., 1967.