Інформація (у кібернетиці)
 
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
 

Інформація (у кібернетиці)

Інформація в кібернетиці. Природничонаукове розуміння І. засновано на двох визначеннях цього поняття, призначених для різних цілей (для інформації теорії, інакше званою статистичною теорією зв'язку, і теорії статистичних оцінок ). До них можна приєднати і третє (що знаходиться в стадії вивчення), пов'язане з поняттям складності алгоритмів.

  Центральне положення поняття І. у кібернетиці пояснюється тим, що кібернетика (обмежуючи і уточнюючи інтуїтивне уявлення про І.) вивчає машини і живі організми з точки зору їх здатності сприймати визначену І., зберігати її в «пам'яті», передавати по «каналах зв'язки» і переробляти її в «сигнали», що направляють їх діяльність у відповідну сторону.

 В деяких випадках можливість порівняння різних груп даних по тій, що міститься в них І. настільки ж природна, як можливість порівняння плоских фігур за їх «площею»; незалежно від способу виміру площ можна сказати, що фігура A має не велику площу, чим B , якщо A може бути цілком поміщена в В (порівняй приклади 1—3 нижче). Глибший факт — можливість виразити площу числом і на цій основі порівняти між собою фігури довільної форми — є результатом розвиненої математичної теорії. Подібно до цього, фундаментальним результатом теорії І. є твердження про те, що в певних вельми широких умовах можна нехтувати якісними особливостями І. і виразити її кількість числом. Лише цим числом визначаються можливості передачі І. по каналах зв'язку і її зберігання в пристроях, що запам'ятовують.

  Приклад 1. У класичній механіці знання положення і швидкості частки, рухомої в силовому полі, в даний момент часу дає І. про її положення в будь-який майбутній момент часу, притому повну в тому сенсі, що це положення може бути передбачене точно. Знання енергії частки дає І., але, очевидно, неповну.

  Приклад 2. Рівність

а = b                                                                (1)

дає І. відносно речових змінних а і b. Рівність

а 2 = b 2                                                                                                                            (2)

дає меншу І. [оскільки з (1) слідує (2), але ця рівність не рівносильна]. Нарешті, рівність

а 3 = b 3                                                               (3)

рівносильне (1), дає ту ж І., тобто (1) і (3) — це різні форми завдання одній і тій же І.

  Приклад 3. Результати вироблених з помилками незалежних вимірів якої-небудь фізичної величини дають І. про її точне значення. Збільшення числа спостережень збільшує цю І.

  Приклад 3 а. Середнє арифметичне результатів спостережень також містить деяку І. відносно даної величини. Як показує математична статистика, в разі нормального розподілу вірогідності помилок з відомою дисперсією середнє арифметичне містить всю І.

  Приклад 4. Хай результатом деякого виміру є випадкова величина X . При передачі по деякому каналу зв'язку X спотворюється, внаслідок чого на приймальному кінці отримують величину Y = X + q, де q не залежить від X (у сенсі теорії вірогідності). «Вихід» Y дає І. про «вхід» X ; причому природно чекати, що ця І. тим менше, чим більше дисперсія випадкової помилки q.

  В кожному з наведених прикладів дані порівнювалися по більшій або меншій повноті що міститься в них І. У прикладах 1—3 сенс такого порівняння ясний і зводиться до аналізу равносильності або неравносильності деяких співвідношень. У прикладах 3 а і 4 цей сенс вимагає уточнення. Це уточнення дається, відповідно, математичною статистикою і теорією І. (для яких ці приклади є типовими).

  В основі теорії інформації лежить запропонований в 1948 американським ученим К. Шенноном спосіб виміру кількості І., що міститься в одному випадковому об'єкті (події, величині, функції і т. п.) відносно іншого випадкового об'єкту. Цей спосіб приводить до вираження кількості І. числом. Положення можна краще пояснити в простій обстановці, коли дані випадкові об'єкти є випадковими величинами, що приймають лише кінцеве число значень. Хай X — випадкова величина, що набуває значень x 1 , x 2 ..., x n з вірогідністю p 1 , p 2 ..., p n , а Y — випадкова величина, що набуває значень в 1 , в 2 ..., y m з вірогідністю q 1 , q 2 ..., q m . Тоді і. I ( X , Y ) відносно Y , що міститься в X , визначається формулою

де p ij — вірогідність поєднання подій X = x i і Y = y j і логарифми беруться по підставі 2. І. I ( X , Y ) володіє рядом властивостей, які природно вимагати від міри кількості І. Так, завжди I ( X , Y ) ³ 0 і рівність I ( X , Y ) = 0 можливо тоді і лише тоді, коли p ij = p i q j при всіх i і j, тобто коли випадкові величини X і Y незалежні. Далі, завжди I ( X , Y ) £ I ( Y , Y ) і рівність можливе лише у разі, коли Y є функція від X (наприклад, Y = X 2 і т. д.). Крім того, має місце рівність I ( X , Y ) = I ( Y , X ).

  Величина

носить назву ентропії випадкової величини X . Поняття ентропії належить до основних понять теорії І. Колічество І. і ентропія зв'язані співвідношенням

I ( X , Y ) = H ( X ) + H ( Y ) — H ( X , Y ),                              (5)

де H ( X , Y ) — ентропія пари ( X , Y ), тобто

Величина ентропії вказує середнє число двійкових знаків (див. Двійкові одиниці ), необхідне для розрізнення (або записи) можливих значень випадкової величини (детальніше за див.(дивися) Кодування, Ентропія ). Ця обставина дозволяє зрозуміти роль кількості І. (4) при «зберіганні» І. у пристроях, що запам'ятовують. Якщо випадкові величини X і Y незалежні, то для запису значення X потрібний в середньому H ( X ) двійкових знаків, для значення Y потрібний H ( Y ) двійкових знаків, а для пари ( X , Y ) потрібний Н ( Х ) + H ( Y ) двійкових знаків. Якщо ж випадкові величини X і Y залежні, то середнє число двійкових знаків, необхідне для запису пари ( X Y ), виявляється меншим суми Н ( Х ) + H ( Y ), оскільки

H ( X Y ) = H ( X ) + H ( Y ) — I ( X , Y ).

  За допомогою значний глибших теорем з'ясовується роль кількості І. (4) у питаннях передачі І. по каналах зв'язку. Основна інформаційна характеристика каналів, так звана пропускна спроможність (або ємкість), визначається через поняття «І.» (детальніше за див.(дивися) Канал ).

  Якщо X і Y мають спільну щільність p ( x , в ), то

де буквами р і q позначена щільність вірогідності Х і Y відповідно. При цьому ентропії Н ( X ) і Н ( Y ) не існують, але має місце формула, аналогічна (5),

I ( X , Y ) = h ( X ) + h ( Y ) — h ( X , Y )                                           (7)

де

диференціальна ентропія X [ h ( Y ) і h ( X , Y ) визначається подібним же чином].

  Приклад 5. Хай в умовах прикладу 4 випадкових величини X і q мають нормальний розподіл вірогідності з нульовими середніми значеннями і дисперсіями, рівними відповідно s 2 х і s 2 q . Тоді, як можна підрахувати по формулах (6) або (7):

Таким чином, кількість І. у «прийнятому сигналі» Y відносно «переданого сигналу» X прагне до нуля при зростанні рівня «перешкод» q (тобто при s 2 q ® ¥) і необмежено зростає прі зникаюче малому впливі «перешкод» (тобто при s 2 q ® 0).

  Особливий інтерес для теорії зв'язку представляє випадок, коли в обстановці прикладів 4 і 5 випадкових величин X і Y замінюються випадковими функціями (або, як то кажуть, випадковими процесами) X ( t ) і Y ( t ), які описують зміну деякої величини на вході і на виході передавального пристрою. Кількість І. у Y ( t ) відносно X ( t ) при заданому рівні перешкод («шумів», по акустичній термінології) q( t ) може служити критерієм якості самої цього пристрою (див. Сигнал, Шенона теорема ).

  В завданнях математичної статистики також користуються поняттям І. (порівняй приклади 3 і 3а). Проте як за своїм формальним визначенням, так і по своєму призначенню воно відрізняється від наведеного вище (з теорії І.). Статистика імєєт справа з великим числом результатів спостережень і замінює зазвичай їх повне перерахування вказівкою деяких звідних характеристик. Інколи при такій заміні відбувається втрата І., але за деяких умов звідні характеристики містять всю І., що міститься в повних даних (роз'яснення сенсу цього вислову дається в кінці прикладу 6). Поняття І. у статистиці було введено англійським статистиком Р. Фішером в 1921.

  Приклад 6. Хай X 1 , X 2 ..., X n , — результати n незалежних спостережень деякої величини, розподілені по нормальному закону з щільністю вірогідності

де параметри а і s 2 (середнє і дисперсія) невідомі і мають бути оцінені за результатами спостережень. Достатніми статистиками (тобто функціями від результатів спостереженні, що містять всю І. про невідомі параметри) в даному прикладі є середнє арифметичне

і так звана емпірична дисперсія

Якщо параметр s 2 відомий, то достатньою статистикою буде лише X (порівняй приклад 3 а вище).

  Сенс вираження «вся І.» може бути пояснений таким чином. Хай є яка-небудь функція невідомих параметрів j = j ( а , s 2 ) і хай

j* = j*( X 1 , X 2 ..., X n )

— яка-небудь її оцінка, позбавлена систематичної помилки. Хай якість оцінки (її точність) вимірюється (як це зазвичай робиться в завданнях математичної статистики) дисперсією різниці j* — j. Тоді існує інша оцінка j**, залежна не від окремих величин X i , а лише от звідних характеристик X і s 2 , не гірша (у сенсі згаданого критерію), ніж j*. Р. Фішером була запропонована також міра (середнього) кількості І. відносно невідомого параметра, що міститься в одному спостереженні. Сенс цього поняття розкривається в теорії статистичних оцінок.

  Літ.: Крамер Г., Математичні методи статистики пер.(переведення) з англ.(англійський), М., 1948; Ван-дер-Варден Би. Л., Математична статистика, пер.(переведення) з йому.(німецький), М., 1960; Кульбак С., Теорія інформації і статистика, пер.(переведення) з англ.(англійський), М., 1967.

  Ю. Ст Прохоров.