Регресія в теорії вірогідності і математичній статистиці, залежність середнього значення якої-небудь величини від деякої іншої величини або від декількох величин. На відміну від чисто функціональної залежності в = f ( х ), коли кожному значенню незалежної змінної х відповідає одне певне значення величини в , при регресійному зв'язку одному і тому ж значенню х можуть відповідати залежно від випадку різні значення величини в. Якщо при кожному значенні х = x i спостерігається n i , значень y i 1 ..., величини в , то залежність середніх арифметичних від x i і є Р. в статистичному розумінні цього терміну. Прикладом такого роду залежності служить, зокрема, залежність середніх діаметрів сосен від їх висот; див.(дивися) таблиці. у ст. Кореляція .
Вивчення Р. в теорії вірогідності засноване на тому, що випадкові величини Х і Y , що мають спільний розподіл вірогідності, зв'язані імовірнісною залежністю: при кожному фіксованому значенні Х = х величина Y є випадковою величиною з певним (залежним від значення х ) умовним розподілом вірогідності. Р. величини Y по величині Х визначається умовним математичним чеканням Y , обчисленим за умови, що Х = х :
Е( Y ê х )= u ( х ).
Рівняння в = u ( х ), в якому х грає роль «незалежної» змінної, називається рівнянням регресії, а відповідний графік — лінією регресії величини Y по X. Точність, з якою рівняння Р. Y по Х відображає зміну Y в середньому при зміні х, вимірюється умовною дисперсією величини Y , обчисленою для кожного значення Х = х :
D( Y ê х ) = s 2 ( x ).
Якщо s 2 ( х ) = 0 при всіх значеннях х , те можна з достовірністю стверджувати, що Y і Х зв'язані строгою функціональною залежністю Y = u ( X ) . Якщо s 2 ( х ) = 0 при всіх значеннях х і u ( х ) не залежить від х то говорять, що Р. Y по Х відсутній. Аналогічним чином визначається Р. Х по Y і зокрема, рівняння Р. х = u>( в ), = Е( Х ï Y = в ). Функції в = u ( х ) і х = u( в ), взагалі кажучи, не є взаємно зворотними.
Лінії Р. володіють наступною чудовою властивістю: серед всіх дійсних функцій f ( х ) мінімум математичного чекання Е[ Y — f ( X )] 2 досягається для функції f ( x ) = u ( х ), тобто Р. Y по Х дає найкраще, у вказаному сенсі, представлення величини Y по величині X . Ця властивість використовується для прогнозу Y по X : якщо значення Y безпосередньо не спостерігається і експеримент дозволяє реєструвати лише компоненту Х вектора ( X , Y ), то як прогнозоване значення Y використовують величину u ( X ).
Найбільш простим є випадок, коли Р. Y по Х лінійна:
Е( Y ï x )= b 0 + b 1 x.
Коефіцієнти b 0 і b 1 , називаються коефіцієнтами регресії, визначаються рівністю
,
де m Х і m Y — математичні чекання Х і Y , і — дисперсії Х і Y , а r — коефіцієнт кореляції між Х і Y . Рівняння Р. при цьому виражається формулою
У разі, коли спільний розподіл Х і Y нормально, обидві лінії Р. в = u ( х ) і х = u( в ) є прямими.
Якщо Р. Y по Х відмінна від лінійної, то останнє рівняння є лінійна апроксимація дійсного рівняння Р.: математичне чекання Е[ Y — b 0 — b 1 X ] 2 досягає мінімуму b 0 і b 1 при b 0 = b 0 і b 1 = b 1 . Особливо часто зустрічається випадок рівняння Р., що виражається лінійною комбінацією тих або інших заданих функцій:
в = u ( Х ) = b 0 j 0 ( x ) + b 1 j 1 ( x ) + ... + b m j m ( x ).
Найбільш важливе значення має параболічний (поліноміальна) Р., при якій j 0 ( x ) = 1, j 1 ( x ) = x ..., j m ( x ) = x m .
Поняття Р. застосовне не лише до випадкових величин, але і до випадкових векторів. Зокрема, якщо Y — випадкова величина, а Х = ( X 1 ..., X до ) — випадковий вектор, що мають спільний розподіл вірогідності, то Р. Y по X визначається рівнянням
в = u ( x 1 ..., x до ),
де u ( x 1 ..., x до ) = E { Y ï X = x 1 ..., X до = x до }.
Якщо
u ( x 1 ..., x до ) = b 0 + b 1 x 1 + ... + b до x до,
те Р. називається лінійним. Ця форма рівняння Р. включає багато типів Р. з однією незалежною змінною, зокрема поліноміальна Р. Y по Х порядку до зводиться до лінійної Р. Y по X 1 ..., X до , якщо покласти X до = X до .
Простим прикладом Р. Y по Х є залежність між Y і X , яка виражається співвідношенням: Y = u ( X ) + d, де u ( x ) = Е( Y I X = х ), а випадкові величини Х і d незалежні. Ця вистава корисна, коли планується експеримент для вивчення функціонального зв'язку в = u ( х ) між невипадковими величинами в і х.
На практиці зазвичай коефіцієнти Р. в рівнянні в = u ( х ) невідомі і їх оцінюють за експериментальними даними (див. Регресійний аналіз ).
Спочатку термін «Р.» був спожитий англійським статистиком Ф. Гальтоном (1886) в теорії спадковості в наступному спеціальному сенсі: «поверненням до середнього стану» (regression to mediocrity) було названо явище, що полягає в тому, що діти тих батьків, зростання яких перевищує середнє значення на а одиниць, мають в середньому зростання, що перевищує середнє значення менше ніж на а одиниць.
Літ.: Крамер Г., Математичні методи статистики, пер.(переведення) з англ.(англійський), М., 1948; Кендалл М. Дж., Стьюарт А., Статистичні виводи і зв'язки, пер.(переведення) з англ.(англійський), М., 1973.