Кореляція в математичній статистиці, імовірнісна або статистична залежність, що не має, взагалі кажучи, строго функціонального характеру. На відміну від функціональної, кореляційна залежність виникає тоді, коли одна з ознак залежить не лише від даного другого, але і від ряду випадкових чинників або ж коли серед умов, від яких залежить і той і інший ознаки, є загальні для них обох умови. Приклад такого роду залежності дає кореляційна таблиця. З таблиці видно, що при збільшенні висоти сосен в середньому зростає і діаметр їх стволів; проте сосни заданої висоти (наприклад, 23 м-код ) мають розподіл діаметрів з досить великим розсіянням. Якщо в середньому 23-метрові сосни товще 22-метрових, то для окремих сосен це співвідношення може помітним чином порушуватися. Статистична До. у обстеженій кінцевій сукупності найцікавіша тоді, коли вона вказує на існування закономірного зв'язку між явищами, що вивчаються.
В основі теорії До. лежить припущення про те, що явища, що вивчаються, підпорядковані певним імовірнісним закономірностям (див. Вірогідність, Вірогідності теорія ) . Залежність між двома випадковими подіями виявляється в тому, що умовна вірогідність одного з них при настанні іншого відрізняється від безумовної вірогідності. Аналогічно, вплив однієї випадкової величини на іншу характеризується законами умовних розподілів першою при фіксованих значеннях другої. Хай для кожного можливого значення Х = х визначене умовне математичне чекання в (х) = Е (YIX = х ) величини Y (див. Математичне чекання ) . Функція в (х) називається регресією величини Y по X, а її графік — лінією регресії Y по X. Залежність Y від Х виявляється в зміні середніх значень Y при зміні X, хоча при кожному Х = х величина Y залишається випадковою величиною з певним розсіянням. Хай m Y = Е (Y) — безумовне математичне чекання Y . Якщо величини незалежні, то всі умовні математичні чекання Y не залежать від х і збігаються з безумовними:
в (х) = Е (YIX = х ) = Е (Y) = m Y .
Зворотний висновок не завжди справедливо. Для з'ясування питання, наскільки добре регресія передає зміну Y при зміні X, використовується умовна дисперсія Y при даному значенні Х = х або її середня величина — дисперсія Y відносно лінії регресії (міра розсіяння біля лінії регресії):
2 .
При строгій функціональній залежності величина Y при даному Х = х набуває лише одного певного значення, тобто розсіяння біля лінії регресії дорівнює нулю.
Лінія регресії може бути приблизно відновлена по досить обширній кореляційній таблиці: за наближене значення в (х) приймають середнє з тих наблюденних значень Y, яким відповідає значення Х = х. На малюнку змальована наближена лінія регресії для залежності середнього діаметру сосен від висоти відповідно до таблиці. У середній частині ця лінія, мабуть, добре виражає дійсна закономірність. Якщо число спостережень, відповідних деяким значенням X , недостатньо велике, то такий метод може привести до абсолютно випадкових результатів. Так, крапки лінії, відповідні висотам 29 і 30 м-коду, ненадійні зважаючи на нечисленність матеріалу. Див. Регресія .
У випадку До. двох кількісних випадкових ознак звичайним показником концентрації розподілу поблизу лінії регресії служить кореляційне відношення
,
де — дисперсія Y (аналогічно визначається кореляційне відношення, але між і немає якої-небудь простої залежності). Величина, що змінюється від 0 до 1, дорівнює нулю тоді і лише тоді, коли регресія має вигляд в (x) = m Y , в цьому випадку говорять, що Y некорельована з X, дорівнює одиниці в разі точної функціональної залежності Y від X. Найбільш споживаний при вимірі міри залежності коефіцієнт кореляції між Х і Y
завжди —1 £ r £ 1. Проте практичне використання коефіцієнта До. як міра залежності виправдано лише тоді, коли спільний розподіл пари (X, Y) нормально або приблизно нормально (див. Нормальний розподіл ) ; вживання r як заходи залежності між довільними Y і Х приводить інколи до помилкових виводів, т. до. r може дорівнювати нулю навіть тоді, коли Y строго залежить від X . Якщо двовимірний розподіл Х і Y нормально, то лінії регресії Y по Х і Х по Y суть прямі в = m Y + b Y (x — mx) і х = mx+ b x (в — m Y ), де і ; b Y і b X іменуються коефіцієнтами регресії, причому
.
Оскільки в цьому випадку
Е (Y - в (x)) 2 = s 2 Y ( 1 - r 2 )
і
Е (Y - x (y)) 2 = s 2 X ( 1 - r 2 )
те очевидне, що r (кореляційні стосунки збігаються з r 2 повністю визначає міру концентрації розподілу поблизу ліній регресії: у граничному випадку r = ± 1 прямі регресії зливаються в одну, що відповідає строгій лінійній залежності між Y і X , при r = 0 величин не корельовані.
Кореляція між діаметрами і висотами 624 стволів північної сосни