Кореляційний аналіз, сукупність заснованих на математичній теорії кореляції методів виявлення кореляційної залежності між двома випадковими ознаками або чинниками. До. а. експериментальних даних містить в собі наступні основні практичні прийоми: 1) побудова кореляційного поля і складання кореляційної таблиці; 2) обчислення вибіркових коефіцієнтів кореляції або кореляційного відношення; 3) перевірка статистичної гіпотези значущості зв'язку. Подальше дослідження полягає у встановленні конкретного вигляду залежності між величинами (див. Регресійний аналіз ) . Залежність між трьома і великим числом випадкових ознак або чинників вивчається методами багатовимірного До. а. (обчислення приватних і множинних коефіцієнтів кореляції і кореляційних стосунків).
Кореляційне поле і кореляційна таблиця є допоміжними засобами при аналізі вибіркових даних. При нанесенні на координатну плоскість вибіркових крапок отримують кореляційне поле. По характеру розташування точок поля можна скласти попередня думка про форму залежності випадкових величин (наприклад, про те, що одна величина в середньому зростає або убуває при зростанні інший). Для чисельної обробки результати зазвичай групують і представляють у формі кореляційної таблиці. У кожній клітці кореляційної таблиці (див. в ст. Кореляція в математичній статистиці) приводяться чисельності гц; тих пар (х, в), компоненти яких потрапляють у відповідні інтервали угрупування по кожній змінній.
Передбачаючи довжини інтервалів угрупування (по кожній із змінних) рівними між собою, вибирають центри x i (відповідно y j ) цих інтервалів і числа n ij як основа для розрахунків.
Коефіцієнт кореляції і кореляційне відношення дають точнішу інформацію про характер і силу зв'язку, чим картина кореляційного поля. Вибірковий коефіцієнта кореляції визначають по формулі:
,
де
,,
.
При великому числі незалежних спостережень, що підкоряються одному і тому ж розподілу, і при належному виборі інтервалів угрупування коефіцієнт близький до дійсного коефіцієнта кореляції r. Тому використання як заходи зв'язку має чітко певний сенс для тих розподілів, для яких природною мірою залежності служить r (тобто для нормальних або близьких до них розподілів). У всіх ін. випадках як характеристика сили зв'язку рекомендується використовувати кореляційне відношення h , інтерпретація якого не залежить від вигляду досліджуваної залежності.
Вибіркове значення в | x обчислюється за даними кореляційної таблиці:
2 в | x =
де чисельник характеризує розсіяння умовних середніх значень біля безумовного середнього (аналогічно визначається вибіркове значення x | в ). Величина в | x використовується як міра відхилення залежності від лінійної, т. до. обычно 2 в | x >r 2 , x | в >r 2 і лише в разі лінійної залежності r 2 = 2 в | x = x | в . Так, при аналізі кореляції між висотою і діаметром північної сосни було виявлено, що умовні середні значення висоти сосни для заданого діаметру зв'язані нелінійною залежністю. Кореляційне відношення (висоти до діаметру) в цьому випадку дорівнює 0,813, а коефіцієнт кореляції дорівнює 0,762.
Перевірка гіпотези значущості зв'язку грунтується на знанні законів розподілу вибіркових кореляційних характеристик. В разі нормального розподілу величина вибіркового коефіцієнта кореляції вважається значимо відмінною від нуля, якщо виконується нерівність
,
де t а є критичне значення t-розподілу Стьюдента з (n— 2 ) мірами свободи, відповідне вибраному рівню значущості а (див. Стьюдента розподіл ) . Якщо ж відомо, що r ¹ 0, то необхідно скористатися z -преобразованієм Фішера (не залежним від r і n ):
.
Виходячи з наближеної нормальності z, можна визначити довірчі інтервали для дійсного коефіцієнта кореляції r .
У разі коли вивчаються не кількісні ознаки, а якісні, звичайні заходи залежності не годяться. Проте, якщо удається яким-небудь чином упорядкувати об'єкти, що вивчаються, відносно деякої ознаки, тобто прописати їм порядкові номери — ранги (по два номери відповідно до двох ознак), то як вибіркова характеристики зв'язку можна скористатися, наприклад, т.з. коефіцієнтом рангової кореляції:
,
де d i — різниця рангів по обох ознаках для кожного об'єкту. По мірі ухилення R від нуля можна зробити деякий висновок про міру залежності якісних ознак. Перевірка гіпотези незалежності ознак при невеликому об'ємі вибірки виробляється з допомогою спеціальних таблиць, а при n > 10 для обчислення критичних значень вибіркових коефіцієнтів користуються тим, що ці величини розподілені приблизно нормально.