Кореляція (у матем. статистиці)
 
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
 

Кореляція (у матем. статистиці)

Кореляція в математичній статистиці, імовірнісна або статистична залежність, що не має, взагалі кажучи, строго функціонального характеру. На відміну від функціональної, кореляційна залежність виникає тоді, коли одна з ознак залежить не лише від даного другого, але і від ряду випадкових чинників або ж коли серед умов, від яких залежить і той і інший ознаки, є загальні для них обох умови. Приклад такого роду залежності дає кореляційна таблиця. З таблиці видно, що при збільшенні висоти сосен в середньому зростає і діаметр їх стволів; проте сосни заданої висоти (наприклад, 23 м-код ) мають розподіл діаметрів з досить великим розсіянням. Якщо в середньому 23-метрові сосни товще 22-метрових, то для окремих сосен це співвідношення може помітним чином порушуватися. Статистична До. у обстеженій кінцевій сукупності найцікавіша тоді, коли вона вказує на існування закономірного зв'язку між явищами, що вивчаються.

  В основі теорії До. лежить припущення про те, що явища, що вивчаються, підпорядковані певним імовірнісним закономірностям (див. Вірогідність, Вірогідності теорія ) . Залежність між двома випадковими подіями виявляється в тому, що умовна вірогідність одного з них при настанні іншого відрізняється від безумовної вірогідності. Аналогічно, вплив однієї випадкової величини на іншу характеризується законами умовних розподілів першою при фіксованих значеннях другої. Хай для кожного можливого значення Х = х визначене умовне математичне чекання в (х) = Е (YIX = х ) величини Y (див. Математичне чекання ) . Функція в (х) називається регресією величини Y по X, а її графік — лінією регресії Y по X. Залежність Y від Х виявляється в зміні середніх значень Y при зміні X, хоча при кожному Х = х величина Y залишається випадковою величиною з певним розсіянням. Хай m Y = Е (Y) — безумовне математичне чекання Y . Якщо величини незалежні, то всі умовні математичні чекання Y не залежать від х і збігаються з безумовними:

в (х) = Е (YIX = х ) = Е (Y) = m Y .

  Зворотний висновок не завжди справедливо. Для з'ясування питання, наскільки добре регресія передає зміну Y при зміні X, використовується умовна дисперсія Y при даному значенні Х = х або її середня величина — дисперсія Y відносно лінії регресії (міра розсіяння біля лінії регресії):

2 .

При строгій функціональній залежності величина Y при даному Х = х набуває лише одного певного значення, тобто розсіяння біля лінії регресії дорівнює нулю.

  Лінія регресії може бути приблизно відновлена по досить обширній кореляційній таблиці: за наближене значення в (х) приймають середнє з тих наблюденних значень Y, яким відповідає значення Х = х. На малюнку змальована наближена лінія регресії для залежності середнього діаметру сосен від висоти відповідно до таблиці. У середній частині ця лінія, мабуть, добре виражає дійсна закономірність. Якщо число спостережень, відповідних деяким значенням X , недостатньо велике, то такий метод може привести до абсолютно випадкових результатів. Так, крапки лінії, відповідні висотам 29 і 30 м-коду, ненадійні зважаючи на нечисленність матеріалу. Див. Регресія .

  У випадку До. двох кількісних випадкових ознак звичайним показником концентрації розподілу поблизу лінії регресії служить кореляційне відношення

,

де   — дисперсія Y (аналогічно визначається кореляційне відношення, але між  і  немає якої-небудь простої залежності). Величина, що змінюється від 0 до 1, дорівнює нулю тоді і лише тоді, коли регресія має вигляд в (x) = m Y , в цьому випадку говорять, що Y некорельована з X,   дорівнює одиниці в разі точної функціональної залежності Y від X. Найбільш споживаний при вимірі міри залежності коефіцієнт кореляції між Х і Y

завжди —1 £ r £ 1. Проте практичне використання коефіцієнта До. як міра залежності виправдано лише тоді, коли спільний розподіл пари (X, Y) нормально або приблизно нормально (див. Нормальний розподіл ) ; вживання r як заходи залежності між довільними Y і Х приводить інколи до помилкових виводів, т. до.  r може дорівнювати нулю навіть тоді, коли Y строго залежить від X . Якщо двовимірний розподіл Х і Y нормально, то лінії регресії Y по Х і Х по Y суть прямі в = m Y + b Y (x — mx) і х = mx+ b x (в — m Y ), де  і ; b Y і b X іменуються коефіцієнтами регресії, причому

.

  Оскільки в цьому випадку

Е (Y - в (x)) 2 = s 2 Y ( 1 - r 2 )

і

Е (Y - x (y)) 2 = s 2 X ( 1 - r 2 )

  те очевидне, що r (кореляційні стосунки збігаються з r 2 повністю визначає міру концентрації розподілу поблизу ліній регресії: у граничному випадку r = ± 1 прямі регресії зливаються в одну, що відповідає строгій лінійній залежності між Y і X , при r = 0 величин не корельовані.

Кореляція між діаметрами і висотами 624 стволів північної сосни

Діаметр, см

Висота, м-код

Разом

17

18

19

20

21

22

23

24

25

26

27

28

29

30

14-17

2

2

5

1

 

 

 

 

 

 

 

 

 

 

10

18-21

1

3

3

12

15

9

4

 

 

 

 

 

 

 

47

22-25

1

1

1

3

18

24

29

14

7

 

 

 

 

 

98

26-29

 

 

 

 

7

18

30

43

31

3

2

 

 

 

134

30-33

 

 

 

 

1

5

18

29

35

18

7

1

 

 

114

34-37

 

 

 

 

 

1

3

17

33

26

12

6

 

 

98

38-41

 

 

 

 

 

 

2

2

10

19

16

4

 

 

53

42-45

 

 

 

 

 

 

 

 

4

13

6

8

 

1

32

46-49

 

 

 

 

 

 

 

3

3

7

6

2

1

 

22

50-53

 

 

 

 

 

 

 

 

1

4

4

2

1

 

12

54-57

 

 

 

 

 

 

 

 

 

1

1

1

 

 

3

58 і більш

1

1

Разом

4

6

9

16

41

57

86

108

124

91

55

24

2

1