Регресійний аналіз
 
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
 

Регресійний аналіз

Регресійний аналіз, розділ математичної статистики, об'єднуючий практичні методи дослідження регресійної залежності між величинами за статистичними даними (див. Регресія ). Мета Р. а. полягає у визначенні загального вигляду рівняння регресії, побудові оцінок невідомих параметрів, що входять в рівняння регресії, і перевірці статистичних гіпотез про регресію. При вивченні зв'язку між двома величинами за результатами спостережень ( x 1 , в 1 ) ..., ( x n , в n ) відповідно до теорії регресії передбачається, що одна з них Y має деякий розподіл вірогідності при фіксованому значенні х інший, так що

Е(Y ï х ) = g ( x , b) і D(Y ï х )= s 2 h 2 ( x ),

де b позначає сукупність невідомих параметрів, що визначають функцію g ( х ), а h ( x ) є відома функція х (зокрема, тотожно рівна 1). Вибір моделі регресії визначається припущеннями про форму залежності g ( х , b) від х і b. Найбільш природною з точки зору єдиного методу оцінки невідомих параметрів b є модель регресії, лінійна відносно b:

g ( x , b) = b 0 g 0 ( x ) + ... + b до g до ( x ).

  Відносно значень змінної х можливі різні припущення залежно від характеру спостережень і цілей аналізу. Для встановлення зв'язки між величинами в експерименті використовується модель, заснована на спрощених, але правдоподібних допущеннях: величина х є контрольованою величиною, значення якої заздалегідь задаються при планеруванні експерименту, а спостережувані значення в представіми у вигляді

y i = g ( x i , b) + e i , i = 1 ..., до ,

де величини e i  характеризують помилки, незалежні при різних вимірах і однаково розподілені з нульовим середнім і постійною дисперсією s 2 . Випадок неконтрольованої змінної х відрізняється тим, що результати спостережень ( x i , y i ) ..., ( x n , y n ) є вибіркою з деякої двовимірної сукупності. І у тому, і в іншому випадку Р. а. виробляється одним і тим же способом, проте інтерпретація результатів істотно розрізняється (якщо обидві досліджувані величини випадкові, то зв'язок між ними вивчається методами кореляційного аналізу ).

  Попереднє уявлення про форму графіка залежності g ( x ) від х можна отримати по розташуванню на діаграмі розсіяння (званою також кореляційним полем, якщо обидві змінні випадкові) крапок ( x i , ( x i )), де ( x i ) середні арифметичні тих значень в , які відповідають фіксованому значенню x i . Наприклад, якщо розташування цих крапок близьке до прямолінійного, то допустимо використовувати як наближення лінійну регресію. Стандартний метод оцінки лінії регресії заснований на використанні поліноміальної моделі ( m ³ 1)

в ( x , b) = b 0 + b 1 x + ... + b m x m

(цей вибір частково пояснюється тим, що всяку безперервну на деякому відрізку функцію можна наблизити поліномом з будь-якою наперед заданою мірою точності). Оцінка невідомих коефіцієнтів регресії b 0 ..., b m і невідомій дисперсії s 2 здійснюється найменших квадратів методом . Оцінки  параметрів b 0 ..., b m , отримані цим методом, називаються вибірковими коефіцієнтами регресії, а рівняння

визначає т.з. емпіричну лінію регресії. Цей метод в припущенні нормальною распределенності результатів спостережень приводить до оцінок для b 0 ..., b m і s 2 , співпадаючим з оцінками найбільшої правдоподібності (див. Максимальної правдоподібності метод ). Оцінки, отримані цим методом, виявляються в деякому розумінні найкращими в е р б випадку відхилення від нормальності. Так, якщо перевіряється гіпотеза про лінійну регресію, то

,,

де  і  — середні арифметичні значень x i і y i , і оцінка  буде незміщеною для g ( х ) , а її дисперсія буде менша, ніж дисперсія будь-якої іншої лінійної оцінки. При допущенні, що величини y i нормально розподілені, найефективніше здійснюється перевірка точності побудованої емпіричної регресійної залежності і перевірка гіпотез про параметри регресійної моделі. В цьому випадку побудова довірчих інтервалів для дійсних коефіцієнтів регресії b 0 ..., b m і перевірка гіпотези про відсутність регресійного зв'язку b i = 0, i = 1 ..., m ) виробляється за допомогою Стьюдента розподілу .

  В загальнішій ситуації результати спостережень в 1 , ..., y n розглядаються як незалежні випадкові величини з однаковими дисперсіями і математичними чеканнями

Ey i = b 1 x 1 i + ... + b до x ki , i = 1 ..., n ,

де значення x ji , j = 1 ..., до передбачаються відомими. Ця форма лінійної моделі регресії є загальною в тому сенсі, що до неї зводяться моделі вищих порядків по змінних x 1 , ..., x до . Крім того, деякі нелінійні відносно параметрів b i ; моделі відповідним перетворенням також зводяться до вказаної лінійної форми.

  Р. а. є одним з найбільш поширених методів обробки результатів спостережень при вивченні залежностей у фізиці, біології, економіці, техніці і ін. областях. На моделі Р. а. засновані такі розділи математичної статистики, як дисперсійний аналіз і планерування експерименту ; моделі Р. а. широко використовуються в статистичному аналізі багатовимірному .

 

  Літ.: Дзиг Дж. Е., Кендел М. Дж., Теорія статистики, пер.(переведення) з англ.(англійський), 14 видавництво, М., 1960; Смирнов Н. Ст, Дунін-Барковський І. Ст, Курс теорії вірогідності і математичної статистики для технічних застосувань, 3 видавництва, М., 1969; Айвазян С. А., Статистичне дослідження залежностей, М., 1968; Рао С. Р., Лінійні статистичні методи і їх вживання, пер.(переведення) з англ.(англійський), М., 1968. Див. також літ.(літературний) при ст. Регресія .

  А. Ст Прохоров.