Найменших квадратів метод
 
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
 

Найменших квадратів метод

Найменших квадратів метод, один з методів помилок теорії для оцінки невідомих величин за результатами вимірів, що містить випадкові помилки. Н. до. м. застосовується також для наближеного представлення заданої функції іншими (простішими) функціями і часто виявляється корисним при спостережень обробці . Н. до. м. запропонований До. Гаусом (1794—95) і А. Лежандром (1805—06). Спочатку Н. до. м. використовувався для обробки результатів астрономічних і геодезичних спостережень. Строге математичне обгрунтування і встановлення кордонів змістовної застосовності Н. до. м. дани А. А. Марковом (старшим) і А. Н. Колмогоровим . Нині Н. до. м. є одним з найважливіших розділів математичної статистики і широко використовується для статистичних виводів в різних галузях науки і техніки.

загрузка...

  Суть обгрунтування Н. до. м. (по Гаусу) полягає в допущенні, що «збиток» від заміни точного (невідомого) значення фізичної величини і її наближеним значенням X , обчисленим за результатами спостережень, пропорційний квадрату помилки: ( X - m) 2 . У цих умовах оптимальною оцінкою природно визнати таку позбавлену систематичної помилки величину X , для якої середнє значення «збитку» мінімальне. Саме це вимога і складає основу Н. до. м. У загальному випадку відшукання оптимальної в сенсі Н. до. м. оцінки Х — завдання вельми складна, тому практично це завдання звужують і як Х вибирають лінійну функцію від результатів спостережень, позбавлену систематичної помилки, і таку, для якої середнє значення «збитку» мінімальне в класі всіх лінійних функцій. Якщо випадкові помилки спостережень підкоряються нормальному розподілу і оцінювана величина m залежить від середніх значень результатів спостережень лінійно (випадок, вельми Н, що часто зустрічається в додатках. до. м.), те рішення цієї задачі одночасно буде і рішенням загальної задачі. При цьому оптимальна оцінка Х також підкоряється нормальному розподілу з середнім значенням m і, отже, щільність вірогідності випадкової величини Х

при х = Х досягає максимуму в точці m = Х (це властивість і виражає точний вміст поширеного в теорії помилок твердження «оцінка X , обчислена згідно Н. до. м., — найбільш вірогідне значення невідомого параметра m»).

  Випадок одного невідомого. Хай для оцінки значення невідомої величини m вироблене n незалежних спостережень, що дали результати Y 1 , Y 2 ..., Y n , тобто Y 1 = m + d 1 , Y 2 = m + d 2 ..., Y n = m + d n , де d 1 , d 2 ..., d n — випадкові помилки (за визначенням, прийнятим в класичній теорії помилок, випадкові помилки — незалежні випадкові величини з нульовим математичним чеканням: Е d i = 0; якщо ж E d i ¹ 0, то Е d i , називаються систематичними помилками). Згідно Н. до. м., як оцінка величини m приймають таке X, для якого буде найменшою сума квадратів (звідси і само назва методу):

  де p i = k/ s i 2 і s i 2 = D d i = E d i 2

(коефіцієнт до > 0 можна вибирати довільно). Величину p i називають вагою, а s i — квадратичним відхиленням виміру з номером i . Зокрема, якщо всі виміри равноточни, то s 1 = s 2 =... = s n , і в цьому випадку можна покласти p 1 = p 2 =... = p n = 1; якщо ж кожне Y i , — арифметичне середнє з n i , равноточних вимірів, то вважають p i = n i .

  Сума S ( X ) буде найменшою, якщо як Х вибрати зважене середнє:

Оцінка  величини m позбавлена систематичної помилки, має вагу Р і дисперсію

Зокрема, якщо всі виміри равноточни, то Y — арифметичне середнє результатів вимірів:

  При деяких загальних припущеннях можна показати, що якщо кількість спостережень n досить великий, то розподіл оцінки  мало відрізняється від нормального з математичним чеканням m і дисперсією k/p . В цьому випадку абсолютна погрішність наближеної рівності

менше

з вірогідністю, близькою до значення інтеграла

[напр., I (1,96) = 0,950; I (2,58) = 0,990; I (3,00) = 0,997].

  Якщо ваги вимірів p i задані, а множник до до спостережень залишається невизначеним, то цей множник і дисперсія оцінки  можуть бути приблизно оцінені по формулах:

і

(обидві оцінки позбавлено систематичних помилок).

  У тому практично важливому випадку, коли помилки d i підкоряються нормальному розподілу, можна знайти точне значення вірогідності, з якою абсолютна погрішність наближеної рівності

виявиться менше ts ( t — довільне позитивне число). Цю вірогідність, як функцію від t , називають функцією розподілу Стьюдента з n - 1 мірами свободи і обчислюють за формулою

де постійна C n -1 вибрана так, щоб виконувалася умова: I n -1 (¥) = 1. При великих n формулу (2) можна замінити формулою (1). Проте вживання формули (1) при невеликих n привело б до грубих помилок. Так, наприклад, згідно (1), значенню I = 0,99 відповідає t = 2,58; дійсні значення t , визначувані при малих n як вирішення відповідних рівнянь l n -1 ( t ) = 0,99, приведені в таблиці:

n

2

3

4

5

10

20

30

t

63,66

9,92

5,84

4,60

3,25

2,86

2,76

Приклад. Для визначення маси деякого тіла вироблено 10 незалежних равноточних зважувань, що дали результати Y i г ):

Y i

18,41

18,42

18,43

18,44

18,45

18,46

n i

1

3

3

1

1

1

(тут n i — число випадків, в яких спостерігалася вага Y i , причому n = S n i = 10). Оскільки всі зважування равноточниє, то слід покласти p i = n i і як оцінка для невідомої ваги m, вибрати величину

Задаючи, наприклад, I 9 = 0,95, по таблицях розподілу Стьюдента з дев'ятьма мірами свободи можна знайти, що t = 2,262, і тому як гранична абсолютна погрішність наближеної рівності m » 18,431 слід прийняти величину

  Т. о. 18,420 < m < 18,442.

  Випадок декілька невідомих (лінійні зв'язки). Хай n результатів вимірів Y 1 , Y 2 ..., Y n пов'язані з m невідомими величинами x 1 , x 2 ..., х m ( m < n ) незалежними лінійними стосунками

де a ij — відомі коефіцієнти, а d i — незалежні випадкові помилки вимірів. Потрібно оцінити невідомі величини x j (це завдання можна розглядати як узагальнення попередньою, в якій m = x 1 і m = a i1 = 1; i = 1,2..., n ).

  Так_как Е d i = 0, то середні значення результатів вимірів y i = E y i . пов'язані з невідомими величинами x 1 , x 2 ..., х m лінійними рівняннями (лінійні зв'язки):

  Отже, шуканими величинами x j є вирішення системи (4), рівняння якої передбачаються спільними. Точні значення вимірюваних величин y i і випадкові помилки d i зазвичай невідомі, тому замість систем (3) і (4) прийнято записувати так звані умовні рівняння

  Згідно Н. до. м., якості оцінок для невідомих x j застосовують такі величини X j , для яких сума квадратів відхилень

буде найменшою (як і у попередньому випадку, p i — вага виміру Y i , — величина, обернено пропорційна до дисперсії випадкової помилки d i ). Умовні рівняння, як правило, неспільні, тобто при будь-яких значеннях X j різниці

не можуть, взагалі кажучи, все перетворитися на нуль, і в цьому випадку

також не може перетворитися на нуль. Н. до. м. наказує як оцінки вибрати такі значення X j , які мінімізують суму S . У тих виняткових випадках, коли умовні рівняння спільні і, значить, володіють рішенням, це рішення збігається з оцінками, отриманими згідно Н. до. м.

  Сума квадратів S є квадратичним многочленом відносно змінних X j ; цей многочлен досягає мінімуму при таких значеннях X 1 , X 2 ..., Х m , при яких перетворюються на нуль всі перші приватні похідні:

Звідси слідує, що оцінки X j , отримані згідно Н. до. м., повинні задовольняти системі так званих нормальних рівнянь, яка в позначеннях, запропонованих Гаусом, має вигляд:

де

  Оценки X j , вирішення системи нормальних рівнянь, що виходять в результаті, позбавлені систематичних помилок ( E x j = x j ); дисперсії D x j ; величин X j рівні kd jj /d , де d — визначник системи (5), а d jj — мінор, відповідний діагональному елементу [ ра j a j ] (іншими словами, d jj /d — вага оцінки X j ). Якщо множник пропорційності до ( до називається дисперсією на одиницю ваги) заздалегідь невідомий, то для його оцінки, а також для оцінки дисперсії D x j служать формули:

  до » S/ ( n - m ) і D x j » s 2 j = Sd jj /d ( n - m )

( S — мінімальне значення вихідної суми квадратів). При деяких загальних припущеннях можна показати, що якщо кількість спостережень n досить великий, то абсолютна погрішність наближеної рівності x i » X j менше ts j з вірогідністю, близькою до значення інтеграла (1). Якщо випадкові помилки спостережень d i підкоряються нормальному розподілу, то всі стосунки ( X j - x j ) / s j розподілені згідно із законом Стьюдента з n - m мірами свободи [точна оцінка абсолютної погрішності наближеної рівності виробляється тут за допомогою інтеграла (2) так само, як в разі одного невідомого]. Крім того, мінімальне значення суми S в імовірнісному сенсі не залежить від X 1 , X 2 ..., X m і тому наближені значення дисперсій оцінок D x j » s 2 j не залежать від самих оцінок X j .

  Одін з найбільш типових випадків вживання Н. до. м. — «вирівнювання» таких результатів спостережень Y i , для яких в рівняннях (3) a ij = a j ( t i ), де a j ( t ) — відомі функції деякого параметра t (якщо t — час, то t 1 , t 2 ... — ті моменти часу, в які вироблялися спостереження). Особливо часто зустрічається в додатках випадок так званої параболічної інтерполяції, коли a j ( t ) — многочлени [наприклад, а 1 ( t ) = 1, а 2 ( t ) = t , а 3 ( t ) = t 2 ... і т.д.]; якщо t 2 t 1 = t 3 t 2 =... = t n t n -1 , а спостереження равноточниє, то для обчислення оцінок X j можна скористатися таблицями ортогональних многочленів, наявними в багатьох керівництві по сучасній обчислювальній математиці. Інший важливий для додатки випадок — так звана гармонійна інтерполяція, коли як a j ( t ) вибирають тригонометричні функції [наприклад, a j ( t ) = cos ( j - 1) t , j = 1, 2..., m ].

  Приклад. Для оцінки точності одного з методів хімічного аналізу цим методом визначалася концентрація CAO в десяти еталонних пробах заздалегідь відомого складу. Результати равноточних спостережень вказані в таблиці ( i — номер експерименту, t i — дійсна концентрація CAO, T i — концентрація CAO. визначена в результаті хімічного аналізу, Y i = T i - t i — помилка хімічного аналізу):

i

1

2

3

4

5

6

7

8

9

10

t i

4

8

12,5

16

20

25

31

36

40

40

Y i

- 0,3

- 0,2

- 0,4

- 0,4

- 0,2

- 0,5

+ 0,1

- 0,5

-0,6

-0,5

Якщо результати хімічного аналізу не мають систематичних помилок, то E y i = 0. Якщо ж такі помилки є, то в першому наближенні їх можна представити у вигляді: E y i = а + b t i (а називається постійною помилкою, а b t i — методичною помилкою) або, що те ж саме,

де

  Для відшукання оцінок а і b досить оцінити коефіцієнти

Умовні рівняння в даному випадку мають вигляд:

тому a i1 = 1, a i2 = t i - t (згідно з припущенням про равноточності спостережень, все p i = 1). Оскільки

те система нормальних рівнянь записується особливо просто:

[ a 1 a 1 ] X 1 = [ Ya 1 ]; [ a 2 a 2 ] X 2 = [ Ya 2 ],

де

  Дисперсії компонент рішення цій системи суть

де до — невідома дисперсія на одиницю ваги (в даному випадку до — дисперсія будь-якій з величин Y i ). Оскільки в даному прикладі компоненти рішення приймають значення X 1 = -0,35 і X 2 = -0,00524, то

  D x 1 » s 1 2 = 0,00427,

  D x 2 » s 2 2 = 0,0000272,

  s 1 = 0,065, s 2 = 0,00522.

  Якщо випадкові помилки спостережень підкоряються нормальному розподілу, то стосунки | X j x j l/ s j ( j = 1, 2) розподілені згідно із законом Стьюдента. Зокрема, якщо результати спостережень позбавлені систематичних помилок, то x 1 = x 2 = 0 і, значить, закону Стьюдента повинні підкорятися стосунки | X 1 |/ s 1 і | X 2 |/ s 2 . За допомогою таблиць розподілу Стьюдента з n m = 8 мірами свободи можна переконатися, що якщо дійсно x 1 = x 2 = 0, то з вірогідністю 0,999 кожен з цих стосунків не повинен перевершувати 5,04 і з вірогідністю 0,95 не повинно перевершувати 2,31. В даному випадку | X 1 |/ s 1 = 5,38 > 5,04, тому гіпотезу відсутності систематичних помилок доцільно відкинути; в той же час слідує визнати, що гіпотеза про відсутність методичної помилки ( x 2 = 0) не протіворечит результатам спостережень, оскільки | X 2 |/ s 2 = 1,004 < 2,31. Т. о., можна укласти, що для визначення t по результату спостереження Т доцільно користуватися наближеною формулою t = Т + 0,35.

  В багатьох практично важливих випадках (і зокрема, при оцінці складних нелінійних зв'язків) кількість невідомих параметрів буває вельми великою і тому реалізація Н. до. м. виявляється ефективним лише при використанні сучасної обчислювальної техніки.

  Літ.: Марков А. А., Числення вірогідності, 4 видавництва, М., 1924; Колмогоров А. Н., До обгрунтування методу найменших квадратів, «Успіхи математичних наук», 1946, т. 1, ст 1; Лінник Ю. Ст, Метод найменших квадратів і основи математіко-статістічній теорії обробки спостережень, 2 видавництва, М., 1962; Helmert F. R., Die Ausgieichungsrechnung nach der Methode der kleinsten Quadrate..., 2 Aufl., Lpz., 1907.

  Л. Н. Большев.