н-наг	над-нак	нал-нар	нас-нау	наф-ндж	ндо-нез	неи-нем	нен-нер
нес-неч	неш-ник	нил-нов	ног-нор	нос-нуш	нуэ-няс

Найменших квадратів метод

Найменших квадратів метод, один з методів помилок теорії для оцінки невідомих величин за результатами вимірів, що містить випадкові помилки. Н. до. м. застосовується також для наближеного представлення заданої функції іншими (простішими) функціями і часто виявляється корисним при спостережень обробці . Н. до. м. запропонований До. Гаусом (1794—95) і А. Лежандром (1805—06). Спочатку Н. до. м. використовувався для обробки результатів астрономічних і геодезичних спостережень. Строге математичне обгрунтування і встановлення кордонів змістовної застосовності Н. до. м. дани А. А. Марковом (старшим) і А. Н. Колмогоровим . Нині Н. до. м. є одним з найважливіших розділів математичної статистики і широко використовується для статистичних виводів в різних галузях науки і техніки.

Суть обгрунтування Н. до. м. (по Гаусу) полягає в допущенні, що «збиток» від заміни точного (невідомого) значення фізичної величини і її наближеним значенням X , обчисленим за результатами спостережень, пропорційний квадрату помилки: ( X - m)² . У цих умовах оптимальною оцінкою природно визнати таку позбавлену систематичної помилки величину X , для якої середнє значення «збитку» мінімальне. Саме це вимога і складає основу Н. до. м. У загальному випадку відшукання оптимальної в сенсі Н. до. м. оцінки Х — завдання вельми складна, тому практично це завдання звужують і як Х вибирають лінійну функцію від результатів спостережень, позбавлену систематичної помилки, і таку, для якої середнє значення «збитку» мінімальне в класі всіх лінійних функцій. Якщо випадкові помилки спостережень підкоряються нормальному розподілу і оцінювана величина m залежить від середніх значень результатів спостережень лінійно (випадок, вельми Н, що часто зустрічається в додатках. до. м.), те рішення цієї задачі одночасно буде і рішенням загальної задачі. При цьому оптимальна оцінка Х також підкоряється нормальному розподілу з середнім значенням m і, отже, щільність вірогідності випадкової величини Х

при х = Х досягає максимуму в точці m = Х (це властивість і виражає точний вміст поширеного в теорії помилок твердження «оцінка X , обчислена згідно Н. до. м., — найбільш вірогідне значення невідомого параметра m»).

Випадок одного невідомого. Хай для оцінки значення невідомої величини m вироблене n незалежних спостережень, що дали результати Y ₁, Y ₂..., Y_n, тобто Y ₁ = m + d₁, Y ₂ = m + d₂..., Y_n = m + d_n, де d₁, d₂..., d_n — випадкові помилки (за визначенням, прийнятим в класичній теорії помилок, випадкові помилки — незалежні випадкові величини з нульовим математичним чеканням: Е d _i = 0; якщо ж E d _i ¹ 0, то Е d _i, називаються систематичними помилками). Згідно Н. до. м., як оцінка величини m приймають таке X, для якого буде найменшою сума квадратів (звідси і само назва методу):

де p_i = k/ s _i ² і s _i ² = D d _i = E d _i ²

(коефіцієнт до > 0 можна вибирати довільно). Величину p_i називають вагою, а s _i — квадратичним відхиленням виміру з номером i . Зокрема, якщо всі виміри равноточни, то s₁ = s₂ =... = s _n, і в цьому випадку можна покласти p ₁ = p ₂ =... = p_n = 1; якщо ж кожне Y_i, — арифметичне середнє з n_i, равноточних вимірів, то вважають p_i = n_i .

Сума S ( X ) буде найменшою, якщо як Х вибрати зважене середнє:

Оцінка величини m позбавлена систематичної помилки, має вагу Р і дисперсію

Зокрема, якщо всі виміри равноточни, то Y — арифметичне середнє результатів вимірів:

При деяких загальних припущеннях можна показати, що якщо кількість спостережень n досить великий, то розподіл оцінки мало відрізняється від нормального з математичним чеканням m і дисперсією k/p . В цьому випадку абсолютна погрішність наближеної рівності

менше

з вірогідністю, близькою до значення інтеграла

[напр., I (1,96) = 0,950; I (2,58) = 0,990; I (3,00) = 0,997].

Якщо ваги вимірів p_i задані, а множник до до спостережень залишається невизначеним, то цей множник і дисперсія оцінки можуть бути приблизно оцінені по формулах:

(обидві оцінки позбавлено систематичних помилок).

У тому практично важливому випадку, коли помилки d _i підкоряються нормальному розподілу, можна знайти точне значення вірогідності, з якою абсолютна погрішність наближеної рівності

виявиться менше ts ( t — довільне позитивне число). Цю вірогідність, як функцію від t , називають функцією розподілу Стьюдента з n - 1 мірами свободи і обчислюють за формулою

де постійна C_n _-1 вибрана так, щоб виконувалася умова: I_n _-1 (¥) = 1. При великих n формулу (2) можна замінити формулою (1). Проте вживання формули (1) при невеликих n привело б до грубих помилок. Так, наприклад, згідно (1), значенню I = 0,99 відповідає t = 2,58; дійсні значення t , визначувані при малих n як вирішення відповідних рівнянь l_n _-1 ( t ) = 0,99, приведені в таблиці:

n	2	3	4	5	10	20	30
t	63,66	9,92	5,84	4,60	3,25	2,86	2,76

Приклад. Для визначення маси деякого тіла вироблено 10 незалежних равноточних зважувань, що дали результати Y_i (у г ):

Y _i	18,41	18,42	18,43	18,44	18,45	18,46
n_i	1	3	3	1	1	1

(тут n_i — число випадків, в яких спостерігалася вага Y_i, причому n = S n_i = 10). Оскільки всі зважування равноточниє, то слід покласти p_i = n_i і як оцінка для невідомої ваги m, вибрати величину

Задаючи, наприклад, I ₉ = 0,95, по таблицях розподілу Стьюдента з дев'ятьма мірами свободи можна знайти, що t = 2,262, і тому як гранична абсолютна погрішність наближеної рівності m » 18,431 слід прийняти величину

Т. о. 18,420 < m < 18,442.

Випадок декілька невідомих (лінійні зв'язки). Хай n результатів вимірів Y ₁, Y ₂..., Y_n пов'язані з m невідомими величинами x ₁, x ₂..., х_m ( m < n ) незалежними лінійними стосунками

де a_ij — відомі коефіцієнти, а d _i — незалежні випадкові помилки вимірів. Потрібно оцінити невідомі величини x_j (це завдання можна розглядати як узагальнення попередньою, в якій m = x₁ і m = a_i1 = 1; i = 1,2..., n ).

Так_как Е d _i = 0, то середні значення результатів вимірів y_i = E y_i . пов'язані з невідомими величинами x ₁, x ₂..., х_m лінійними рівняннями (лінійні зв'язки):

Отже, шуканими величинами x_j є вирішення системи (4), рівняння якої передбачаються спільними. Точні значення вимірюваних величин y_i і випадкові помилки d _i зазвичай невідомі, тому замість систем (3) і (4) прийнято записувати так звані умовні рівняння

Згідно Н. до. м., якості оцінок для невідомих x_j застосовують такі величини X_j, для яких сума квадратів відхилень

буде найменшою (як і у попередньому випадку, p_i — вага виміру Y_i, — величина, обернено пропорційна до дисперсії випадкової помилки d _i ). Умовні рівняння, як правило, неспільні, тобто при будь-яких значеннях X_j різниці

не можуть, взагалі кажучи, все перетворитися на нуль, і в цьому випадку

також не може перетворитися на нуль. Н. до. м. наказує як оцінки вибрати такі значення X_j, які мінімізують суму S . У тих виняткових випадках, коли умовні рівняння спільні і, значить, володіють рішенням, це рішення збігається з оцінками, отриманими згідно Н. до. м.

Сума квадратів S є квадратичним многочленом відносно змінних X_j ; цей многочлен досягає мінімуму при таких значеннях X ₁, X ₂..., Х_m, при яких перетворюються на нуль всі перші приватні похідні:

Звідси слідує, що оцінки X_j, отримані згідно Н. до. м., повинні задовольняти системі так званих нормальних рівнянь, яка в позначеннях, запропонованих Гаусом, має вигляд:

де

Оценки X_j, вирішення системи нормальних рівнянь, що виходять в результаті, позбавлені систематичних помилок ( E x_j = x_j ); дисперсії D x_j ; величин X_j рівні kd_jj /d , де d — визначник системи (5), а d_jj — мінор, відповідний діагональному елементу [ ра_j a_j ] (іншими словами, d_jj /d — вага оцінки X_j ). Якщо множник пропорційності до ( до називається дисперсією на одиницю ваги) заздалегідь невідомий, то для його оцінки, а також для оцінки дисперсії D x_j служать формули:

до » S/ ( n - m ) і D x_j » s² _j = Sd_jj /d ( n - m )

( S — мінімальне значення вихідної суми квадратів). При деяких загальних припущеннях можна показати, що якщо кількість спостережень n досить великий, то абсолютна погрішність наближеної рівності x_i » X_j менше ts_j з вірогідністю, близькою до значення інтеграла (1). Якщо випадкові помилки спостережень d _i підкоряються нормальному розподілу, то всі стосунки ( X_j - x_j ) / s_j розподілені згідно із законом Стьюдента з n - m мірами свободи [точна оцінка абсолютної погрішності наближеної рівності виробляється тут за допомогою інтеграла (2) так само, як в разі одного невідомого]. Крім того, мінімальне значення суми S в імовірнісному сенсі не залежить від X ₁, X ₂..., X_m і тому наближені значення дисперсій оцінок D x_j » s² _j не залежать від самих оцінок X_j .

Одін з найбільш типових випадків вживання Н. до. м. — «вирівнювання» таких результатів спостережень Y_i, для яких в рівняннях (3) a_ij = a_j ( t_i ), де a_j ( t ) — відомі функції деякого параметра t (якщо t — час, то t ₁, t ₂... — ті моменти часу, в які вироблялися спостереження). Особливо часто зустрічається в додатках випадок так званої параболічної інтерполяції, коли a_j ( t ) — многочлени [наприклад, а ₁ ( t ) = 1, а ₂ ( t ) = t , а ₃ ( t ) = t²... і т.д.]; якщо t ₂ — t ₁ = t ₃ — t ₂ =... = t_n — t_n _-1, а спостереження равноточниє, то для обчислення оцінок X_j можна скористатися таблицями ортогональних многочленів, наявними в багатьох керівництві по сучасній обчислювальній математиці. Інший важливий для додатки випадок — так звана гармонійна інтерполяція, коли як a_j ( t ) вибирають тригонометричні функції [наприклад, a_j ( t ) = cos ( j - 1) t , j = 1, 2..., m ].

Приклад. Для оцінки точності одного з методів хімічного аналізу цим методом визначалася концентрація CAO в десяти еталонних пробах заздалегідь відомого складу. Результати равноточних спостережень вказані в таблиці ( i — номер експерименту, t_i — дійсна концентрація CAO, T_i — концентрація CAO. визначена в результаті хімічного аналізу, Y_i = T_i - t_i — помилка хімічного аналізу):

i	1	2	3	4	5	6	7	8	9	10
t _i	4	8	12,5	16	20	25	31	36	40	40
Y _i	- 0,3	- 0,2	- 0,4	- 0,4	- 0,2	- 0,5	+ 0,1	- 0,5	-0,6	-0,5

Якщо результати хімічного аналізу не мають систематичних помилок, то E y_i = 0. Якщо ж такі помилки є, то в першому наближенні їх можна представити у вигляді: E y_i = а + b t_i (а називається постійною помилкою, а b t_i — методичною помилкою) або, що те ж саме,

де

Для відшукання оцінок а і b досить оцінити коефіцієнти

Умовні рівняння в даному випадку мають вигляд:

тому a_i1 = 1, a_i2 = t_i - t (згідно з припущенням про равноточності спостережень, все p_i = 1). Оскільки

те система нормальних рівнянь записується особливо просто:

[ a₁ a₁ ] X₁ = [ Ya₁ ]; [ a₂ a₂ ] X₂ = [ Ya₂ ],

де

Дисперсії компонент рішення цій системи суть

де до — невідома дисперсія на одиницю ваги (в даному випадку до — дисперсія будь-якій з величин Y _i ). Оскільки в даному прикладі компоненти рішення приймають значення X ₁ = -0,35 і X ₂ = -0,00524, то

D x₁ » s₁ ² = 0,00427,

D x₂ » s₂ ² = 0,0000272,

s₁ = 0,065, s₂ = 0,00522.

Якщо випадкові помилки спостережень підкоряються нормальному розподілу, то стосунки | X_j – x_j l/ s_j ( j = 1, 2) розподілені згідно із законом Стьюдента. Зокрема, якщо результати спостережень позбавлені систематичних помилок, то x ₁ = x ₂ = 0 і, значить, закону Стьюдента повинні підкорятися стосунки | X ₁ |/ s ₁ і | X ₂ |/ s ₂ . За допомогою таблиць розподілу Стьюдента з n – m = 8 мірами свободи можна переконатися, що якщо дійсно x ₁ = x ₂ = 0, то з вірогідністю 0,999 кожен з цих стосунків не повинен перевершувати 5,04 і з вірогідністю 0,95 не повинно перевершувати 2,31. В даному випадку | X ₁ |/ s ₁ = 5,38 > 5,04, тому гіпотезу відсутності систематичних помилок доцільно відкинути; в той же час слідує визнати, що гіпотеза про відсутність методичної помилки ( x₂ = 0) не протіворечит результатам спостережень, оскільки | X ₂ |/ s ₂ = 1,004 < 2,31. Т. о., можна укласти, що для визначення t по результату спостереження Т доцільно користуватися наближеною формулою t = Т + 0,35.

В багатьох практично важливих випадках (і зокрема, при оцінці складних нелінійних зв'язків) кількість невідомих параметрів буває вельми великою і тому реалізація Н. до. м. виявляється ефективним лише при використанні сучасної обчислювальної техніки.

Літ.: Марков А. А., Числення вірогідності, 4 видавництва, М., 1924; Колмогоров А. Н., До обгрунтування методу найменших квадратів, «Успіхи математичних наук», 1946, т. 1, ст 1; Лінник Ю. Ст, Метод найменших квадратів і основи математіко-статістічній теорії обробки спостережень, 2 видавництва, М., 1962; Helmert F. R., Die Ausgieichungsrechnung nach der Methode der kleinsten Quadrate..., 2 Aufl., Lpz., 1907.

Л. Н. Большев.

Найменших квадратів метод

Наступні слова