Математична статистика
 
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
 

Математична статистика

Математична статистика , розділ математики, присвячений математичним методам систематизації, обробки і використання статистичних даних для наукових і практичних виводів. При цьому статистичними даними називаються зведення про число об'єктів в якій-небудь більш менш обширній сукупності, що володіють тими або іншими ознаками (такі, наприклад, дані таблиць 1а і 2а).

Таблиця 1а. — Розподіл діаметру деталі в мм , виявлене при статистичному дослідженні масової продукції (пояснення позначень, S , s див.(дивися) в статті).

Діаметр

Основна вибірка

1-я вибірка

2-я вибірка

3-я вибірка

13,05—13,09

1

1

13,10—13,14

2

13,15—13,19

1

1

1

13,20—13,24

8

13,25—13,29

17

1

2

1

13,30—13,34

27

1

1

2

13,35—13,39

30

2

3

1

13,40—13,44

37

2

1

1

13,45—13,49

27

1

13,50—13,54

25

2

1

13,55—13,59

17

13,60—13,64

7

1

2

13,65—13,69

2

1

Всього

200

10

10

10

13,416

13,430

13,315

13,385

S 2

2,3910

0,0990

0,1472

0,3602

s

0,110

0,105

0,128

0,200

 

Таблиця 1б. — Розподіл діаметру деталі основної вибірки (з таблиці 1а) при крупніших інтервалах угрупування

Діаметр

Число деталей

13,00—13,24

11

13,25—13,49

138

13,50—13,74

51

Всього

200

  Предмет і метод математичної статистики. Статистичний опис сукупності об'єктів займає проміжне положення між індивідуальним описом кожного з об'єктів сукупності, з одного боку, і описом сукупності по її загальних властивостях, що зовсім не вимагають її розчленовування на окремі об'єкти, — з іншою. В порівнянні з першим способом статистичні дані завжди більшою чи меншою мірою знеособлені і мають лише обмежену цінність у випадках, коли істотні саме індивідуальні дані (наприклад, вчитель, знайомлячись з класом, отримає лише вельми попереднє орієнтування про положення справи з однієї статистики числа виставлених його попередником відмінних, хороших, задовільних і незадовільних оцінок). З іншою сторони, в порівнянні з даними про спостережувані ззовні сумарні властивості сукупності статистичні дані дозволяють глибше проникнути в істоту справи. Наприклад, дані гранулометричного аналізу породи (тобто дані про розподіл створюючих породу часток по розмірах) дають коштовну додаткову інформацію в порівнянні з випробуванням нерозчленованих зразків породи, дозволяючи в деякій мірі пояснити властивості породи, умови її освіти і інше.

  Метод дослідження, що спирається на розгляд статистичних даних про тих або інших совокупностях об'єктів, називається статистичним. Статистичний метод застосовується в самих різних областях знання. Проте межі статистичного методу в застосуванні до об'єктів різної природи настільки своєрідні, що було б безглуздо об'єднувати, наприклад, соціально-економічну статистику фізичну статистику (див. Статистична фізика ), зоряну статистику і тому подібне в одну науку.

  Загальні межі статистичного методу в різних областях знання зводяться до підрахунку числа об'єктів, що входять в ті або інші групи, розгляду розподілу кількостей, ознак, вживанню вибіркового методу (у випадках, коли детальне дослідження всіх об'єктів обширної сукупності скрутне), використанню теорії вірогідності при оцінці достатності числа спостережень для тих або інших виводів і тому подібне Ета формальна математична сторона статистичних методів дослідження, байдужа до специфічної природи об'єктів, що вивчаються, і складає предмет М. с.

  Зв'язок математичної статистики з теорією вірогідності. Зв'язок М. с. з теорією вірогідності має в різних випадках різний характер. Вірогідності теорія вивчає не будь-які явища, а явища випадкові і саме «імовірнісний випадкові», тобто такі, для яких має сенс говорити про відповідні їм розподіли вірогідності. Проте, теорія вірогідності грає певну роль і при статистичному вивченні масових явищ будь-якої природи, які можуть не відноситися до категорії імовірнісний випадкових. Це здійснюється через заснованих на теорії вірогідності теорію вибіркового методу і теорію помилок вимірів (див. Помилок теорія ). У цих випадках імовірнісним закономірностям підпорядковані не самі явища, що вивчаються, а прийоми їх дослідження.

  важливішу роль грає теорія вірогідності при статистичному дослідженні імовірнісних явищ. Тут повною мірою знаходять вживання такі засновані на теорії вірогідності розділи М. с., як теорія статистичної перевірки імовірнісних гіпотез, теорія статистичної оцінки розподілів вірогідності і вхідних в них параметрів і так далі. Сфера ж застосування цих глибших статистичних методів значно вужча, оскільки тут потрібний, щоб самі явища, що вивчаються, були підпорядковані досить певним імовірнісним закономірностям. Наприклад, статистичне вивчення режиму турбулентних водних потоків або флюктуаций в радіоприймальних пристроях виробляється на основі теорії стаціонарних випадкових процесів . Проте застосування тієї ж теорії до аналізу економічних тимчасових рядів може привести до грубих помилок зважаючи на того, що що входить у визначення стаціонарного процесу допущення наявності незмінних розподілів вірогідності, що зберігаються протягом довгого часу, в цьому випадку, як правило, абсолютно неприйнятний.

  Імовірнісні закономірності отримують статистичне вираження (вірогідність здійснюється приблизно у вигляді частот, а математичні чекання — у вигляді середніх) в силу великих чисел закону .

  Прості прийоми статистичного опису. сукупність, що Вивчається, з n об'єктів може за якою-небудь якісною ознакою А розбиватися на класи A 1 , A 2 ..., A r . Відповідне цьому розбиттю статистичний розподіл задається за допомогою вказівки численностей (частот) n 1 , n 2 ..., n r , (де ) окремих класів. Замість численностей n i часто вказують відповідні відносні частоти (частості) h i = n i / n (що задовольняють, очевидно, співвідношенню). Якщо вивченню підлягає деяка кількісна ознака, то її розподіл в сукупності з n об'єктів можна задати, перерахувавши безпосередньо наблюденниє значення ознаки: х 1 , x 2 ..., x n , наприклад, в порядку їх зростання. Проте при великих n такий спосіб громіздкий і в той же час не виявляє виразно істотних властивостей розподілу (детальніше про способи зображення і прості характеристики розподілу однієї кількісної ознаки див.(дивися) Розподіли ). При скільки-або великих n на практиці зазвичай зовсім не складають повних таблиць наблюденних значеній x i , а виходять у всій подальшій роботі з таблиць, що містять лише чисельності класів, що виходять при угрупуванні наблюденних значень по належно вибраних інтервалах.

  Наприклад, в першому стовпці таблиці 1а дані результати виміру 200 діаметрів деталей, груповані по інтервалах довжиною 0,05 мм . Основна вибірка відповідає нормальному ходу технологічного процесу, 1-я, 2-я і 3-я вибірки зроблені через деякі проміжки часу для перевірки стійкості цього нормального ходу виробництва. У таблиці 1б результати виміру деталей основної вибірки дани при угрупуванні по інтервалах довжиною 0,25 мм .

  Зазвичай угрупування по 10—20 інтервалам, в кожен з яких потрапляє не більше 15—20 % значень x i , виявляється достатньою для досить повного виявлення всіх істотних властивостей розподілу і надійного обчислення по групових численностям основних характеристик розподілу (див. про них нижчий). Складена за такими групованими даними гістограма наочно змальовує розподіл. Гістограма, складена на основі угрупування з маленькими інтервалами, зазвичай багатовершинна і не відображає наочно істотних властивостей розподілу.

  Як приклад на мал. 1 дана гістограма розподілу 200 діаметрів, відповідна даним першого стовпця таблиці 1а, а на мал. 3 — гістограма того ж розподілу (відповідна таблиця не приводиться зважаючи на її громіздкість) при інтервалі 0,01 мм . З іншою сторони, угрупування по дуже крупних інтервалах може привести до втрати ясного уявлення про характер розподілу і до грубих помилок при обчисленні середнього і інших характеристик розподілу (див. таблицю 1б і відповідну гістограму на мал.(малюнок) 2 ).

  В межах М. с. питання про інтервали угрупування може бути розглянутий лише з формального боку: повнота математичного опису розподілу точність обчислення середніх за згрупованими даними і так далі. Про угрупування, що має на меті виділити якісно різні групи в сукупності, що вивчається, див.(дивися) Статистичні угрупування .

  При вивченні спільного розподілу двох ознак користуються таблицями з двома входами. Прикладом спільного розподілу двох якостей, ознак може служити таблиця 2а. У загальному випадку, коли за ознакою А матеріал розбитий на класи A 1 , A 2 ..., A r , а за ознакою В — на класи B 1 , B 2 ..., B s , таблиця складається з численностей n ij об'єктів, що належать одночасно класам A i і B j ). Підсумовуючи їх по формулах

 ,,

отримують чисельності самих класів A i і B j ; очевидно, що

  ,

де n — чисельність всієї сукупності, що вивчається. Залежно від цілей подальшого дослідження обчислюють ті або інші з відносних частот

   h ij = n ij / n , h i . = n i . / n , h.j = n. .j / n , h i(j) = n ij / n. j , h (i) j = n ij / n i . .

  Наприклад, при вивченні впливу вдихання сироватки на захворювання грипом по таблиці 2а природно обчислити відносні частоти, дані в таблиці 2б.

Таблиця 2а. — Розподіл хворих і не хворих грипом серед працівників Центрального універмагу в Москві, що вдихали і не вдихали протигрипозну сироватку (1939)

Не хворі

Хворі

Всего

що Не вдихали

1675

150

1825

що Вдихали

497

4

501

Всього

2172

154

2326

Таблиця 2б. — Відносні частоти (відповідні даним таблиці 2а)

Не хворі

Хворі

Всього

що Не вдихали

0,918

0,082

1,000

що Вдихали

0,992

0,008

1,000

  Приклад таблиці для спільного розподілу двох кількостей, ознак див.(дивися) в статті Кореляція . Таблиця 1а служить прикладом змішаного випадку: матеріал групується поодинці якостей, ознаці (приналежність до основної вибірки, виробленої для визначення середнього рівня виробничого процесу, і до трьох вибірок, вироблених в різні моменти часу для перевірки збереження цього нормального середнього рівня) і поодинці кількостей, ознаці (діаметр деталей).

  Простими звідними характеристиками розподілу однієї кількісної ознаки є середнє

 ,

і середнє квадратичне відхилення

 ,

де

 

При обчисленні, S 2 і D за групованими даними користуються формулами

 

 

або

 ,

де r — число інтервалів угрупування, a до — їх середини (в разі таблиці 1а — 13,07; 13,12; 13,17; 13,22 і т. д.). Якщо матеріал згрупований по дуже крупних інтервалах, то такий підрахунок дає дуже грубі результати. Інколи в таких випадках корисно удаватися до спеціальних поправок на угрупування. Проте ці поправки має сенс вводити лише за умови виконання певних імовірнісних припущень.

  Про спільні розподіли два і більшого числа ознак див.(дивися) Кореляція, Кореляційний аналіз, Регресія, Регресійний аналіз .

 

  Зв'язок статистичних розподілів з імовірнісними. Оцінка параметрів.

  Перевірка імовірнісних гіпотез. Вище були викладені лише деякі вибрані прості прийоми статистичного опису що є досить обширною дисципліною з добре розробленою системою понять і технікою обчислень. Прийоми статистичного опису цікаві, проте не самі по собі, а як засіб для здобуття із статистичного матеріалу виводів про закономірності, яким підкоряються явища, що вивчаються, і про причини, що приводять в кожному отд.(окремий) випадку до тих або інших наблюденним статистичних розподілів.

  Наприклад дані, приведені в таблиці 2а, природно пов'язати з такою теоретичною схемою. Захворювання грипом кожного окремого працівника універмагу слід вважати випадковою подією, оскільки загальні умови роботи і життя обстежених працівників універмагу можуть визначати не сам факт захворювання такого-то і такого-то працівника, а лише деяку вірогідність захворювання. Вірогідність захворювання для тих, що вдихали сироватку ( p 1 ) і для тих, що не вдихали ( p 0 ), судячи по статистичних даних, різні: ці дані дають підстави передбачати, що p 1 істотно менше p 0 . Перед М. с. виникає завдання: по наблюденним частотам h 1 = 4/501 » 0,008 і h 0 = 150/1825 » 0,082 оцінити вірогідність p 1 і p 0 і перевірити, чи достатній статистичний матеріал для того, щоб вважати встановленим, що p 1 < p 0 (тобто що вдихання сироватки дійсно зменшує вірогідність захворювання). Ствердна відповідь на поставлене питання в разі даних таблиці 2а досить переконлива і без тонких засобів М. с. Але в більш сумнівних випадках необхідно удаватися до розроблених М. с. спеціальним критеріям.

  Дані першого стовпця таблиці 1а зібрані з метою встановлення точності виготовлення деталей, розрахунковий діаметр яких дорівнює 13,40 мм, при нормальному ході виробництва. Простим допущенням, яке може бути в цьому випадку обгрунтоване деякими теоретичними міркуваннями, є припущення, що діаметри окремих деталей можна розглядати як випадкові величини X , підлеглі нормальному розподілу вірогідності

  P{ X < x }= .   (1)

Якщо це допущення вірне, то параметри а і s 2 — середнє і дисперсію імовірнісного розподілу — можна з достатньою точністю оцінити по відповідних характеристиках статистичного розподілу (оскільки число спостережень n = 200 досить великий). Як оцінка для теоретичної дисперсії s 2 віддають перевагу не статистичній дисперсії D 2 = S 2 / n , а незміщену оцінку

  s 2 = S 2 / ( n - 1).

  Для теоретичного середнього квадратичного відхилення не існує загального (придатного при будь-якому розподілі вірогідності) вираження незміщеної оцінки. Як оцінка (взагалі кажучи, зміщеною) для s найчастіше вживають s . Точність оцінок  і s для а і s вказується відповідними дисперсіями, які в разі нормального розподілу (1) мають вигляд

  s 2 а = s 2 / n ~ s 2 / n ,

   ~ 2 s 4 / n ,

   ~ s 2 / 2 n ,

де знак ~ позначає наближене рівність при великих n . Таким чином, умовляючись додавати до оцінок із знаком ± їх середнє квадратичне відхилення, маємо при великих n в припущенні нормального розподілу (1):

    .   (2)

Для даних першого стовпця таблиці 1а формули (2) дають

  а = 13,416 ± 0,008,

  s = 0,110 ± 0,006.

Об'єм вибірки n = 200 достатній для законності користування цими формулами теорії великих вибірок.

  Подальші відомості про оцінку параметрів теоретичних розподілів вірогідності див.(дивися) в статтях Статистичні оцінки, Довірчі кордони . Про способи, за допомогою яких за даними першого стовпця таблиці 1а можна було б перевірити вихідні гіпотези нормальності розподілу і незалежності спостережень, див.(дивися) в статтях Розподіли, Непараметричні методи, Статистична перевірка гіпотез .

  При розгляді даних наступних стовпців таблиці 1а, кожен з яких складений на основі 10 вимірів, вживання формул теорії великих вибірок, встановлених лише як граничні формули при n ® ¥, може служити лише для першого орієнтування. Як наближені оцінки параметрів а і s як і раніше уживаються величини  і s , але для оцінки точності і надійності таких оцінок необхідно застосовувати теорію малих вибірок . При порівнянні по правилах М. с. виписаних в останніх рядках таблиці 1а значень  і s для трьох вибірок з нормальними значеннями а і s, оціненими по першому стовпцю таблиці, можна зробити наступні виводи: перша вибірка не дає підстав передбачати істотної зміни ходу виробничого процесу, друга вибірка дає підставу до висновку про зменшення середнього діаметру а третя вибірка — до висновку про збільшення дисперсії.

  Всі засновані на теорії вірогідності правила статистичної оцінки параметрів і перевірки гіпотез діють лише з визначеним значущості рівнем w < 1, тобто можуть приводити до помилкових результатів з вірогідністю а = 1 — w. Наприклад, якщо в припущенні нормального розподілу і відомою теоретичною дисперсії s 2 виробляти оцінку а по  за правилом

 ,

те вірогідність помилки буде рівна а, пов'язаному з до співвідношенням (див. таблицю 3);

  .

  Питання про раціональний вибір рівня значущості в даних конкретних умовах (наприклад, при розробці правил статистичного контролю масової продукції) є вельми істотним. При цьому