Гіпотеза — наукове припущення, що висувається для пояснення будь-якого явища і потребує перевірки на досліді та теоретичного обґрунтування, для того щоб стати достовірною науковою теорією.
Статистична гіпотеза – будь-яке твердження (припущення) що стосується вигляду чи параметрів розподілу деякої ознаки досліджуваних об’єктів.
Гіпотезу, яку ми перевіряємо, називають нульовою \((H_0)\). Протилежною до нульової гіпотези є альтернативна (конкуруюча, \((H_1)\)).
“Нульова гіпотеза повинна мати точне, чітке та однозначне формулювання” (Fisher, R.A. (1966). The design of experiments. 8th edition. Hafner:Edinburgh.),
тоді як альтернативна – є запереченням нульової і включає у себе всі інші можливості. Часто дослідники формулюють нульову гіпотезу протилежну до тієї думки, якої вони дотримуються суб’єктивно. Тоді у разі запереченні нульової гіпотези вони отримують доказ своєї правоти. Прикладами формулювання нульової та альтернативної гіпотез є:
- \((H_0)\): Розподіл даної вибірки є нормальним; \((H_1)\)): Розподіл даної вибірки відрізняється від нормального
- \((H_0)\): Середня ефективність даного препарату дорівнює нулю; \((H_1)\)): Середня ефективність даного препарату відрізняється від нуля (це строге формулювання альтернативної гіпотези, зазвичай її розуміють як твердження про ефективність препарату)
- \((H_0)\): Зв’язок між ознаками вибірки відсутній; \((H_1)\)): Існує певний зв’язок між ознаками вибірки
Оскільки усі досліджувані ознаки вибірки є випадковими величинами, неможливо достовірно ствердити чи заперечити одну з гіпотез. Можна тільки казати, що певний висновок (результат) є статистично значимим чи ні. Деякий результат називають статистично значимим, якщо імовірність його випадкового виникнення дуже низький. Оскільки імовірність появи конкретного числа для будь-якої неперервної величини прямує до нуля, то на практиці для цього використовують р-величину, яка є кумулятивною (інтегральною) характеристикою і показує імовірність випадкового виникнення такого ж та більш екстремального (відповідно більшого чи меншого) результату. Отож вірно формулювати так:
“результат є статистично значимим при заданому рівні значимості, якщо, за умови вірності нульової гіпотези, ймовірність випадкового виникнення такого ж та більш екстремального результату менша від заданого рівня”.
Рівень значимості позначають α
і найчастіше приймають α=0.05
. Заперечення нульової гіпотези, якщо вона насправді правдива - називається помилкою першого роду і позначається аналогічно - α
. А прийняття нульової гіпотези у разі, якщо насправді вона хибна, називається помилкою другого роду (β
). При α=0.05
імовірність цієї помилки зазвичай є більшою від 0.05
, тому в таких випадках нульову гіпотезу не приймають, а результати трактують у форматі “відхилено нульову гіпотезу” - “не вдалося відхилити нульову гіпотезу”.
Для тестування нульових гіпотез використовують відповідні статистичні критерії. Для більшості критеріїв:
- Здійснюється обчислення певної статистики (у цьому випадку під статистикою розуміють показник, обчислений на основі об’єктів вибірки; це, власне, і є сам критерій), розподіл якої відомий.
- Знаходиться p-величина для отриманого результату (імовірність випадкової появи такого ж та більш екстремального значення статистики за умови, що нульова гіпотеза вірна).
Надалі дослідник порівнює цю р-величину з заданим рівнем значимості. Якщо p<α
, то нульова гіпотеза відкидається, інакше – недостатньо підстав щоб відкинути нульову гіпотезу.
Потужністю статистичного критерію є імовірність того, що даний критерій відхилить нульову гіпотезу, за умови, що ця нульова гіпотеза справді не вірна. Потужність критерію = 1- β
.
| Нульова гіпотеза вірна | Альтернативна гіпотеза вірна |
Приймаємо нульову гіпотезу | Правильне рішення | Помилка другого роду (β) |
Відкидаємо нульову гіпотезу | Помилка першого роду (α) | Правильне рішення |
Залежно від вимог щодо певного розподілу вибірки статистичні критерії бувають:
- параметричні – передбачають, що дані повинні мати визначений закон розподілу (найчастіше нормальний).
- непараметричні – допускають будь-який закон розподілу досліджуваної величини.
Загалом параметричні критерії є більш потужними, однак їх застосування можливе тільки при відповідному розподілі. Варто зазначити, що параметричні критерії вимагають лише достатню близькість конкретного емпіричного (практичного, що спостерігається в даному випадку) розподілу до нормального, а тому при великих об’ємах вибірки ця вимога стає несуттєвою внаслідок центральної граничної теореми.
Однак, знову ж таки, розмір вибірки, при якому ми можемо нехтувати вимогою нормальності, залежить від форми емпіричного розподілу і при істотних відхиленнях сягає 200 і більше. Обчислення більшості непараметричних критеріїв базуються не на числових значеннях ознаки, а на рангах, тобто на порядковому номеру цього числа у спільному для досліджуваних вибірок ранжованому ряді. Для прикладу, розглянемо порядкові номери для Student’s Sleep Data - для цього існує функція order()
:
data(sleep) #Завантажимо дані у робочий простір R
# Параметричні критерії використовують числові значення ознаки:
sleep$extra[1:10] #результати випробування першого препарату
## [1] 0.7 -1.6 -0.2 -1.2 -0.1 3.4 3.7 0.8 0.0 2.0
sleep$extra[11:20] #результати випробування другого препарату
## [1] 1.9 0.8 1.1 0.1 -0.1 4.4 5.5 1.6 4.6 3.4
# А непараметричні – порядкові номери цих числових значень:
order(sleep$extra)[1:10] #ранги результатів випробування #першого препарату
## [1] 2 4 3 5 15 9 14 1 8 12
order(sleep$extra)[11:20] #ранги результатів випробування #другого препарату
## [1] 13 18 11 10 6 20 7 16 19 17
Види статистичних критеріїв:
- Критерії узгодженості
- Критерії зсуву
- Критерії однорідності (масштабу)
###Критерії узгодженості
Перевірка на узгодженість має на увазі, що досліджувана випадкова величина підкоряється деякому закону розподілу.
- \((H_0)\): досліджувана величина підкоряється заданій функції розподілу
- \((H_1)\)): досліджувана величина має деяку іншу функцію розподілу
Якщо при різних значеннях фактора досліджувана величина має різні розподіли (нульова гіпотеза відкинута), то існує зв’язок між цим фактором та досліджуваною величиною. Також критерії узгодженості застосовують для здійсненням вибору між параметричними та непараметричними критеріями при дослідженнях вибірки.
Критерії узгодженості поділяються на:
- загальні критерії узгодженості – можуть бути застосовані для перевірки гіпотез про узгодженість спостережуваних результатів із довільним апріорно (“до досвіду”, наперед) заданим розподілом імовірностей.
- спеціальні критерії узгодженості – можуть бути застосовані для перевірки узгодженості результатів тільки з визначеною формою розподілу ймовірностей.
До загальних критеріїв узгодженості належать:
- Критерій \(\chi^2\) (хі-квадрат), у
R
виконується за допомогою фукнції chisq.test()
– найчастіше застосовується для аналізу розподілу частот номінальних випадкових величин (хоча неперервні величини можна розкласти на дискретні інтервали, і тоді застосовувати критерій).
Придатний також для аналізу таблиць спряженості (contingency tables).
Таблиця спряженості – вид таблиці, що відображає розподіл частот двох і більше номінальних змінних. У R
таблицю спряженості можна ввести явним чином (у вигляді матриці), або ж отримати із матриці одиничних спостережень за допомогою функції table()
.
Істотним недоліком критерію є невисока точність встановлення р-величини при наявності у таблиці спряженості малих значень. Для обходу цього обмеження можна здійснити об’єднання категорій з низькими частотами, або ж використовувати інший критерій (напр. точний критерій Фішера). Загалом при наявності у будь-якій клітинці таблиці спряження значення <5 рекомендується об’єднання або застосування точного критерія Фішера.
-
Точний критерій Фішера fisher.test()
. Використовується для аналізу таблиць спряженості із малими розмірами вибірок (замість критерію хі-квадрат).
-
Критерій МакНемара mcnemar.test()
. Використовується для аналізу залежних (зв’язаних) таблиць спряженості 2х2.
-
Критерій Колмогорова-Смірнова ks.test()
– використовується для аналізу розподілу неперервних випадкових величин. Може бути одновибірковим – тестування гіпотези про узгодженість розподілу вибірки з вказаною функцією розподілу із заданими параметрами, або ж двовибірковим – тестування гіпотези про те що обидві вибірки отримані з одного і того ж неперервного розподілу. Варто зауважити, що двовибірковий критерій Колмогорова-Смірнова застосовується для виявлення відмінності у розподілах двох вибірок. Нульова гіпотеза про однаковий розподіл може бути відкинута і внаслідок відмінності центрів вибірок, і внаслідок відмінності у масштабах вибірок, і внаслідок відмінності у самій формі функції розподілу, або ж внаслідок будь-якої комбінації із наведених причин.
До спеціальних критеріїв узгодженості належить критерій Шапіро-Уілка shapiro.test()
. – Загалом найбільш потужний критерій для перевірки нормальності розподілу. Застосовується для виявлення істотних відхилень розподілу вибірки від нормального розподілу (наприклад, перед застосуванням параметричних критеріїв). У разі відкидання нульової гіпотези про нормальний розподіл, для подальшого дослідження цієї вибірки слід застосовувати непараметричні критерії. Слід розуміти, що якщо розмір вибірки дуже малий, то критерій Шапіро-Уілка може не виявити відмінності між даним емпіричним та нормальним розподілом, навіть якщо ця відмінність дійсно є. Якщо розмір вибірки cередній, то якраз у цьому випадку застосування критерія Шапіро-Уілка дає можливість провадити раціональний вибір між параметричними та непараметричними критеріями. Якщо розмір вибірки великий, то навіть при незначних відхиленнях розподілу вибірки від нормального критерій Шапіро-Уілка ідентифікує відмінність, але це вже не має значення, оскільки завдяки центральній граничній теоремі можна безпечно застосовувати параметричні критерії.
###Критерії зсуву
####Параметричні критерії зсуву
Здійснюють тестування гіпотез про відповідність середнього значення вибірки заданому числу, або ж середньому значенню іншої вибірки. Застосовуються лише для вибірок із розподілом, близьким до нормального (потрібна попередня перевірка, напр. за допомогою спеціального критерія узгодженості - критерія Шапіро-Уілка).
Найбільш популярний – критерій Стьюдента t.test()
. Одновибірковий критерій Стьюдента здійснює тестування гіпотези про рівність середнього арифметичного вибірки заданому числу. Двовибірковий критерій Стьюдента здійснює тестування гіпотези про задану різницю між середніми арифметичними двох вибірок (найчастіше та по змовчуванню цю різницю приймають рівною нулю, тобто перевіряють гіпотезу про рівність середніх арифметичних). Додаткова вимога двовибіркового критерія Стьюдента – рівність дисперсій вибірок. Якщо ця вимога не виконується, слід застосовувати критерій Стьюдента у модифікації Уелча. R
використовує модифікацію Уелча для критерія Стьюдента по замовчуванню. У випадку залежних вибірок слід використовувати парний двовибірковий критерій Стьюдента, для чого у фукнцію t.test()
вводять додатковий параметр paired=TRUE
.
####Непараметричні критерії зсуву
Застосовуються у разі розподілу вибірки відмінного від нормального, у т.ч. для порядкових даних.
-
Критерій Уілкоксона wilcox.test()
- Одновибірковий критерій Уілкоксона здійснює перевірку гіпотези про симетричність вибірки відносно заданого центру. Двовибірковий критерій Уілкоксона був удосконалений Манном та Уітні, тому його часто називають критерієм Манна-Уітні, або Уілкоксона-Манна-Уітні. Здійснює тестування гіпотези про те, що розподіли двох вибірок відрізняються зсувом (найчастіше та по замовчуванню зсув приймають рівним нулю, тобто тестують гіпотезу про рівність центрів двох вибірок). У випадку залежних вибірок слід застосовувати парний критерій Уілкоксона, для чого у функцію wilcox.test()
слід передати параметр paired=TRUE
.
-
Критерій Краскела-Уолліса kruskal.test()
. Цей критерій є багатовибірковим узагальненням критерію Уілкоксона-Манна-Уітні. Призначений для тестування гіпотези про рівність центрів декількох вибірок.
-
Критерій Фрідмана friedman.test()
. Непараметричний критерій для перевірки гіпотези про рівність центрів декількох залежних вибірок.
###Критерії однорідності (масштабу)
Вибірки, дисперсії яких однакові, називаються гомоскедастичними.
####Параметричні критерії
-
Критерій Фішера var.test()
. Не плутати з точним критерієм Фішера. Використовується для перевірки рівності дисперсій двох вибірок. Дисперсія випадкової величини може слугувати оцінкою її стабільності, таким чином критерій Фішера може застосовуватись для виявлення відмінності у стабільності для двох величин, а також дозволяє оцінити значимість регресійних моделей, або факторів при дисперсійному аналізі (з цим ми зустрінемось пізніше).
-
Критерій Бартлетта bartlett.test()
. Використовується для перевірки рівності дисперсій декількох вибірок.
####Непараметричні критерії однорідності (масштабу).
- Критерій Ансарі-Бредлі
ansari.test()
. Непараметричний критерій для перевірки рівності масштабів двох вибірок (при відсутності нормального розподілу коректніше говорити про масштаб, а не про дисперсію). Хоч критерій Ансарі-Бредлі не залежить від розподілу вибірок, він базується на припущенні про рівність медіан. Якщо ця умова не виконується, порівняння масштабів вибірок можна виконати графічно (за допомогою графіка “ящик з вусами”).
- Критерій Флайнера-Кілліна
fligner.test()
. Непараметричний критерій для перевірки рівності масштабів декількох вибірок.
##Узагальнення
Якщо розглядати використання статистичних критеріїв для порівняння груп (найбільш поширений випадок формулювання статистичних гіпотез), то для вибору статистичного критерія можна використати таку табличку:
|
|
Відносна ознака
|
Дискретна ознака
|
|
|
Нормальний розподіл
|
Розподіл відрізняється від нормального
|
Порядкова
|
Номінальна (категорійна)
|
Порівняння незалежних груп
|
2
групи
|
t-критерій Стьюдента
|
Критерій Уілкоксона-Манна-Уітні
|
Критерій хі-квадрат, точний критерій Фішера
|
>
2
груп
|
Дисперсійний аналіз
|
Критерій Краскела-Уолліса
|
Критерій хі-квадрат, точний критерій Фішера
|
Порівняння залежних (зв’
язаних) груп
|
2
групи
|
Парний t-критерій Стьюдента
|
Критерій знакових рангів Уілкоксона (Парний критерій Уілкоксона)
|
Критерій МакНемара
|
>
2
груп
|
Дисперсійний аналіз із повторюваними вимірюваннями
|
Критерій Фрідмана
|
Q-критерій Кокрена
|