Статистика – наука про випадковість, і вона нічого не знає про якісь зв’язки, закономірності чи залежності. Зате вона знає все про випадковість. Роблячи статистичні тести, ми насправді перевіряємо статистичні гіпотези. Ту гіпотезу, яку перевіряє статистика, називають нульовою. Протилежна гіпотеза до нульової називається альтернативною. Нульова гіпотеза завжди каже, що будь-які відмінності – випадкові. Альтернативна тоді каже, що відмінності не випадкові, тобто між досліджуваними ознаками є причинно-наслідковий (або якийсь інший) зв’язок. Критерій хі-квадрат часто використовується у науковій літературі і дозволяє дослідити відмінності у частотах різних ознак. Розглянемо його обчислення на прикладі.
В якості прикладу, розглянемо реальний випадок дослідження зв’язку між формою власності аптеки і населеним пунктом [1]. Досліджуване питання звучить так: чи розподіл аптек за формою власності відрізняється у м. Львові від інших населених пунктів. Картина наступна:
| Приватна | Державна чи комунальна | Сума |
Інші нас пункти | 188 | 10 | 198 |
Львів | 232 | 24 | 256 |
Сума | 420<s/trong></td>34 | | </tr>
</table>
Така таблиця називається *таблицею спряженості*. Ми досліджуємо дві змінні (чи два фактори, це також прийнятна назва). Перша – "Форма власності", може приймати 2 варіанти (приватна і держ-комунальна). Друга – нас. пункт – також 2 варіанти (які - зрозуміло). Так як між варіантами не можна поставити відношення порядковості (більше-менше), не можна їх віднімати чи множити – то обидві змінні – номінальні (по-другому ще кажуть категорійні). Нульова гіпотеза: розподіл за власністю **не залежить** від того де знаходиться аптека. Альтернативна гіпотеза: розподіл за власністю **залежить** від того де знаходиться аптека. По таблиця спряженості видно, що у Львові частка держкомунальних аптек більша: 24/258=9,3%, тоді як в інших 10/198=5.05%. Але чи достатньо такої відмінності, щоб казати, що це невипадково, і влада міста Львів краще турбується про свої аптеки ніж влада інших нас. пунктів? Сконструюємо таку таблицю спряженості, для якої нульова гіпотеза буде справджуватись - у якої кількість Львівських аптек і кількість з інших пунктів була б така сама (256 і 198), але частка держкомунальних аптек була б однакова (щоб не було відмінності). Для цього знайдемо загальну (маргінальну) частку держ-комунальних аптек незалежно від місця: всі 34 аптеки / (420+34)= 7.489%. Тобто якби розподіл був рівномірний, то 7.489% аптек будь-якого населеного пункту були держкомунальні. Так як зі Львова було 256 аптек, то держкомунальних там мало бути 256\*0.07489=19.17, а в інших населених пунктах – 198\*0.07489=14.83. Тоді приватних у Львові 256-19.17=236.83, а в інших пунктах 198-14.83=183.17. Запишемо нову таблицю спряженості (ідеально випадкову - для якої нульова гіпотеза правдива):
| Приватна | Державна чи комунальна | Сума |
Інші нас пункти | 183.17 | 14.83 | 198 |
Львів | 236.83 | 19.17 | 256 |
Сума | 420<s/trong></td>34 | | </tr>
</table>
Бачимо – всі суми збігаються, але розподіл держ-комунальних тепер рівномірний (займає однаковий відсоток як від Львівських аптек, так і від інших нас. пунктів).
Тепер обчислимо критерій хі-квадрат по формулі:
\\[ \chi^2=\sum\_{i=1}^{N}\frac{(O\_{i}-E\_{i})^2}{E\_{i}}, \\]
де *О* позначає спостережувані кількості (*observed*), а *E* – очікувані (ті що в новій таблиці спряженості, *expected*).
\\[\frac{(188-183.17)^2}{183.17}+\frac{(10-14.83)^2}{14.83}+\frac{(232-236.83)^2}{236.83}+\frac{(24-19.17)^2}{19.17} = 0.127+1.573+0.098+1.22=3.018.\\] Оці 3.018 – показник наскільки сильні відмінності є у спостережуваній нами таблиці спряженості (тій що оригінальна порівняно з ідеально випадковою). Зрозуміло, що навіть у випадкових випадках можна спостерігати відмінності: наприклад нічого дивного, якщо монета впаде 2 чи 3 рази орлом догори – це не значить, що вона "бракована". Зате при випадковості розподіл показника хі-квадрат достеменно відомий - ось він:
<img src='http://stat.org.ua/figures/chisq-distr.png',alt='графік',style="height: '50%'; width: '50%'; float: 'left'">
Площа хвостика, який відсікається отриманим значенням 3.018 і буде нашою p-величиною.
В описаному випадку р=0.0823. Це означає, що таке велике число як 3, або ж і більше, можна отримати і повністю випадково з ймовірністю 8.23%. Це, в свою чергу, означає, що ми не можемо відкинути (заперечити) нульову гіпотезу – та диспропорція що ми бачили в таблиці досить спокійно може статись випадково. Але і стверджувати, що ніякого впливу чи зв'язку не існує все одно не можна. Може і є залежність між формою власності і місцевістю, але вона дуже-дуже слабка. Тому р>0.05 треба розуміти як "в даному дослідженні не вдалось довести зв'язок між формою власності і місцевістю".
Насправді, не все настільки елементарно. Тут навіть у найпростішому тесті хі-квадрат доводиться спрощувати, тому що до критерію хі-квадрат рекомендується застосовувати ще поправку Йетса на неперервність, та й для кожного розміру таблиць своя крива розподілу хі-квадрат. Але сам принцип: рахуємо якийсь показник (його, власне і називають критерієм), розподіл якого в умовах випадковості науці точно відомо. Дивимось, яка площа під відповідною кривою знаходиться після того знайденого показника – то і буде р-величина. р-величина – це ймовірність досягти таких же (і більших) відмінностей, але чисто випадково. Тому нам важливо, щоб р-величина була чим по менша.
На заключення, код на `R` для побудови малюнка
```r
par(mar=c(4,4,0.5,0.5),cex=0.5) #робимо відступи на графіку і зменшуєм шрифт
x=seq(0.03,5,0.01) #послідовність чисел від 0.03 до 5 із кроком 0.01
plot(x,dchisq(x, df=1),type="l",col='blue') #графік, по осі абсцис - густина ймовірності
p.value=3.018
cord.x=c(p.value,seq(p.value,5,0.01),p.value)
cord.y=c(0,dchisq(seq(p.value,5,0.01),1),0)
polygon(cord.x,cord.y,col="red") #забарвлюєм область після р-величини
```
___
<a name="boretska", id="anchor">[1] Борецька О.Б. Організаційно-методичні засади створення та діяльності клініко-фармацевтичної служби в аптечних закладах України : автореф. дис. на здобуття наук. ступеня канд. фармац. наук : [спец.] 15.00.01 “Технологія ліків, організація фармацевтичної справи та судова фармація” / О. Б. Борецька ; Львів. нац. мед. ун-т ім. Данила Галицького. – Львів, 2013. – 24 с.</a>
| |