Значна частина прикладної науки зводиться до вимірювання змін. Чи є один лікарський препарат кращим за інший? Чи синтезують клітини із певним варіантом гена більше ензиму, ніж клітини з іншими варіантами? Чи даний алгоритм обробки сигналів виявляє пульсари краще, ніж інший алгоритм? Чи є вказаний каталізатор більш ефективним для прискорення хімічної реакції, ніж деякий інший?

Значна частина статистики, аналогічно, зводиться до формулювання суджень про ці відмінності. Ми кажемо про “статистично значиму відмінність” завдяки тому, що фахівці зі статистики розробили способи встановити чи відмінність між двома вимірюваннями є достатньо великою, щоб пояснити її будь-чим, однак не випадковістю.

Нехай ми випробовуєм препарат від застуди. Очікується, що наш новий препарат зменшує тривалість симптомів застуди на одну добу. Щоб довести це, ми знаходимо двадцять пацієнтів із застудою і половині з них даємо наш препарат, а іншій половині – плацебо (препарат без діючої речовини). Тоді відстежуємо тривалість застуди і знаходимо, якою є середня тривалість простуди з та без препарату. Але всі застуди не є одинаковими. Середній випадок застуди може тривати тиждень, але деякі тривають декілька днів, а інші тягнуться протягом двох тижнів і більше. Може так статись, що група з десяти пацієнтів, що отримували справжній лікарський препарат буде складатись з невдах, які загрузли із застудою на два тижні, а ми помилково зробимо висновок, що препарат взагалі погіршує здоров’я. Як же нам розібратись, чи ми доводили, що препарат діє, чи просто доводили, що деякі пацієнти – невдахи?

Статистика дає змогу вирішити це питання. Якщо ми знаємо розподіл типових випадків застуди – скільки пацієнтів зазвичай мають короткотривалу застуду, скільки – довготривалу, а скільки – середню, то ми можемо сказати - наскільки це можливо, щоб випадкова вибірка застуджених пацієнтів мала всі тривалості застуди менші від середнього, чи всі більші від середнього, чи точно як середня тривалість. Обчислюючи статистичний критерій, ми відповідаємо на запитання: “Якщо наш препарат повністю неефективний, які є при цьому шанси побачити такі ж результати, які ми тільки-що отримали?” Непросте формулювання, тому прочитайте його ще раз.

Інтуїтивно, деколи легше розібратись як же воно працює. Якщо перевірити препарат лише на одній людині, то нічого дивного, якщо тривалість застуди виявиться коротшою, ніж середня тривалість – адже близько половини всіх пацієнтів мають застуду коротшу, ніж в середньому. Якщо ж ми перевіримо препарат на десяти мільйонах пацієнтів – то страшенно малоймовірно, що всі з них матимуть тривалість застуди коротшу за середнє значення, хіба що наш препарат справді діє.

Звичайні статистичні критерії, що використовуються науковцями, видають число, яке кількісно оцінює цю імовірність. Це число і є р-величиною. Ось визначення:

Р-величина - це ймовірність, з якою, при умові відсутності будь-якого ефекту чи різниці (нульова гіпотеза), може бути отриманий такий же, або й більш значний результат, ніж той що дійсно спостерігався [2].

Тож якщо ми дамо препарат 100 пацієнтам і знайдемо, що їхня застуда в середньому на добу коротша, то р-величина такого результату є ймовірністю, з якою, якщо препарат зовсім не має дії, наші 100 пацієнтів випадково матимуть коротшу на добу застуду. Очевидно, р-величина залежить від розміру ефекту – застуди, коротші на чотири дні трапляються рідше, ніж коротші на добу, а також залежить від кількості пацієнтів, що брали участь у випробуванні.

Це є досить хитра концепція, можна поламати над нею голову. Р-величина не є мірилом нашої правоти, або того, наскільки значною є відмінність; вона вимірює наскільки варто б було дивуватись у ситуації, коли відмінності між групами насправді немає, а ми отримали дані, які свідчать, що відмінність є. Чим більшу відмінність спостерігали і чим більше даних це підтверджують, тим сильнішим має бути здивування і тим меншою є р-величина. При цьому дати відповідь на питання “Чи є насправді відмінність?” непросто. Більшість науковців використовує просте правило: якщо р менше від 0,05, то є лише 5% шанс отримати такі ж дані при умові що препарат не діє. Тому, вважаємо, що препарат діє, а відмінність між ефектом препарату та плацебо називаємо значимою. Якщо ж р більше 0,05, відмінність називають незначимою.

Отже, є деякі обмеження. Р-величина є мірилом здивованості, а не показником розміру ефекту. Ми можемо отримати мізерне значення р-величини або ж вимірюючи гігантський ефект (“завдяки прийому лікарського препарату люди живуть в чотири рази довше”), або ж вимірюючи малесенький ефект, однак із великою впевненістю в його наявності. Статистична значимість не означає, що наш результат має яку-небудь практичну значимість. Схожим чином, статистичну незначимість також непросто інтерпретувати. Ми можем мати дуже ефективний препарат, але якщо випробовуватимемо його на 10 людях, то дуже непросто провести межу між дійсним покращенням і банальним везінням. З іншого боку, ми можемо проводити експеримент над тисячами піддослідних, але препарат скорочує тривалість застуди всього на три хіилини, і тому виявити відмінність неможливо. Статистично незначима відмінність зовсім не означає, що відмінності немає взагалі.

Не існує математичного інструменту, який сказав би, чи наша гіпотеза вірна. Ми можемо тільки розглядати, чи узгоджується ця гіпотеза з даними, і якщо дані поодинокі або неоднозначні, то висновки наші непевні, і їм не слід довіряти сліпо. Однак це не повинно зупиняти науку.