Ми вже читали, що р-величину не так просто інтерпретувати. Отримання статистично незначимого результату ще не означає, що відмінності відсутні. А статистично значимого? Давайте розглянемо приклад. Припустимо, що перевіряються 100 потенційних протиракових засобів. З них лише 10 маютимуть реальний вплив на клітини раку, і нам слід знайти ці 10 серед 100 за допомогою експериментів. У цих експериментах ми будемо шукати \(р<0.05\) відносно плацебо, щоб продемонструвати перевагу при лікуванні. Для наочності, нехай кожен квадрат на цьому малюнку відображає один препарат. Сині квадрати - препарати, що мають ефект:

Як ми вже зазначали, більшість експериментів не спроможні вичерпно виявити всі ефективні лікарські засоби. Припустимо, що наші дослідження мають статистичну потужність 0.8. Тоді із 10 дійсно ефективних препаратів дослідження виявлять 8 (забарвлені фіалковим):

А серед 90 неефективних препаратів, ми знайдемо, що 5 ніби-то мають значимий ефект. Чому? Згадайте, що р-величину розраховують, виходячи з припущення про відсутність ефекту. Тому \(р=0.05\) означає 5% шанс зробити хибний висновок, що неефективний препарат діє.

Отже, провівши експерименти, ми дійдемо висновку, що існує 13 ефективних препаратів: з них 8 дійсно хороші, а 5 - включені помилково (забарвлені червоним):

Таким чином, шанс, що знайдений нами ніби-то “ефективний” препарат буде дійчно ефективним становить лише 62%. Тобто, якщо випадково вибрати один препарат із сотні, провести з ним експеримент і отримати при цьому результат “\(р<0.05\)”, то шанс що цей препарат дійсно ефективний складає 62%. Мововю статистики, наша частка хибних відкриттів - частина статистично значимих результатів, які насправді хибно позитивні - складає 38%.

Така ситуація зумовлена тим, що базова частота ефективних протипухлинних препаратів буда низькою - всього 10%, і більшість перевірюваних препаратів неефективні, і тому існувало багато можливостей для появи хибно позитивних результатів. Якби трапилась лиха година, і ми б перевіряди цілий вагон зовсім неефективних препаратів із базовою частотою 0%, то, відповідно, шанс, що серед виявлених статистично значимих результатів хоч один є правдивим дорівнює 0%. І тим не менше, ми все одно знайдемо \(р<0.05\) для 5% препаратів з вагону.

Часто можна почути, що люди трактують р-величину як ознаку того, що помилка є малоймовірною. “Шанс, що отриманий результат - статистична випадковість, складає всього 1 до 10000” - кажуть вони, отримавши \(р=0.0001\). Зовсім не так! Таке твердження не враховує базову частоту, а перед нами - помилка базової частоти. Згадайте визначення р-величини:

Р-величина - це ймовірність, з якою, при умові відсутності будь-якого ефекту чи різниці (нульова гіпотеза), може бути отриманий такий же, або й більш значний результат, ніж той що дійсно спостерігався

Р-величину обчислюється з припущенням, що препарат не діє, і показує нам імовірність отримання таких же, або й більш екстремальних даних за умови, що препарат не діє. Р-величина не показує імовірності, з якою препарат може бути ефективним.

Якщо хтось використовує р-величину, щоб продемонструвати свою правоту - згадайте цей матеріал. Імовірність похибки в їхньому дослідженні безсумнівно значно більша. У тих галузях, де більшість перевірюваних гіпотез хибні (як-от клінічні дослідження лікарських препаратів), вірогідно, що більшість “статистично значимих” результатів з \(р<0.05\) насправді є випадковостями.