Ми вже знаємо, що беручи недостатньо даних, можна легко пропустити істотний вплив. У більшості випадків це є недобре: можна пропустити відкриття життєвоважливого лікарського засобу, або провалити ідентифікацію небезпечної побічної дії. Як же ми можемо знати, скільки даних слід назбирати? Фахівці зі статистики дають на це відповідь за допомогою концепції “статистичної потужності”. Потужністю дослідження називають вірогідність знайти відмінність ефекту визначеної сили від чистого везіння. Помітити значну перевагу при лікуванні – легко, однак шанс ідентифікувати слабку відмінність значно менший. Розглянемо приклад:
Нехай азартний гравець впевнений, що його опонент використовує нечесну монету: замість того, щоб у половині кидків давати орла, а в іншій половині – решку, пропорція деяка інша, причому опонент використовує це щоб махлювати у іграх на підкиданя монети. Як довести його вину?
Для цього недостатньо просто підкинути монету сотню разів і порахувати кількість орлів. Адже навіть для ідеально чесної монети не завжди вдастся отримати 50 орлів: Цей графік вказує на вірогідність отримання різної кількості орлів при підкиданні монети 100 разів. Помітно, що 50 орлів – найбільш імовірний варіант, але при цьому достатньо вірогідно отримати й інші кількості, наприклад, 45 або 57. Отже, якщо у нас випаде 57 разів орел - монета може бути фальсифікована, а може просто так повезло. Давайте потренуємось в математиці. Нехай потрібно досягти р-величини, рівної 0,05 чи менше, як це зазвичай припускають науковці. Це означає, що якщо полічити кількість орлів після 10 або 100 випробувань і знайти відхилення від того результату, який слід очікувати (50% орлів, 50% решок), то будемо вважати монету нечесною тоді, коли є лише 5% шанс отримати відхилення таке ж, або й більше із справедливою монетою. У іншому випадку (р>0,05), ми не можемо зробити ніякого висновку: монета може бути справедлива, а може бути трошки несправедлива – це залишається невідомо.
Отже, що буде, якщо підкинути монету 10 разів і застосувати вказані критерії? Вище зображена крива потужності. Вздовж горизонтальної осі знаходяться можливі варіанти спостережуваної імовірності орлів, які відповідають різним ступеням спотворення монети. На вертикальній осі – імовірність, з якою ми приймем висновок, що монета фальсифікована, після 10 підкидань, базуючись на р-величині результату.
Тут можна зауважити, що якщо монета сфальсифікована так, щоб давати орла у 60% випадків, і ми підкинули монету 10 разів, то наш шанс зробити висновок, що монета фальсифікована - лише 20%. Це тому, що зібрано замало даних для розмежування фальсифікації від випадкових коливань результату.
Але що буде, якщо підкинути монету 100 разів? А 1000? Використовуючи 1000 підкидань, ми можемо легко вияснити, чи монета фальсифікована так, що дає орла у 60% випадків. Майже неймовірно, щоб, підкидаючи справедливу монету, ми отримали орлів більше 600 разів. ##Потужність бути непотужнім Усвідомивши цей матеріал, Ви можете подумати, що встановлення статистичної потужності є невід’ємною частиною медичних досліджень. Що науковець повинен цікавитись скільки пацієнтів необхідно, щоб встановити, чи нова схема терапії покращить виживаність на більше, ніж на 10%, і обчислення статистичної потужності дали б на це відповідь. Науковців, зазвичай, задовольняє статистична потужність, рівна 0,8 чи більше, шо відповідає 80% шансу довести наявність ефекту. Тим не менше, лише деякі науковці деколи виконують ці обчислення, і лише деякі наукові статті згадують статистичну потужність своїх досліджень.
Для прикладу, розглянемо випробування двох різних схем лікування одного і того ж стану. Ми хочемо дізнатись, який із препаратів є більш безпечним, але, побічні дії, насправді, є рідкісними. Ми можемо випробувати кожен препарат на сотні пацієнтів, і лише декілька чоловік у кожній з груп зазнає негативного побічного ефекту. Очевидно, що у нас не буде настільки багато даних, щоб порівнювати частки побічних явищ. Якщо четверо людей мають серйозні побічні ефекти у одній групі, і троє – в іншій, ми не можемо стверджувати, що в цьому винен лікарський препарат. На жаль, багато досліджень завершуються висновком, що “статистична значима відмінність між групами, стосовно побічних явищ, відсутня”, не зазначаючи при йьому, що даних вистачало лише на те, щоб виявити лише найбільші відмінності [3]. І, таким чином, лікарі помилково вважають, що препарати мають одинакову безпечність, тоді як, насправді, один з них може бути небезпечнішим за інший. Ви могли подумати, що проблема з’являється тільки тоді, коли препарат має слабку дію. Насправді - ні: взявши вибірку медичних досліджень, було виявлено, що 64% рандомізованих контрольованих медичних випробувань не накопичують достатньо даних, щоб виявити 50% відмінність між групами за лікуванням. П’ятдесять відсотків! Навіть якщо один з препаратів знижує симптоми на 50% краще, нід інший, то навіть у такому випадку даних недостатньо, щоб довести його більшу ефективність. А 84% досліджень не мають достатньої потужності, щоб виявити 25% відмінність [4], [5], [6], [7]. У нейронауках ситуація ще гірша. Припустіть, що ми впорядкували дані, зібрані численними статтями, які досліджували певний конкретний ефект, і дійшли висновку про його значний розмір. Так от, для медіани з тих досліджень – шанс довести цей ефект складав всього 20%. Тільки після того, як багато випробувань були узагальнені, вдалося довести наявність йього ефекту. Схожі проблеми мають неврологічні експерименти із використанням тваринних моделей, в яких гостро стоїть питання етичності. Якщо кожне з окремих досліджень – непотужне, істинний ефект буде вірогідно встановлений тільки після багатьох досліджень, в яких багато тварин будуть приспані та аналізовані, причому буде використано значно більше тварин, ніж в тому випадку, коли дослідження вірно виконане протягом першого разу [8]. Однак це не означає, що науковці брешуть, коли повідомляють, що вони не виявили значимої відмінності між групами. Просто ми обманюєм себе, коли вважаємо, що це означає відсутність відмінності. Відмінність насправді може бути, але дослідження було занадто обмеженим, щоб її виявити.
Давайте розглянемо ще один приклад: ##Хибний поворот на червоне У 1970-х роках занчна кількість штатів у США дозволили водіям повертати праворуч при червоному свтілі світлофора. Багато років до цього проектувальники доріг та інженери аргументували, що поворот праворуч на червоне – загроза безпеці руху, яка буде спричиняти додаткові аварії та смерті пішоходів. Але нафтова криза 1973 і її наслідки стимулювали політиків розглянути дозвіл на правий поворот при червоному світлі, що дозволяло зекономити пальне, яке витрачалось при зайвому очікуванні біля світлофора. Декілька досліджень проводились щоб визначити вплив нововведення на безпечність. Для прикладу, науковий консультант департаменту доріг та транспорту Вірджинії виконав спостереження 20 перехресть до і після нововведення. До впровадження дозволу, на перехресті було зареєстровано 308 випадків, а після – 337 випадків за майже тотожний проміжок часу. Тим не менше, ця відмінність не була статистично значимою, і консультант зробив висновок про відсутність впливу нововведення на безпеку руху. Декілька наступних досліджень показали схожі результати: невелике зростання кількості аварій, але в кожному з випадків даних було недостатньо, щоб довести значимість такого зростання. Як зазначено у одному із звітів, “Немає жодних підстав вважати, що нещасні випадки за участю пішоходів, зумовлені поворотом на червоне світло, почастішали після введення дозволу на поворот праворуч при червоному світлі”. Довіряючи цим даним, все більше і більше міст та штатів почали дозволяти правий поворот на червоне. Проблема, звичайно, ховалась в тому, що дослідження були непотужними. Більше пішоходів збивались автомобілями, більше автомобілів мали зіткнення, але ніхто не не назбирав достатньо даних, щоб показати це. І лише через декілька років з’явились результати, які чітко вказали на збільшення кількості ДТП (в деяких випадках вдвічі) [9], [10]. Хибна інтерпретація непотужних досліджень коштувала людям життя.
[4] D. Moher, C.S. Dulberg, G.A. Wells. Statistical power, sample size, and their reporting in randomized controlled trials. JAMA, 272.2:122-124, 1994.
[5] P.L. Bedard, M.K. Krzyzanowska, M. Pintilie, I.F. Tannock. Statistical Power of Negative Randomized Controlled Trials Presented at American Society for Clinical Oncology Annual Meetings. Journal of Clinical Oncology, 25:3482–3487, 2007.
[6] C. G. Brown, G. D. Kelen, J. J. Ashton, H. A. Werman. The beta error and sample size determination in clinical trials in emergency medicine. Annals of Emergency Medicine, 16:183–187, 1987.
[7] K. C. Chung, L. K. Kalliainen, R. A. Hayward. Type II (beta) errors in the hand literature: the importance of power. The Journal of Hand Surgery, 23:20–25, 1998.
[8] K. S. Button, J. P. A. Ioannidis, C. Mokrysz, B. A. Nosek, J. Flint, E. S. J. Robinson, M. R. Munafò. Power failure: why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 2013.
[9] E. Hauer. The harm done by tests of significance. Accident Analysis & Prevention, 36:495–500, 2004.
[10] D. F. Preusser, W. A. Leaf, K. B. DeBartolo, R. D. Blomberg, M. M. Levy. The effect of right-turn-on-red on pedestrian and bicyclist accidents. Journal of Safety Research, 13:45–55, 1982.