Якщо не вийшло з першого разу - повторюєм, поки не вийде
Алекс Рейнхарт (переклав Олег Девіняк), 03.05.2014
Помилка базової частоти ілюструє, що хибнопозитивні результати трапляються значно частіше, ніж ви б очікували від результату з \(р<0.05\). Більше того, переважна частина сучасних наукових досліджень не робить всього один тест значимості, а порівнює ефекти багатьох факторів, шукаючи з них найбільш впливовий. Для прикладу, розгляньте комікс про тестування гіпотези чи призводять желейки до прищів, перевіряючи окремо кожен колір желейок: Як можна здогадатись, здійснення багатьох порівнянь призводить до багатьох можливостей для хибнопозитивного результату. Для прикладу, якщо перевірити желейки 20 різних кольорів, які не мають жодного відношення до прищів, і шукати зв’язок із рівнем значимості \(р<0.05\), то шанс отримати хибнопозитивний результат становить 64% [14]. А якщо перевірити 45 різних варіантів, то ймовірність появи хибнопозитивного результату досягне 90%. Дуже легко наробити множинних порівнянь, і для цього не обов’язково робити очевидну помилку, як-от тестування 20 потенційних препаратів. Відслідкуйте симптоми дюжини пацієнтів напротязі дюжини тижнів, і перевірте, чи значимою є перевага протягом одного з цих тижнів: тадам! маєте 12 порівнянь. Перевірте поширеність двадцяти трьох потенційних побічних ефектів: опа, ви знов попались. Опитуйте людей за допомогою десятисторінкової анкети про близькість їх житла до атомної електростанції, обсяги споживання молока, вік, кількість двоюрідних братів, улюблена начинку до піци, колір надітих шкарпеток, і ще пару факторів для повноти даних, і ви обов’язково знайдете щось, що є причиною раку. Задайте достатньо питань, і успіх дослідження гарантовано. Огляд клінічних досліджень 1980-их років виявив, що середньостатистичне клінічне дослідження виконує 30 терапевтичних порівнянь. У більшості цих досліджень порівнянь настільки багато, що хибнопозитивний результат є дуже вірогідним, а тому наведені в цих статтях статистично значимі висновки попадають під сумнів: можливо результати є дійсно статистично значимими, а можливо серед них є хибнопозитивний висновок [14]. Є кілька статистичних прийомів щоб врахувати факт множинних порівнянь. Для прикладу, корекція Бонферроні полягає в тому, щоб при проведенні \(n\) порівнянь критерій для статистичної значимості приймати на рівні \(р<0.05/n\). Це знижує шанси хибнопозитивного результату до того рівня, який відповідає випадку одиничного порівняння із \(р<0.05\). Але, як ви могли б здогадатись, такий підхід істотно знижує статистичну потужність, так як тепер вимагається значно сильніші кореляції щоб зробити висновок про статистичну значимість. Так, це непростий компроміс, але, на жаль, мало які наукові публікації ним переймаються.