Статистика – це наука про збір, організацію, аналіз та інтерпретацію даних. Ця наука складається з двох тісно пов’язаних між собою частин: математичної статистики та прикладної статистики. Математична статистика виступає фундаментом прикладної, і використовує теорію ймовірності та інші розділи математики для розв’язання поставлених перед нею завдань.
Прикладна статистика безпосередньо стосується практичних задач, основними з яких є виявлення структури множини досліджуваних об’єктів та зв’язку між властивостями. Відповідно, прикладна статистика, поділяється на описову статистику (descriptive statistics – досліджує структуру множини досліджуваних об’єктів) та аналітичну статистику (статистику умовиводів - inferential statistics – досліджує зв’язки між властивостями). Аналітична статистика тісно пов’язана із варіабельністю – властивістю будь-якого процесу вимірювання давати результати, які трохи відрізняються між собою при повторних експериментах. Ці похибки є випадковими і, загалом, складаються з:
- похибки, зумовленої людиною (залежить від досвіду та вміння експериментатора)
- похибки, зумовленої вимірювальним приладом (якість приладу, чистота посудин і т.д.)
- похибки, зумовленої процесом вимірювання (відсутність поправки на контрольний дослід, опосередковані вимірювання).
Аналітична статистика вирішує питання: “Чим зумовлена відмінність у результатах при різних умовах: звичайною варіабельністю (випадковістю) чи впливом умов досліду на результат?” Наприклад, відомо, що лікарські препарати на різних лідей діють з різною силою. Якщо провести клінічне дослідження зниження тиску під дією каптоприлу та еналаприлу, то результати для цих препаратів будуть відрізнятись між собою. І саме аналітична статистика допомагає вирішити питання: “Ця різниця зумовлена випадковістю, чи все-таки один з препаратів кращий (сильніший)?”. До речі, переважна більшість фахівців зі статистики зайняті у галузі планування, проведення та інтерпретації результатів клінічних досліджень.
Історично сформувались три основні методологічні підходи до вивчення даних:
- Класичний (частотницький) підхід
- Байесівський підхід
- Розвідницький аналіз даних
У даному посібнику ми будемо дотримуватись класичного підходу із окремими елементами розвідницького аналізу даних.
Декілька важливих визначень:
- Об’єкт – будь-що реально існуюче і досліджуване.
- Генеральна сукупність (популяція) – множина всіх можливих об’єктів даного класу. Наприклад, якщо досліджуваними об’єктами є люди, то генеральною сукупністю буде все населення нашої планети. Зазвичай, дослідити усю генеральну сукупність неможливо (і часто не потрібно), однак щоб зробити висновки про генеральну сукупність, можна дослідити вибірку з неї.
- Вибірка — це множина об’єктів, подій, зразків або вимірів, вибраних з генеральної сукупності для участі в дослідженні. Вибірка є репрезентативною, якщо вона коректно відображає досліджувану властивість (ознаку) об’єктів генеральної сукупності.
Властивості (ознаки) об’єктів бувають:
- Категорійні або номінальні (колір, форма; сюди відносяться і логічні (так/ні)) – це властивості, які описуються словами і між ними не існує відношеннь порівняння. Вони утворюють групи об’єктів із одинаковим значенням ознаки. Напр. лікарські засоби, що застосовуються у пульмонології, кардіопрепарати і т.д. є значеннями номінальної величини “галузь застосування лікарського препарату”, неможливо (немає змісту) визначити яке із можливих значень більше, а яке менше.
- Порядкові - будь-яка суб’єктивна оцінка, як-то оцінка учня чи студента, так і оцінка ставлення людини до чогось (напр. шкала “негативно - швидше негативно – нейтрально - швидше позитивно - позитивно”). Значення порядкової величини можна порівнювати між собою, однак визначення на скільки (або у скільки раз) одне значення більше від іншого не можливе (не має сенсу). Так, у шкалі оцінок за КМСОНП (кредитно-модульна система організації навчального процесу) неможливо стверджувати, що знання студента, що отримав “А” відрізняється від знань студента, що отримав “С” так само, як знання студента з “С” від знань, оцінених на “Е” (A-C≠C-E). Прикладом порядкових величин є експертні оцінки та оцінки, виставлені споживачами, градація деяких хвороб за важкістю/клінічним перебігом, антибіотикограма (отримана методом дифузії в агар) та ін.
- Інтервальні – отримані за допомогою шкали без абсолютного нуля. Нуль у такій шкалі встановлюється довільно, або ж за стандартом. Прикладами можуть бути температура за Цельсієм, електронегативність атома, дата, pH та ін. Такі дані можна додавати чи віднімати – їх сума та різниця має зміст, однак не можна множити чи ділити. Так, різниця між 10°С і 20°С така ж як і різниця між 0°С та 10°С. Однак твердження, що при 20°С вдвічі тепліше, ніж при 10°С – нонсенс. При статистичних дослідженнях до інтервальних величин застосовуються ті ж самі методи, що й до відносних.
- Відносні – виміряні за допомогою шкали відношень. Шкала відношень має абсолютний (природній) нуль. Назва відносні застосовується тому, що завжди здійснюється порівняння з еталоном, який, знову ж таки, прийнятий за стандарт. Так, молярна концентрація речовин (напр. глюкози у крові), має абсолютний нуль (речовина відсутня), і виміряна у ммоль/л. Мілімоль – одна тисячна від моля, а один моль є кількістю речовини, рівній еталону - числу Авогадро, а літр – одна тисячна метра кубічного, а еталоном метра прийнято довжину шляху, який проходить у вакуумi світло за 1/299792458 частину секунди. З відносними величинами можна здійснювати будь-які математичні операції.
Статистика вивчає об’єкти не поодинці, а у сукупності (або у часовій тривалості). Тобто досліджуються властивості цієї сукупності (вибірки) як чогось цілого. Для цього номінальні ознаки інколи перетворюють у таблиці спряженості. Таблиця спряженості – вид таблиці, що відображає розподіл частот (кількостей об’єктів) двох і більше номінальних змінних. У R
таблицю спряженості можна ввести явним чином (у вигляді матриці), або ж отримати із матриці одиничних спостережень за допомогою функції table()
. Також існує ієрархія між типами ознак: так, знехтувавши відношенням порівняння, порядкові дані можна обробляти як номінальні. А відносні можна звести до будь-якого типу.
Елементи вибірки, що представляє ознаку, для якої має зміст операція порівняння (тобто ознака порядкова, інтервальна або відносна), можна відсортувати за зростанням або за спаданням. Сортування за зростанням ще називається ранжуванням вибірки, а результат такої операції – ранжованим рядом вибірки. Для отримання ранжованого ряду вибірки можна використати функцію sort()
.