Описова статистика займається дослідженням структури вибірки як чогось цілого. Метою описової статистики є представлення великого масиву даних у скороченій компактній формі, яка би володіла максимумом інформативності. Уявімо ситуацію: ми запитали у провізора, який виторг за місяць має аптека, у якій він працює, а він дає нам наступну відповідь: “За минулий місяць виторг склав 100 тис, у травні – 106тис, у квітні – 89тис, у березні – 93 тис.,…….., у вересні минулого року – 81 тис, ….. “ і т.д. – трохи не та відповідь, яку ми хотіли почути. Нам достатньо (і очікувано) було би почути щось на зразок “95 тис. в середньому”. Таким чином ми вже давно знайомі із одним із показників описової статистики – середнім арифметичним, і часто його використовуємо. Загалом для того, щоб передати максимум інформації про певну ознаку об’єктів вибірки, застосовуються три типи характеристик: характеристики центру, характеристики масштабу та форму розподілу вибірки. Однак перш ніж приступити до їх вивчення, розглянемо характеристики ранжованого ряду вибіркиквантилі. Квантиль – таке число \(x_p\), що значення \(p\)-ї частини ранжованого ряду вибірки менше або рівне \(x_p\). У R квантилі можна обчислити за допомогою функції quantile(x,p), де аргумент х позначає вибірку, а р – частку вибірки. Іншими словами, квантиль ймовірності р – це таке значення вибірки, що при виборі випадкового елемента з цієї вибірки, він з імовірністю p виявиться меншим цього значення. Деякі важливі квантилі мають окремі імена:

  • 0-квантиль - називається мінімумом і є найменшим значенням вибірки. Щоб отримати мінімум вибірки у R, можна застосувати функції quantile(x,0) або min(x), які є тотожними.
  • 1-квантиль – називається максимумом і є найбільшим значенням вибірки. Щоб отримати максимум вибірки у R, можна застосувати функції quantile(x,1) або max(x), які також є тотожними.
  • 0.25-квантиль – називається нижнім (або першим) квартилем і відділяє першу чверть (четвертину) ранжованого ряду вибірки. Тобто ¼ значень вибірки є меншими або рівними нижньому квартилю. Відповідна команда R quantile(x,0.25).
  • 0.75-квантиль – називається верхнім (або третім) квартилем і відділяє три четверті ранжованого ряду вибірки. Тобто ¾ значень вибірки є меншими або рівними верхньому квартилю. В той же час, решта ¼ значень вибірки є більшою від верхнього квартиля. Відповідна команда R quantile(x,0.75).
  • 0.5-квантиль – називається медіаною. Це значення, що розділяє ранжований ряд вибірки навпіл. Медіана є другим квартилем. Щоб отримати медіану вибірки у R, можна застосувати функції quantile(x,0.5) або median(x), які також є тотожними.

Наприклад: досліджувались суми покупок, які роблять споживачі в аптеці. Дев’ять споживачів зробили покупки вартістю: {124, 16, 32, 89, 9, 23, 45, 84, 30} грн. відповідно. Впорядкуємо цю вибірку за зростанням і вкажемо основні квантилі:

Мінімум1ий-квартиль2-ий квартиль (медіана)3-ій квартильМаксимум
Ранг1123456789
Сума покупки916233032458489124

Щоб отримати основні квантилі цієї вибірки у R, слід виконати функцію quantile() без другого параметра:

a <- c(124, 16, 32, 89, 9, 23, 45, 84, 30)
quantile(a)
##   0%  25%  50%  75% 100% 
##    9   23   32   84  124

Характеристики центру вибірки

Центр вибірки є певним значенням ознаки, що найкраще узагальнює усі значення цієї ознаки серед об’єктів вибірки. У залежності від типу ознаки, можна застосовувати наступні характеристики центру:

Тип ознакиХарактеристика центру вибірки
Категорійний (номінальний)мода
Порядковиймода, медіана
Інтервальний, відносниймода, медіана, середнє арифметичне

Мода – найчастіше значення вибірки (значення, що трапляється найбільшу кількість разів). У базових пакетах R немає окремої функції для обчислення моди. З цією метою можна застосувати наступну комбінацію:

names(sort(-table(x)))[1]

, де х – досліджувана вибірка. Функція table() здійснює підрахунок кількості одинакових значень у вибірці, функція sort() із знаком “мінус” перед аргументом здійснює сортування цих кількостей за спаданням, функція names() повертає вектор імен відсортованих кількостей, а індекс [1] вказує на перше значення цього вектора імен. Альтернативним способом є завантаження та підключення додаткового пакету prettyR, і використання наявної там функції Mode().

install.packages("prettyR")
library(prettyR)
Mode(x)

Мода є єдиним можливим вимірником центру для вибірки з номінальною ознакою. Для неперервних ознак безпосереднє знаходження моди не має змісту, оскільки поява двох однакових величин є малоімовірною і не є чимось значущим. Однак має зміст визначення моди після розділення неперервної величини на дискретні інтервали, але в такому разі це значення моди стосується вибраних інтервалів, а не початкової величини. Смисловим аналогом моди для неперервних ознак є значення найбільшої густини імовірності, але при цьому також варто пам’ятати, що сама густина імовірності емпіричного (такого, що спостерігається) розподілу може бути визначена лише шляхом апроксимації (наближення) за допомогою певного теоретичного розподілу.

Медіана – таке значення вибірки, при якому кількість елементів вибірки менших за це значення дорівнює кількості елементів вибірки, більших за це значення. Медіана є серединою ранжованого ряду вибірки. Для визначення медіани у R наявна функція median().

Середнє арифметичне – сума значень елементів вибірки, поділена на кількість цих елементів. Для знаходження середнього арифметичного у R використовуємо функцію mean().

Характеристики масштабу вибірки

Масштаб вибірки описує наскільки сильно значення цієї вибірки відрізняються між собою. Для номінальних ознак поняття масштабу є невизначеним. Для порядкових ознак можливими характеристиками масштабу вибірки є діапазон та міжквартильна відстань.

Діапазон є різницею між максимальним і мінімальним значенням. Діапазон як характеристика масштабу використовується нечасто, тому прямої функції для його обчислення немає. Однак діапазон легко обчислити за допомогою команди diff(range(x)) , де х – вибірка. Функція range() повертає вектор, що складається з максимуму та мінімуму вибірки, а функція diff() – знаходить іх різницю (diff() є аналогом оператора віднімання -).

Міжквартильна відстань (interquartile range) є різницею між третім (верхнім) та першим (другим) квартилями. Обчислити міжквартильну відстань можна за допомогою функції IQR() (зверніть увагу на великі букви при написанні цієї функції).

Для кількісних величин крім діапазону та міжквартильної відстані як характеристики масштабу застосовуються дисперсія та стандартне відхилення. Дисперсія (variance) або середньоквадратичне відхилення – міра відхилення значень вибірки від середнього арифметичного. Обчислюється наступним чином: для кожного значення вибірки знаходять різницю між цим значенням і середнім арифметичним. Усі ці різниці підносять до квадрату, сумують і ділять на розмір вибірки мінус один:

\[ D=\dfrac{\sum\limits_{i=1}^n(x_i-\bar{x})^2}{n-1} \]

Для обчислення дисперсії у R існує функція var(). Стандартне відхилення (standard deviation) – також є мірою відхилення значень вибірки від середнього арифметичного. Стандартне відхилення є квадратним коренем із дисперсії (і навпаки: дисперсія є квадратом стандартного відхилення). Обчислюється за допомогою sd()

Зручним графічним представленням описових характеристик ранжованого ряду вибірки є ящик з вусами (box-and-whiskers plot), що викликається за допомогою команди boxplot(x). <img src=”http://stat.org.ua/figures/boxplot.png”, height=’50%’, width=’50%’> Товста лінія у ящику – медіана вибірки, границі ящика є відповідно нижнім та верхнім квартилями, відстань між цими границями є інтерквартильним розмахом, вертикальні лінії, сполучені пунктиром з ящиком відображають максимум та мінімум вибірки, а окремо зображені кільця (інколи точки) – викиди. Викид – деякий компонент вибірки, що сильно відрізняється від усіх інших компонентів цієї вибірки. Причини викидів:

  • груба похибка вимірювання
  • нетипова природа вхідних даних: Наприклад, якщо навмання вимірювати температуру предметів у кімнаті, то отримаємо цифри від 18 до 22 °С, але радіатор взимку може мати температуру біля 70°.
  • викиди можуть бути частиною розподілу.

Статистичні методи, що здатні працювати в умовах пристуності викидів, називають робастними. Якщо ж планується використовувати неробастні методи, викиди варто виявити і вилучити. Існує значна кількість методів виявлення викидів, найпростіші з яких базуються на інтерквартильній відстані. Варто звертати увагу на викид, адже він може свідчити про суттєву якісну відмінність цього компонента від усіх інших у вибірці. Приклад наведено на малюнку: