Основи лінійної регресії. Регресійний аналіз - статистичний метод дослідження залежності випадкової величини від змінних Регресійні методи

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний методвключає в себе безліч інших методів для моделювання та аналізу кількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною та однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний метод дослідження широко використовується для прогнозування, де його використання має суттєву перевагу, але іноді це може призводити до ілюзії або помилкових відносин, тому рекомендується акуратно використовувати його в зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велике числометодів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз практично залежить від форми процесу генерації даних і від цього, як і ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Найраніша форма регресії - це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 році і Гауссом в 1809. Лежандр і Гаусс застосували метод завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвитоктеорії найменших квадратів у 1821 році, включаючи варіант теореми Гауса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у ХІХ столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типи даних, що відсутні; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних областяхнауки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функції X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкращим чиномвідповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему β.

У разі регресійний аналіз надає інструменти для:

  • Пошуку рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним та передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Найкраще, що можна зробити, оцінити середнє значення та стандартне відхиленнязалежною змінною Y. Аналогічним чином вимірюючи два різні значення X, можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися при трьох різних значеннях незалежної змінної вектора X, регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів в β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься у вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиноюіз середнім значенням нуля, що є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умови для оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівняньз параметрами, які вирішуються для отримання оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалівта проведення перевірки гіпотез про її параметри

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, результати регресійного аналізу під час використання нелінійного методу часом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що необхідно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які може підтримувати модель, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Процентна регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається за доцільне.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, яка потребує великої кількостіспостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакетиПрограмне забезпечення виконується за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресія та множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; Різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпечення було розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.

1. Вперше термін «регресія» було введено засновником біометрії Ф. Гальтоном (XIX ст.), Ідеї якого були розвинені його послідовником К. Пірсоном.

Регресійний аналіз- метод статистичної обробки даних, що дозволяє виміряти зв'язок між однією чи кількома причинами (факторними ознаками) та наслідком (результативною ознакою).

Ознака- це основна відмінна риса, особливість досліджуваного явища чи процесу.

Результативна ознака -досліджуваний показник.

Факторна ознака- Показник, що впливає на значення результативної ознаки.

Метою регресійного аналізу є оцінка функціональної залежності середнього значення результативної ознаки ( у) від факторних ( х 1, х 2, …, х n), що виражається у вигляді рівняння регресії

у= f(x 1 , х 2 , …, х n). (6.1)

Розрізняють два види регресії: парну та множинну.

Парна (проста) регресія- Рівняння виду:

у= f(x). (6.2)

Результативний ознака при парної регресії сприймається як функція від однієї аргументу, тобто. однієї факторної ознаки.

Регресійний аналіз включає наступні етапи:

· Визначення типу функції;

· Визначення коефіцієнтів регресії;

· Розрахунок теоретичних значень результативної ознаки;

· Перевірку статистичної значущості коефіцієнтів регресії;

· Перевірку статистичної значущості рівняння регресії.

Множинна регресія- Рівняння виду:

у= f(x 1 , х 2 , …, х n). (6.3)

Результативний ознака сприймається як функція від кількох аргументів, тобто. багато факторних ознак.

2. Щоб правильно визначити тип функції потрібно виходячи з теоретичних даних знайти напрям зв'язку.

У напрямку зв'язку регресія поділяється на:

· пряму регресію,що виникає за умови, що зі збільшенням чи зменшенням незалежної величини « х»значення залежної величини « у»також відповідно збільшуються чи зменшуються;

· зворотну регресію,що виникає за умови, що із збільшенням чи зменшенням незалежної величини «х»залежна величина « у»відповідно зменшується чи збільшується.

Для характеристики зв'язків використовують такі види рівнянь парної регресії:

· у = a + bxлінійне;

· y = e ax + b - експонентне;

· y=a+b/x – гіперболічна;

· y=a+b 1 x+b 2 x 2 – параболічний;

· y=ab x – показовета ін.

де a, b 1 , b 2- Коефіцієнти (параметри) рівняння; у- результативна ознака; х- Факторна ознака.

3. Побудова рівняння регресії зводиться до оцінки його коефіцієнтів (параметрів), цього використовують метод найменших квадратів(МНК).

Метод найменших квадратів дозволяє отримати такі оцінки параметрів, за яких сума квадратів відхилень фактичних значень результативної ознаки у"від теоретичних" у хмінімальна, тобто

Параметри рівняння регресії у = a + bхза методом найменших квадратів оцінюються за допомогою формул:

де а –вільний коефіцієнт, b- Коефіцієнт регресії, показує на скільки зміниться результативний ознака « y» при зміні факторної ознаки « x» на одиницю виміру.

4. Для оцінки статистичної значущості коефіцієнтів регресії використовується критерій Стьюдента.

Схема перевірки значимості коефіцієнтів регресії:

1) Н 0: a=0, b=0 - коефіцієнти регресії незначно від нуля.

Н 1: a≠ 0, b≠ 0 - коефіцієнти регресії істотно від нуля.

2) р=0,05 – рівень значимості.

де m b,m a- Випадкові помилки:

; . (6.7)

4) t табл(р; f),

де f=n-k- 1 - число ступенів свободи (табличне значення), n- Число спостережень, k х».

5) Якщо , то відхиляється, тобто. коефіцієнт значимий.

Якщо , приймається, тобто. коефіцієнт незначний.

5. Для перевірки правильності побудованого рівняння регресії застосовується критерій Фішера.

Схема перевірки значущості рівняння регресії:

1) Н 0:рівняння регресії незначне.

Н 1:рівняння регресії значуще.

2) р=0,05 – рівень значимості.

3) , (6.8)

де - Число спостережень; k- Число параметрів у рівнянні при змінних « х»; у- Фактичне значення результативної ознаки; y x- теоретичне значеннярезультативної ознаки; - Коефіцієнт парної кореляції.

4) F табл(р; f 1; f 2),

де f 1 =k, f 2 =n-k-1-число ступенів волі (табличні значення).

5) Якщо F розрахунок >F табл, то рівняння регресії підібрано правильно і можна застосовувати практично.

Якщо F розрах , то рівняння регресії підібрано неправильно.

6. Основним показником, що відображає міру якості регресійного аналізу, є коефіцієнт детермінації (R2).

Коефіцієнт детермінаціїпоказує, яка частка залежної змінної у»врахована в аналізі та викликана впливом на неї факторів, включених до аналізу.

Коефіцієнт детермінації (R 2)приймає значення у проміжку. Рівняння регресії є якісним, якщо R 2 ≥0,8.

Коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції, тобто.

Приклад 6.1.За наступними даними побудувати та проаналізувати рівняння регресії:

Рішення.

1) Обчислити коефіцієнт кореляції: . Зв'язок між ознаками прямий і помірний.

2) Побудувати рівняння парної лінійної регресії.

2.1) Скласти розрахункову таблицю.

Х у Ху х 2 у х (у-у х) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Сума 159,45 558,55
Середнє 77519,6 22,78 79,79 2990,6

,

Рівняння парної лінійної регресії: у х = 25,17 +0,087 х.

3) Знайти теоретичні значення « у xшляхом підстановки в рівняння регресії фактичних значень х».

4) Побудувати графіки фактичних у»та теоретичних значень « у х»результативної ознаки (рисунок 6.1): r xy = 0,47) і невеликою кількістю спостережень.

7) Обчислити коефіцієнт детермінації: R 2= (0,47) 2 = 0,22. Побудоване рівняння неякісне.

Т.к. обчислення під час проведення регресійного аналізу досить об'ємні, рекомендується користуватися спеціальними програмами («Statistica 10», SPSS та інших.).

На малюнку 6.2 наведено таблицю з результатами регресійного аналізу, проведеного за допомогою програми Statistica 10.

Малюнок 6.2. Результати регресійного аналізу, проведеного за допомогою програми Statistica 10

5. Література:

1. Гмурман В.Є. Теорія ймовірностей та математична статистика: Навч. посібник для вузів/В.Є. Гмурман. – М.: Вища школа, 2003. – 479 с.

2. Койчубеков Б.К. Біостатистика: Навчальний посібник. – Алмати: Еверо, 2014. – 154 с.

3. Лобоцька Н.Л. Вища математика. / Н.Л. Лобоцька, Ю.В. Морозов, А.А. Дунаєв. – Мн.: Вища школа, 1987. – 319 с.

4. Медик В.А., Токмачов М.С., Фішман Б.Б. Статистика в медицині та біології: Керівництво. У 2-х томах/За ред. Ю.М. Комарова. Т. 1. Теоретична статистика. – М.: Медицина, 2000. – 412 с.

5. Застосування методів статистичного аналізу вивчення громадського здоров'я та охорони здоров'я: навчальний посібник / ред. Кучеренко В.З. - 4-те вид., перероб. та дод. - М.: ГЕОТАР - Медіа, 2011. - 256 с.

Регресійний аналіз

Регресійний (лінійний) аналіз- Статистичний метод дослідження впливу однієї або декількох незалежних змінних на залежну змінну. Незалежні змінні інакше називають регресорами чи предикторами, а залежні змінні – критеріальними. Термінологія залежнихі незалежнихзмінних відбиває лише математичну залежність змінних ( див. Помилкова кореляція), а чи не причинно-наслідкові відносини.

Цілі регресійного аналізу

  1. Визначення ступеня детермінованості варіації критеріальною (залежною) змінною предикторами (незалежними змінними)
  2. Передбачення значення залежної змінної за допомогою незалежної(-их)
  3. Визначення внеску окремих незалежних змінних у варіацію залежної

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку є передумовою для застосування аналізу.

Математичне визначення регресії

Строго регресійну залежність можна визначити в такий спосіб. Нехай - випадкові величини із заданим спільним розподілом ймовірностей. Якщо для кожного набору значень визначено умовне математичне очікування

(Рівняння регресії в загальному вигляді),

то функція називається регресієювеличини Y за величинами , та її графік - лінією регресіїпо , або рівнянням регресії.

Залежність від проявляється у зміні середніх значень Y при зміні. Хоча за кожного фіксованому наборі значень величина залишається випадковою величиною з певним розсіюванням.

Для з'ясування питання, наскільки точно регресійний аналіз оцінює зміну Y при зміні використовується середня величина дисперсії Y при різних наборах значень (фактично йдеться про міру розсіювання залежної змінної навколо лінії регресії).

Метод найменших квадратів (розрахунок коефіцієнтів)

Насправді лінія регресії найчастіше шукається як лінійної функції (лінійна регресія), найкраще наближає шукану криву. Робиться це за допомогою методу найменших квадратів, коли мінімізується сума квадратів відхилень реально спостерігаються від їх оцінок (маються на увазі оцінки за допомогою прямої лінії, що претендує на те, щоб представляти регресійну залежність, що шукається):

(M – обсяг вибірки). Цей підхід заснований на тому відомому факті, що сума, що фігурує в наведеному вираженні, приймає мінімальне значення саме для того випадку, коли .

Для вирішення задачі регресійного аналізу методом найменших квадратів запроваджується поняття функції нев'язки:

Умова мінімуму функції нев'язки:

Отримана система є системою лінійних рівнянь із невідомими

Якщо уявити вільні члени лівої частини рівнянь матрицею

а коефіцієнти при невідомих у правій частині матрицею

то отримуємо матричне рівняння: , яке легко вирішується методом Гаусса. Отримана матриця буде матрицею, що містить коефіцієнти рівняння лінії регресії:

Для отримання кращих оцінок необхідне виконання передумов МНК (умов Гаусса-Маркова). В англомовній літературі такі оцінки називаються BLUE (Best Linear Unbiased Estimators) – найкращі лінійні незміщені оцінки.

Інтерпретація параметрів регресії

Параметри є частковими коефіцієнтами кореляції; інтерпретується як частка дисперсії Y, пояснена , при закріпленні впливу інших предикторов, тобто вимірює індивідуальний внесок у пояснення Y. У разі корелюючих предикторов виникає проблема невизначеності в оцінках, які стають залежними від порядку включення предикторів у модель. У таких випадках необхідне застосування методів аналізу кореляційного та покрокового регресійного аналізу.

Говорячи про нелінійні моделі регресійного аналізу, важливо звертати увагу на те, чи йдеться про нелінійність за незалежними змінними (з формальної точки зору легко зводиться до лінійної регресії), або про нелінійність за параметрами, що оцінюються (що викликає серйозні обчислювальні труднощі). При нелінійності першого виду з змістовної точки зору важливо виділяти появу в моделі членів виду, що свідчить про наявність взаємодій між ознаками, і т. д (див. Мультиколлінеарність).

Див. також

Посилання

  • www.kgafk.ru - Лекція на тему «Регресійний аналіз»
  • www.basegroup.ru - методи відбору змінних до регресійних моделей

Література

  • Норман Дрейпер, Гаррі СмітПрикладний регресійний аналіз. Множинна регресія = Applied Regression Analysis. - 3-тє вид. – М.: «Діалектика», 2007. – С. 912. – ISBN 0-471-17082-8
  • Стійкі методи оцінювання статистичних моделей: Монографія. - К.: ВП «Санспарель», 2005. - С. 504. - ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
  • Радченко Станіслав Григорович,Методологія регресійного аналізу: Монографія. – К.: "Корнійчук", 2011. – С. 376. – ISBN 978-966-7599-72-0

Wikimedia Foundation.

2010 .

За наявності кореляційного зв'язку між факторними і результативними ознаками лікарям нерідко доводиться встановлювати, яку величину може змінитися значення однієї ознаки за зміни іншого на загальноприйняту чи встановлену самим дослідником одиницю виміру.

Наприклад, як зміниться маса тіла школярів 1-го класу (дівчат або хлопчиків), якщо зростання їх збільшиться на 1 см. З цією метою застосовується метод регресійного аналізу.

  1. Визначення регресії. Регресія - функція, що дозволяє за середньою величиною однієї ознаки визначити середню величину іншої ознаки, що кореляційно пов'язана з першою.

    З цією метою застосовується коефіцієнт регресії та низку інших параметрів. Наприклад, можна розрахувати кількість простудних захворювань у середньому за певних значень середньомісячної температури повітря в осінньо-зимовий період.

  2. Визначення коефіцієнта регресії. p align="justify"> Коефіцієнт регресії - абсолютна величина, на яку в середньому змінюється величина однієї ознаки при зміні іншої пов'язаної з ним ознаки на встановлену одиницю виміру.
  3. Формула коефіцієнта регресії. R у/х = r ху x (σ у / σ x)
    де R у/г - коефіцієнт регресії;
    r ху - коефіцієнт кореляції між ознаками х та у;
    (σ у та σ x) - середньоквадратичні відхилення ознак x та у.

    У нашому прикладі;
    σ х = 4,6 (середньоквадратичне відхилення температури повітря в осінньо-зимовий період;
    σ у = 8,65 (середньоквадратичне відхилення числа інфекційно-застудних захворювань).
    Таким чином, R у/г - коефіцієнт регресії.
    R у/г = -0,96 x (4,6 / 8,65) = 1,8, тобто. при зниженні середньомісячної температури повітря (x) на 1 градус середня кількість інфекційно-простудних захворювань у осінньо-зимовий період змінюватиметься на 1,8 випадків.

  4. Рівняння регресії. у = М у + R y/x (х - М x)
    де у - середня величина ознаки, яку слід визначати за зміни середньої величини іншої ознаки (х);
    х - відома середня величина іншої ознаки;
    R y/x – коефіцієнт регресії;
    М х, М у - відомі середні величини ознак x та у.

    Наприклад, середню кількість інфекційно-простудних захворювань можна визначити без спеціальних вимірювань при будь-якому середньому значенні середньомісячної температури повітря (х). Так, якщо х = - 9 °, R у / х = 1,8 захворювань, М х = -7 °, М у = 20 захворювань, то у = 20 + 1,8 х (9-7) = 20 + 3 6 = 236 захворювань.
    Дане рівняння застосовується у разі прямолінійного зв'язку між двома ознаками (х та у).

  5. Призначення рівняння регресії. Рівняння регресії використовують для побудови лінії регресії. Остання дозволяє без спеціальних вимірювань визначити будь-яку середню величину (у) однієї ознаки, якщо змінюється величина (х) іншої ознаки. За цими даними будується графік - лінія регресії, за якою можна визначити середню кількість простудних захворювань за будь-якого значення середньомісячної температури в межах між розрахунковими значеннями числа простудних захворювань.
  6. Сигма регресії (формула).
    де R R/х - сигма (середньоквадратичне відхилення) регресії;
    σ у - середньоквадратичне відхилення ознаки у;
    r ху - коефіцієнт кореляції між ознаками х та у.

    Так, якщо у - середньоквадратичне відхилення числа простудних захворювань = 8,65; r ху - коефіцієнт кореляції між числом простудних захворювань (у) та середньомісячною температурою повітря в осінньо-зимовий період (х) дорівнює - 0,96, то

  7. Призначення сигми регресії. Дає характеристику міри різноманітності результативної ознаки (у).

    Наприклад, характеризує різноманітність числа простудних захворювань за певного значення середньомісячної температури повітря в осінньо-зимовий період. Так, середня кількість простудних захворювань за температури повітря х 1 = -6° може коливатися не більше від 15,78 захворювань до 20,62 захворювань.
    При х 2 = -9 ° середня кількість простудних захворювань може коливатися в межах від 21,18 до 26,02 захворювань і т.д.

    Сигма регресії використовується при побудові шкали регресії, яка відбиває відхилення величин результативної ознаки від середнього значення, відкладеного на лінії регресії.

  8. Дані, необхідні для розрахунку та графічного зображення шкали регресії
    • коефіцієнт регресії - R у/г;
    • рівняння регресії - у = М у + R у/г (х-М x);
    • сигма регресії - Rx/y
  9. Послідовність розрахунків та графічного зображення шкали регресії.
    • визначити коефіцієнт регресії за такою формулою (див. п. 3). Наприклад, слід визначити, наскільки в середньому змінюватиметься маса тіла (у певному віці залежно від статі), якщо середнє зростання зміниться на 1 см.
    • за формулою рівняння регресії (див. п. 4) визначити, якою буде в середньому, наприклад, маса тіла (у, у 2, у 3...)* для певного значення росту (х, х2, х3...) .
      ________________
      * Величину "у" слід розраховувати не менше ніж для трьох відомих значень "х".

      При цьому середні значення маси тіла та росту (М х, і М у) для певного віку та статі відомі

    • обчислити сигму регресії, знаючи відповідні величини у і r ху і підставляючи їх значення у формулу (див. п. 6).
    • на підставі відомих значень х 1 , х 2 , х 3 і відповідних їм середніх значень у 1 , у 2 у 3 а також найменших (у - σ rу / х) і найбільших (у + σ rу / х) значень (у) побудувати шкалу регресії.

      Для графічного зображення шкали регресії на графіці спочатку відзначаються значення x, x2, x3 (вісь ординат), тобто. будується лінія регресії, наприклад залежності маси тіла (у) від зростання (х).

      Потім у відповідних точках у 1 y 2 y 3 відзначаються числові значення сигми регресії, тобто. на графіку знаходять найменше та найбільше значення у 1 , y 2 , y 3 .

  10. Практичне використання шкали регресії. Розробляються нормативні шкали та стандарти, зокрема з фізичного розвитку. За стандартною шкалою можна надати індивідуальну оцінку розвитку дітей. При цьому фізичний розвиток оцінюється як гармонійний, якщо, наприклад, при певному зростанні маса тіла дитини знаходиться в межах однієї сигми регресії до середньої розрахункової одиниці маси тіла (у) для даного росту (x) (± 1 σ Ry/x).

    Фізичний розвиток вважається дисгармонічним за масою тіла, якщо маса тіла дитини для певного росту знаходиться в межах другої сигми регресії: (± 2 σ Ry/x)

    Фізичний розвиток буде різко дисгармонійним як за рахунок надлишкової, так і за рахунок недостатньої маси тіла, якщо маса тіла для певного зростання знаходиться в межах третьої сигми регресії (± 3 σ Ry/x).

За результатами статистичного дослідження фізичного розвитку хлопчиків 5 років відомо, що їхнє середнє зростання (х) дорівнює 109 см, а середня маса тіла (у) дорівнює 19 кг. Коефіцієнт кореляції між зростанням і масою тіла становить +0,9, середні відхилення квадратичні представлені в таблиці.

Потрібно:

  • розрахувати коефіцієнт регресії;
  • за рівнянням регресії визначити, якою буде очікувана маса тіла хлопчиків 5 років при зростанні, що дорівнює х1 = 100 см, х2 = 110 см, х3 = 120 см;
  • розрахувати сигму регресії, побудувати шкалу регресії, результати її вирішення подати графічно;
  • зробити відповідні висновки.

Умову завдання та результати її вирішення представлені у зведеній таблиці.

Таблиця 1

Умови завдання Результати вирішення задачі
рівняння регресії сигма регресії шкала регресії (очікувана маса тіла (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Зростання (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Маса тіла (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Рішення.

Висновок.Таким чином, шкала регресії в межах розрахункових величин маси тіла дозволяє визначити її за будь-якого іншого значення зростання або оцінити індивідуальний розвиток дитини. І тому слід відновити перпендикуляр до лінії регресії.

  1. Власов В.В. Епідеміологія. – М.: ГЕОТАР-МЕД, 2004. – 464 с.
  2. Лісіцин Ю.П. Громадське здоров'я та охорона здоров'я. Підручник для вишів. – М.: ГЕОТАР-МЕД, 2007. – 512 с.
  3. Медик В.А., Юр'єв В.К. Курс лекцій з громадського здоров'я та охорони здоров'я: Частина 1. Суспільне здоров'я. – К.: Медицина, 2003. – 368 с.
  4. Міняєв В.А., Вишняков Н.І. та ін Соціальна медицина та організація охорони здоров'я (Керівництво у 2 томах). – СПб, 1998. –528 с.
  5. Кучеренко В.З., Агарков Н.М. та ін. Соціальна гігієна та організація охорони здоров'я (Навчальний посібник) – Москва, 2000. – 432 с.
  6. С. Гланц. Медико-біологічна статистика Пер з англ. – М., Практика, 1998. – 459 с.

Основна особливість регресійного аналізу: за його допомогою можна отримати конкретні відомості про те, яку форму та характер має залежність між досліджуваними змінними.

Послідовність етапів регресійного аналізу

Розглянемо коротко етапи регресійного аналізу.

    Формулювання задачі. На цьому етапі формуються попередні гіпотези щодо залежності досліджуваних явищ.

    Визначення залежних та незалежних (пояснюючих) змінних.

    Збір статистичних даних. Дані мають бути зібрані для кожної із змінних, включених до регресійної моделі.

    Формулювання гіпотези про форму зв'язку (просте або множинне, лінійне або нелінійне).

    Визначення функції регресії (полягає у розрахунку чисельних значень параметрів рівняння регресії)

    Оцінка точності регресійного аналізу.

    Інтерпретація одержаних результатів. Отримані результати регресійного аналізу порівнюються із попередніми гіпотезами. Оцінюється коректність та правдоподібність отриманих результатів.

    Пророцтво невідомих значень залежною змінною.

За допомогою регресійного аналізу можливе вирішення завдання прогнозування та класифікації. Прогнозні значення обчислюються шляхом підстановки рівняння регресії параметрів значень пояснюючих змінних. Розв'язання задачі класифікації здійснюється таким чином: лінія регресії ділить все безліч об'єктів на два класи, і та частина множини, де значення функції більше за нуль, належить до одного класу, а та, де воно менше нуля, - до іншого класу.

Завдання регресійного аналізу

Розглянемо основні завдання регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної

Встановлення форми залежності.

Характер і форма залежності між змінними можуть утворювати такі різновиди регресії:

    позитивна лінійна регресія (виявляється у рівномірному зростанні функції);

    позитивна рівноприскорено зростаюча регресія;

    позитивна рівногайно зростаюча регресія;

    негативна лінійна регресія (виявляється у рівномірному падінні функції);

    негативна рівноприскорено спадна регресія;

    негативна рівногайно спадна регресія.

Проте описані різновиди зазвичай зустрічаються над чистому вигляді, а поєднанні друг з одним. У такому разі говорять про комбіновані форми регресії.

Визначення функції регресії.

Друге завдання зводиться до з'ясування впливу на залежну змінну головних факторів або причин, за незмінних інших рівних умов, та за умови виключення впливу на залежну змінну випадкових елементів. Функція регресіївизначається як математичного рівняння тієї чи іншої типу.

Оцінка невідомих значень залежною змінною.

Розв'язання цієї задачі зводиться до розв'язання задачі одного з типів:

    Оцінка значень залежної змінної усередині аналізованого інтервалу вихідних даних, тобто. пропущених значень; у своїй вирішується завдання інтерполяції.

    Оцінка майбутніх значень залежної змінної, тобто. знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується завдання екстраполяції.

Обидві завдання вирішуються шляхом підстановки рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат рішення рівняння є оцінкою значення цільової (залежної) змінної.

Розглянемо деякі припущення, куди спирається регресійний аналіз.

Припущення лінійності, тобто. передбачається, що зв'язок між аналізованими змінними є лінійним. Так, у прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж діаграмі розсіювання змінних бачимо явне відсутність лінійного зв'язку, тобто. є нелінійний зв'язок, слід використовувати нелінійні методи аналізу.

Припущення про нормальність залишків. Воно припускає, що розподіл різниці передбачених та спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.

З використанням регресійного аналізу слід враховувати його основне обмеження. Воно у тому, що регресійний аналіз дозволяє виявити лише залежності, а чи не зв'язку, що у основі цих залежностей.

Регресійний аналіз дає можливість оцінити ступінь зв'язку між змінними шляхом обчислення передбачуваного значення змінної виходячи з кількох відомих значень.

Рівняння регресії.

Рівняння регресії виглядає так: Y=a+b*X

За допомогою цього рівняння змінна Y виражається через константу a та кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу a також називають вільним членом, а кутовий коефіцієнт - коефіцієнтом регресії або B-коефіцієнтом.

У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень щодо регресійної прямої.

Залишок - Це відхилення окремої точки (спостереження) від лінії регресії (передбаченого значення).

Для вирішення задачі регресійного аналізу у MS Excel вибираємо в меню Сервіс"Пакет аналізу"та інструмент аналізу "Регресія". Задаємо вхідні інтервали X та Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів має бути не більше 16.

На виході процедури у вихідному діапазоні отримуємо звіт, наведений у таблиці 8.3а-8.3в.

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика

Регресійна статистика

Множинний R

R-квадрат

Нормований R-квадрат

Стандартна помилка

Спостереження

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а, – регресійну статистику.

Величина R-квадрат, що називається також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

У більшості випадків значення R-квадратзнаходиться між цими значеннями, які називають екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадратублизько до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість збудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

множинний R - Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний Rдорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний Rдорівнює коефіцієнту кореляції Пірсона. Справді, множинний Rу разі дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії

Коефіцієнти

Стандартна помилка

t-статистика

Y-перетин

Змінна X 1

* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану в таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається виходячи з знаків (негативний чи позитивний) коефіцієнтів регресії (коефіцієнта b).

Якщо знак при коефіцієнті регресії - позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнті регресії - негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати висновку залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки

Спостереження

Передбачене Y

Залишки

Стандартні залишки

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення залишкуу разі - 0,778, найменше - 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних та побудованою лінією регресії, представленими на Мал. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.

Слід враховувати, що приклад, що розглядається, є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.

Мал. 8.3.Вихідні дані та лінія регресії

Залишилося нерозглянутим завдання оцінки невідомих майбутніх значень залежної змінної виходячи з відомих значень незалежної змінної, тобто. Завдання прогнозування.

Маючи рівняння регресії, завдання прогнозування зводиться до вирішення рівняння Y = x * 2,305454545 +2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків уперед представлені у таблиці 8.4.

Таблиця 8.4. Результати прогнозування змінної Y

Y(прогнозується)

Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:

    збудували рівняння регресії;

    встановили форму залежності та напрямок зв'язку між змінними - позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;

    встановили напрямок зв'язку між змінними;

    оцінили якість отриманої регресійної прямої;

    змогли побачити відхилення розрахункових даних від даних вихідного набору;

    передбачили майбутні значення залежної змінної.

Якщо функція регресіївизначено, інтерпретовано і обґрунтовано, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення мають достатню надійність.

Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна очікувати.

У цій роботі ми розглянули основні характеристики описової статистикиі серед них такі поняття, як середнє значення,медіана,максимум,мінімумта інші характеристики варіації даних.

Також було коротко розглянуто поняття викидів. Розглянуті показники належать до так званого дослідницького аналізу даних, його висновки можуть належати не до генеральної сукупності, а лише до вибірки даних. Дослідницький аналіз даних використовується для отримання первинних висновків та формування гіпотез щодо генеральної сукупності.

Також було розглянуто основи кореляційного та регресійного аналізу, їх завдання та можливості практичного використання.