загрузка...
Пошук по сайту

Приклад знаходження рівняння множинної регресії

Множинна регресія online
1. Оцінка рівняння регресії.
 Визначимо вектор оцінок коефіцієнтів регресії. Згідно методу найменших квадратів, вектор виходить з вираження:
 s = (XTX)-1XTY
 Матриця X
 1  1  688.52
 1  2  870.25
 1  3  1157.5
 1  4  1216.25
 1  5  1317

 Матриця Y
  251
 339
 381
 483
 592

 Матриця X T
  1  1  1  1  1
 1  2  3  4  5
 688.52  870.25  1157.5  1216.25  1317

 Множимо матриці,  (XTX)

 У матриці,  (X TX) число 5, що лежить на перетині 1-го рядка та 1-го стовпця, отримано як сума добутків елементів 1-го рядка матриці XT і 1-го стовпця матриці X
 Множимо матриці,  (XTY)

 Знаходимо визначник det(XTX)T = 825702.16
 Знаходимо оберненю матрицю (XTX)
-1
  20.7063  5.2232  -0.0345
 5.2232  1.6559  -0.0097
 -0.0345  -0.0097  0.0001

 Вектор оцінок коефіцієнтів регресії дорівнює
 s = (X TX)-1XTY =

 Рівняння регресії (оцінка рівняння регресії)
  Y = 318.334 + 126.8095X 1-0.2758X 2
 2. Матриця парних коефіцієнтів кореляції.
 Число спостережень n = 5. Число незалежних змінних в моделі одно 2, а число регрессоров з урахуванням одиничного вектора дорівнює кількості невідомих коефіцієнтів. З урахуванням ознаки Y, розмірність матриці стає рівним 4. Матриця, незалежних змінних Х має розмірність (5 х 4). Матриця ХT Х визначається безпосереднім множенням або за наступними попередньо обчисленої суми.
 Матриця складена з Y i X
 1  251  1  688.52
 1  339  2  870.25
 1  381  3  1157.5
 1  483  4  1216.25
 1  592  5  1317

 Транспонована матриця.
  1  1  1  1  1
 251  339  381  483  592
 1  2  3  4  5
 688.52  870.25  1157.5  1216.25  1317

 Матрица A TA.
  5  2046  15  5249.52
 2046  906836  6964  2275953.52
 15  6964  55  17351.52
 5249.52  2275953.52  17351.52  5784954.17

 Отримана матриця має наступне відповідність:

 Знайдемо парні коефіцієнти кореляції.
 Для y и x1
 Рівняння має вигляд y = ax + b
 Середні значення



 Дисперсія


 Середньоквадратичне відхилення


 Коефіцієнт кореляції

 Для y и x2
 Рівняння має вигляд y = ax + b
 Середні значення



 Дисперсія


 Середньоквадратичне відхилення


 Коефіцієнт кореляції

 Для x1  и x2
 Рівняння має вигляд y = ax + b
 Середні значення



 Дисперсія


 Середньоквадратичне відхилення


 Коефіцієнт кореляції

 Матриця парних коефіцієнтів кореляції.

  -  y  x1  x2
 y  1  0.99  0.93
 x1  0.99  1  0.97
 x2  0.93  0.97  1

 Аналіз першого рядка цієї матриці дозволяє зробити відбір факторних ознак, які можуть бути включені в модель множинної кореляційної залежності. Факторні ознаки, у яких ryxi < 0.5 виключають з моделі.
 Коллінеарність - залежність між факторами. В якості критерію мультіколлінеарності може бути прийнято дотримання наступних нерівностей:
 r( xjy) > r(xkxj) ; r(xky) > r(xkxj).
 Якщо одна з нерівностей не дотримується, то виключається той параметр x k або xj, зв'язок якого з результативним показником Y виявляється найменш тісному.
 3. Аналіз параметрів рівняння регресії.
 Перейдемо до статистичного аналізу отриманого рівняння регресії: перевірці значимості рівняння і його коефіцієнтів, дослідженню абсолютних і відносних помилок апроксимації.
 Для незміщене оцінки дисперсії виконаємо наступні обчислення:
 Незміщене помилка e = Y - X * s (абсолютна помилка апроксимації).
 -4.25
 7.06
 1.48
 -7.13
 2.85

 s e2 = (Y - X*s)T(Y - X*s)
 Незміщене оцінка дисперсії дорівнює

 Оцінка середньоквадратичне відхилення дорівнює (Стандартна помилка для оцінки Y)

 Знайдемо оцінку коваріаційного матриці вектора k = σ•(XTX)-1

 Дисперсії параметрів моделі визначаються співвідношенням S2
i = Kii, тобто це елементи, що лежать на головній діагоналі.
 З метою розширення можливостей змістовного аналізу моделі регресії використовуються приватні коефіцієнти еластичності, які визначаються за формулою:


 Приватні коефіцієнт еластичності E1 < 1. Отже, його вплив на результативну ознаку Y незначно.

 Приватні коефіцієнт еластичності E2 < 1. Отже, його вплив на результативну ознаку Y незначно.
 Тісноту сумісного впливу факторів на результат оцінює індекс множинної кореляції (від 0 до 1).

 Зв'язок між ознакою Y факторами X  сильна
 Коефіцієнт детермінації
 R 2= 1 2 = 1
 тобто в 99.8146 % випадків зміни х призводять до зміни y. Іншими словами - точність підбору рівняння регресії - висока
 Значущість коефіцієнта кореляції.

 По таблиці Стьюдента знаходимо Tтабл
 Tтабл (n-m-1;a) = (2;0.05) = 2.92
 Оскільки Tнабл > Tтабл , те відхиляємо гіпотезу про рівність 0 коефіцієнта кореляції. Іншими словами, коефіцієнта кореляції статистично - значущий
 Интервальная оцінка для коефіцієнта кореляції (довірчий інтервал)

 Довірчий інтервал для коефіцієнта кореляції
 r(0.9967;1.0015)

 4. Оцінка значення результативної ознаки при заданих значеннях факторів.
 Y(0.0,0.0,) = 318.33 + 126.8095 * 0.0-0.2758 * 0.0 = 318.33
 Довірчі інтервали з імовірністю 0.95 для індивідуального значення результативної ознаки.
 S 2 = X0T(XTX)-1X0
де
X 0T = [ 1  0.0 0.0]
(XTX)-1

  20.7063  5.2232  -0.0345
 5.2232  1.6559  -0.0097
 -0.0345  -0.0097  0.0001

 X 0
1
0
0

 S 2 = 20.71

 (Y – t*S Y ; Y + t*SY )
 (318.33 – 2.92*36.56 ; 318.33 + 2.92*36.56)
 (211.57;425.09)
 Довірчі інтервали з імовірністю 0.95 для середнього значення результативної ознаки.

 (318.33 – 2.92*37.43 ; 318.33 + 2.92*37.43)
 (209.03;427.63)

  5. Перевірка гіпотез щодо коефіцієнтів рівняння регресії (перевірка значущості параметрів множинного рівняння регресії).
 1) t-статистика. Критерій Стьюдента.


 Статистична значимість коефіцієнта регресії b0 підтверджується

 Статистична значимість коефіцієнта регресії b1 підтверджується

 Статистична значимість коефіцієнта регресії b2 підтверджується
 Довірчий інтервал для коефіцієнтів рівняння регресії.
 Визначимо довірчі інтервали коефіцієнтів регресії, які з надійність 95% будуть наступними:
 (b i - t iSi; bi + tiSi)
b0: (280.6746;355.9935)
b1: (116.1596;137.4594)
b2: (-0.3402;-0.2114)
 2) F-статистика. Критерій Фішера.


 Fkp = 19.2
 Оскільки F > Fkp, то коефіцієнт детермінації статистично значущий і рівняння регресії статистично надійно
 6. Перевірити наявність гетероскедастичності методом графічного аналізу залишків.
 У цьому випадку по осі абсцис відкладаються значення пояснює змінної X i, а по осі ординат квадрати відхилення ei2.

 y  y(x)  e=y-y(x)  e2
 251  255.25  -4.25  18.07
 339  331.94  7.06  49.86
 381  379.52  1.48  2.18
 483  490.13  -7.13  50.85
 592  589.15  2.85  8.1