Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.
12
Министерство образования и науки Российской Федерации
Лабораторная работа по эконометрике
на тему «Основы регрессионного анализа. Парная линейная регрессия»
Новосибирск 2010
Ситуация №1, Задание. Основы регрессионного анализа. Парная линейная регрессия.
Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.
По результатам корреляционного анализа выбираем показатель Х 1 -колличество выпитого пива и показатель Х3 -температура в день охоты, потому что они связаны между собой в наибольшей меретесно, так как . Обозначим X3 как Х, а X1 как Y.
X |
30 |
31 |
27 |
29 |
36 |
31 |
31 |
27 |
37 |
28 |
36 |
31 |
|
Y |
31 |
43 |
0 |
4 |
78 |
45 |
41 |
20 |
70 |
33 |
96 |
38 |
|
35 |
37 |
32 |
36 |
29 |
29 |
36 |
34 |
34 |
30 |
33 |
34 |
33 |
|
94 |
73 |
41 |
69 |
38 |
24 |
89 |
70 |
84 |
20 |
65 |
62 |
48 |
|
Задание 1:
Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:
Где x i — средняя температура в день охоты,
y i — количество выпитого пива,
i — случайная компонента,
0 , 1 — неизвестные параметры.
С помощью МНК получаем следующую систему нормальных уравнений:
Найдем МНК-оценку параметра 1 по формуле:
:
1 =7,452
Рассчитаем МНК-оценку параметра 0 , используя формулу:
:
0 = — 198,88
Дадим интерпретацию полученным результатам:
Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1°С, количество выпитого Робинзоном пива возрастает в среднем на 1 =7,452% от объема фляги.
0 = — 198,88
Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.
Задание 2:
Проверим значимость всех параметров модели по критерию Стьюдента.
1) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
; t кр (0,05; 23) =2,069
Оценка дисперсии оценки вычисляется по формуле
;
S 2 = = 146,078
= 25,239
= — 7,88
|t|<t кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.
2) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
t кр (0,05; 23) =2,069
;
S 2 = = 146,078
= 0,779
= 9,947
|t|<t кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.
Построим для данных параметров 95% -ные доверительные интервалы.
Для параметра 0 доверительный интервал будет выглядеть следующим образом:
- [-198,88-2,069*25,239;
- — 198,88+2,069*25,239]
[-251,099; — 146,661]
Для параметра 1 доверительный интервал будет выглядеть следующим образом:
- [7,452-2,069*0,779;
- 7,452+2,069*0,779]
[5,84; 9,06]
Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.
Задание 3:
Для начала найдём коэффициент детерминации:
Где TSS = — полная сумма квадратов,
- общая сумма квадратов;
RSS = — сумма квадратов, обусловленная регрессией,
- объясненная сумма квадратов (сумма квадратов регрессии).
ESS = — остаточная сумма квадратов.
- остаточная сумма квадратов (сумма квадратов остатков)
= 15504,60+3457,033=18862,64
Так как RSS>>ESS, то остатки регрессии невелики.
Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.
Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82%.
В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.
Проверим значимость модели в целом по F — критерию:
Чтобы проверить значимость модели, необходимо проверить гипотезу:
Найдем F-статистику по формуле:
Из таблицы находим значение:
Если , то гипотеза отвергается с вероятностью 0,95.
В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.
Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:
Y= — 193,558+7,495x
Задание. Построить таблицу дисперсионного анализа.
Источник дисперсии |
Число степеней свободы |
Сумма квадратов |
F-факт. |
F-табл. |
Значимость |
Средняя сумма квадратов |
|
Объясненная дисперсия |
1 |
15405,60 |
102,495 |
4,279344 |
Да |
15405,60 |
|
Остаточная дисперсия |
23 |
3457,033 |
— |
— |
— |
150,305 |
|
Общая дисперсия |
24 |
18862,64 |
— |
— |
— |
785,94 |
|
Задание 5:
Выберем в качестве прогнозной точки значение x п =42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:
y п = — 193,558+7,495 *42= 121,23.
Это значит, что при температуре 42 0 С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.
Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:
- = 7,462;
- t кр (0,05;
- 23) =2,069
Границы доверительного интервала найдем по формуле:
- Получим [121,23-2,069*7,462;
- 121,23+2,069*7,462].
доверительный интервал для Y: [105,79; 136,67]
То есть при температуре 42 0 С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.
Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.
Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.
i |
x i |
|||||
1 |
25 |
-6,182905484 |
6,056203037 |
-18,71318957 |
6,3473786 |
|
2 |
28 |
16,30221704 |
4,12461405 |
7,768390566 |
24,83604351 |
|
3 |
28 |
16,30221704 |
4,12461405 |
7,768390566 |
24,83604351 |
|
4 |
29 |
23,79725788 |
3,55664372 |
16,43856202 |
31,15595373 |
|
5 |
29 |
23,79725788 |
3,55664372 |
16,43856202 |
31,15595373 |
|
6 |
30 |
31,29229872 |
3,063192858 |
24,95455269 |
37,63004474 |
|
7 |
30 |
31,29229872 |
3,063192858 |
24,95455269 |
37,63004474 |
|
8 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
9 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
10 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
11 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
12 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
13 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
14 |
33 |
53,77742124 |
2,48202194 |
48,64211784 |
58,91272463 |
|
15 |
33 |
53,77742124 |
2,48202194 |
48,64211784 |
58,91272463 |
|
16 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
17 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
18 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
19 |
35 |
68,76750292 |
3,081033386 |
62,39284484 |
75,14216099 |
|
20 |
35 |
68,76750292 |
3,081033386 |
62,39284484 |
75,14216099 |
|
21 |
36 |
76,26254376 |
3,578152777 |
68,85934566 |
83,66574185 |
|
22 |
37 |
83,7575846 |
4,148463607 |
75,17441339 |
92,3407558 |
|
23 |
37 |
83,7575846 |
4,148463607 |
75,17441339 |
92,3407558 |
|
24 |
38 |
91,25262544 |
4,765761822 |
81,39226423 |
101,1129866 |
|
25 |
38 |
91,25262544 |
4,765761822 |
81,39226423 |
101,1129866 |
|
Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.
12
Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.
По результатам корреляционного анализа мы выбрали в наибольшей меретесно связанные показатели Y (количество выпитого пива) и Х (температура).
Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = — 193,558+7,495x.
С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495 % от объема фляги).
Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и 0 и и1 ) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.
Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.
Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.