Основы регрессионного анализа. Парная линейная регрессия

Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.

12

Министерство образования и науки Российской Федерации

Лабораторная работа по эконометрике

на тему «Основы регрессионного анализа. Парная линейная регрессия»

Новосибирск 2010

Ситуация №1, Задание. Основы регрессионного анализа. Парная линейная регрессия.

Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.

По результатам корреляционного анализа выбираем показатель Х 1 -колличество выпитого пива и показатель Х3 -температура в день охоты, потому что они связаны между собой в наибольшей меретесно, так как . Обозначим X3 как Х, а X1 как Y.

X

30

31

27

29

36

31

31

27

37

28

36

31

Y

31

43

0

4

78

45

41

20

70

33

96

38

35

37

32

36

29

29

36

34

34

30

33

34

33

94

73

41

69

38

24

89

70

84

20

65

62

48

Задание 1:

Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:

Где x i — средняя температура в день охоты,

y i — количество выпитого пива,

i — случайная компонента,

0 , 1 — неизвестные параметры.

С помощью МНК получаем следующую систему нормальных уравнений:

Найдем МНК-оценку параметра 1 по формуле:

:

1 =7,452

Рассчитаем МНК-оценку параметра 0 , используя формулу:

:

0 = — 198,88

Дадим интерпретацию полученным результатам:

Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1°С, количество выпитого Робинзоном пива возрастает в среднем на 1 =7,452% от объема фляги.

0 = — 198,88

Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.

Задание 2:

Проверим значимость всех параметров модели по критерию Стьюдента.

1) Проверим на значимость параметр :

Необходимо проверить гипотезу:

Вычислим t-статистику Стьюдента по формуле:

; t кр (0,05; 23) =2,069

Оценка дисперсии оценки вычисляется по формуле

;

S 2 = = 146,078

= 25,239

= — 7,88

|t|<t кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.

2) Проверим на значимость параметр :

Необходимо проверить гипотезу:

Вычислим t-статистику Стьюдента по формуле:

t кр (0,05; 23) =2,069

;

S 2 = = 146,078

= 0,779

= 9,947

|t|<t кр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.

Построим для данных параметров 95% -ные доверительные интервалы.

Для параметра 0 доверительный интервал будет выглядеть следующим образом:

  • [-198,88-2,069*25,239;
  • — 198,88+2,069*25,239]

[-251,099; — 146,661]

Для параметра 1 доверительный интервал будет выглядеть следующим образом:

  • [7,452-2,069*0,779;
  • 7,452+2,069*0,779]

[5,84; 9,06]

Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.

Задание 3:

Для начала найдём коэффициент детерминации:

Где TSS = — полная сумма квадратов,

  • общая сумма квадратов;

RSS = — сумма квадратов, обусловленная регрессией,

  • объясненная сумма квадратов (сумма квадратов регрессии).

ESS = — остаточная сумма квадратов.

  • остаточная сумма квадратов (сумма квадратов остатков)

= 15504,60+3457,033=18862,64

Так как RSS>>ESS, то остатки регрессии невелики.

Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.

Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82%.

В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.

Проверим значимость модели в целом по F — критерию:

Чтобы проверить значимость модели, необходимо проверить гипотезу:

Найдем F-статистику по формуле:

Из таблицы находим значение:

Если , то гипотеза отвергается с вероятностью 0,95.

В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.

Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:

Y= — 193,558+7,495x

Задание. Построить таблицу дисперсионного анализа.

Источник дисперсии

Число степеней свободы

Сумма квадратов

F-факт.

F-табл.

Значимость

Средняя

сумма квадратов

Объясненная дисперсия

1

15405,60

102,495

4,279344

Да

15405,60

Остаточная дисперсия

23

3457,033

150,305

Общая дисперсия

24

18862,64

785,94

Задание 5:

Выберем в качестве прогнозной точки значение x п =42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:

y п = — 193,558+7,495 *42= 121,23.

Это значит, что при температуре 42 0 С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.

Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:

  • = 7,462;
  • t кр (0,05;
  • 23) =2,069

Границы доверительного интервала найдем по формуле:

  • Получим [121,23-2,069*7,462;
  • 121,23+2,069*7,462].

доверительный интервал для Y: [105,79; 136,67]

То есть при температуре 42 0 С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.

Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.

Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.

i

x i

1

25

-6,182905484

6,056203037

-18,71318957

6,3473786

2

28

16,30221704

4,12461405

7,768390566

24,83604351

3

28

16,30221704

4,12461405

7,768390566

24,83604351

4

29

23,79725788

3,55664372

16,43856202

31,15595373

5

29

23,79725788

3,55664372

16,43856202

31,15595373

6

30

31,29229872

3,063192858

24,95455269

37,63004474

7

30

31,29229872

3,063192858

24,95455269

37,63004474

8

31

38,78733956

2,685656131

33,23071702

44,34396209

9

31

38,78733956

2,685656131

33,23071702

44,34396209

10

31

38,78733956

2,685656131

33,23071702

44,34396209

11

32

46,2823804

2,477601595

41,1562227

51,4085381

12

32

46,2823804

2,477601595

41,1562227

51,4085381

13

32

46,2823804

2,477601595

41,1562227

51,4085381

14

33

53,77742124

2,48202194

48,64211784

58,91272463

15

33

53,77742124

2,48202194

48,64211784

58,91272463

16

34

61,27246208

2,697872977

55,69056289

66,85436127

17

34

61,27246208

2,697872977

55,69056289

66,85436127

18

34

61,27246208

2,697872977

55,69056289

66,85436127

19

35

68,76750292

3,081033386

62,39284484

75,14216099

20

35

68,76750292

3,081033386

62,39284484

75,14216099

21

36

76,26254376

3,578152777

68,85934566

83,66574185

22

37

83,7575846

4,148463607

75,17441339

92,3407558

23

37

83,7575846

4,148463607

75,17441339

92,3407558

24

38

91,25262544

4,765761822

81,39226423

101,1129866

25

38

91,25262544

4,765761822

81,39226423

101,1129866

Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.

12

Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.

По результатам корреляционного анализа мы выбрали в наибольшей меретесно связанные показатели Y (количество выпитого пива) и Х (температура).

Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = — 193,558+7,495x.

С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495 % от объема фляги).

Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и 0 и и1 ) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.

Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.

Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.