Анализ данных житлового фонду України у 1990-2009 роках
Курсовая работа, 11 Июня 2013, автор: пользователь скрыл имя
Краткое описание
Метою роботи є побудова регресійної моделі для аналізу даних житлового фонду України у 1990-2009 роках.
Дані взяті з офіційного сайту Держкомстату України http://ukrstat.gov.ua/
Перша частина присвячена побудові простої лінійної регресійної моделі та перевірці її на адекватність та значущість одержаних значень b0 та b1.
Друга частина присвячена побудові багатовимірної лінійної регресійної моделі та перевірці її на мультиколінеарність, адекватність, значущість одержаних коефіцієнтів bі та гомоскедастичність.
Содержание
1) Вступ 3
2) Постановка задачі та початкові дані 4
1) Дано: 4
2) Потрібно: 4
3) Розв’язок 6
І) Побудова та перевірка простої лінійної регресійної моделі: 6
1) Побудова простої лінійної регресійної моделі: 6
2) Побудова графіку простої лінійної регресійної моделі: 7
3) Знаходження коефіцієнтів кореляції: 8
4) Перевірка регресійної модель на адекватність: 8
5) Знаходження дисперсії для значень b0 та b1: 9
6) Перевірка значущості одержаних значень b0 та b1: 9
7) Побудова інтервалів довіри для β0 та β1: 10
8) Побудова інтервалів довіри для прогнозованих значень: 11
II) Побудова та перевірка багатовимірної регресійної моделі: 12
1) Аналіз та вибір факторів: 12
2) Математично-статистичний аналіз на мультиколінеарність: 12
3) Оцінка невідомих параметрів b0…bm.: 13
4) Перевірка на адекватність за допомогою критерія Фішера: 14
5) Побудова множинного коефіцієнта кореляції: 15
6) Побудова варіаційно-коваріаційної матриці параметрів: 16
7) Перевірка значущості коефіцієнтів bi: 17
8) Побудова інтервалів довіри для знайдених параметрів bi : 18
9) Побудова інтервалів довіри: 18
Побудова довірчого інтервалу для індивідуального значення yn+k: 19
Побудова довірчого інтервалу для математичного сподівання yn+k: 19
10) Перевірка наявності мультиколінеарності методом Фаррара-Глобера: 20
11) Побудова t–статистики факторів і визначення мультиколінеарності: 21
12) Оцінка наявності гетероскедастичності 23
4) Висновки 29
5) Використана література 31
Вложенные файлы: 1 файл
Курсовая_Обласова.docx
— 302.11 Кб (Скачать файл)Міністерство науки та освіти України
Дніпропетровський національний університет ім. О.Гончара
Факультет прикладної математики
Кафедра комп’ютерних технологій
Курсова робота
з курсу "Аналіз даних"
Виконала:
студентка групи ПК-08-2
Обласова М.В.
Перевірив:
Бердник М.Г.
Варіант № 11
2010 р.
Зміст
1) Вступ 3
2) Постановка задачі та початкові дані 4
1) Дано: 4
2) Потрібно: 4
3) Розв’язок 6
І) Побудова та перевірка простої лінійної регресійної моделі: 6
1) Побудова простої лінійної регресійної моделі: 6
2) Побудова графіку простої лінійної регресійної моделі: 7
3) Знаходження коефіцієнтів кореляції: 8
4) Перевірка регресійної модель на адекватність: 8
5) Знаходження дисперсії для значень b0 та b1: 9
6) Перевірка значущості одержаних значень b0 та b1: 9
7) Побудова інтервалів довіри для β0 та β1: 10
8) Побудова інтервалів довіри для прогнозованих значень: 11
II) Побудова та перевірка
багатовимірної регресійної
1) Аналіз та вибір факторів: 12
2) Математично-статистичний аналіз на мультиколінеарність: 12
3) Оцінка невідомих параметрів b0…bm.: 13
4) Перевірка на адекватність за допомогою критерія Фішера: 14
5) Побудова множинного коефіцієнта кореляції: 15
6) Побудова варіаційно-коваріаційної матриці параметрів: 16
7) Перевірка значущості коефіцієнтів bi: 17
8) Побудова інтервалів довіри для знайдених параметрів bi : 18
9) Побудова інтервалів довіри: 18
- Побудова довірчого інтервалу для індивідуального значення yn+k: 19
- Побудова довірчого інтервалу для математичного сподівання yn+k: 19
10) Перевірка наявності мультиколінеарності методом Фаррара-Глобера: 20
11) Побудова t–статистики факторів і визначення мультиколінеарності: 21
12) Оцінка наявності гетероскедастичності 23
4) Висновки 29
5) Використана література 31
Вступ
Метою роботи є побудова регресійної моделі для аналізу даних житлового фонду України у 1990-2009 роках.
Дані взяті з офіційного сайту Держкомстату України http://ukrstat.gov.ua/
Перша частина присвячена побудові простої лінійної регресійної моделі та перевірці її на адекватність та значущість одержаних значень b0 та b1.
Друга частина присвячена побудові багатовимірної лінійної регресійної моделі та перевірці її на мультиколінеарність, адекватність, значущість одержаних коефіцієнтів bі та гомоскедастичність.
Актуальність даної теми обумовлена можливістю застосування отриманих результатів для подальших спостережень.
Постановка задачі та початкові дані
- Дано:
З Держкомстату України отримана інформація, що характеризує житловий фонд України у 1990-2009 роках.
Житловий фонд України
Весь житловий фонд, загальної площі, млн.м2 |
У середньому на одного жителя, м2 |
Кількість квартир, усього, тис. |
Кількість сімей та одинаків, які перебували на квартирному обліку на кінець року, тис. |
Кількість сімей та одинаків, які одержали житло протягом року, тис. | |||||
всього |
з них: | ||||||||
1-кімнатних |
2-кімнатних |
3-кімнатних |
чотири- і більше кімнатних | ||||||
1990 |
922,1 |
235 | |||||||
1991 |
932,7 |
179 | |||||||
1992 |
944,7 |
166 | |||||||
1993 |
960,6 |
144 | |||||||
1994 |
962,9 |
104 | |||||||
1995 |
978,3 |
19,2 |
18303 |
3557 |
6766 |
6199 |
1781 |
2411 |
82 |
1996 |
995,2 |
19,7 |
18565 |
3633 |
6930 |
6190 |
1812 |
2297 |
56 |
1997 |
1002,6 |
20,0 |
18784 |
3662 |
7010 |
6262 |
1850 |
2164 |
47 |
1998 |
1008,4 |
20,2 |
18858 |
3675 |
7027 |
6278 |
1878 |
2029 |
37 |
2000 |
1015,0 |
20,7 |
18921 |
3677 |
7046 |
6299 |
1899 |
1765 |
32 |
2001 |
1026,13 |
21,0 |
18960 |
3676 |
7063 |
6301 |
1920 |
1624 |
29 |
2002 |
1031,7 |
21,3 |
19023 |
3692 |
7098 |
6303 |
1930 |
1533 |
25 |
2003 |
1035,7 |
21,6 |
19049 |
3702 |
7106 |
6303 |
1938 |
1460 |
25 |
2004 |
1040,0 |
21,8 |
19075 |
3699 |
7118 |
6308 |
1950 |
1414 |
23 |
2005 |
1046,4 |
22,0 |
19132 |
3697 |
7132 |
6331 |
1967 |
1323 |
20 |
2006 |
1049,2 |
22,2 |
19107 |
3688 |
7112 |
6313 |
1987 |
1300 |
20 |
2007 |
1057,6 |
22,5 |
19183 |
3693 |
7127 |
6339 |
2006 |
1252 |
17 |
2008 |
1066,6 |
22,8 |
19255 |
3705 |
7145 |
6352 |
2025 |
1216 |
17 |
2009 |
1072,2 |
23,0 |
19288 |
3709 |
7154 |
6358 |
2039 |
1174 |
11 |
- Потрібно:
І) Побудова та перевірка простої лінійної регресійної моделі:
- Для отриманих даних побудувати просту лінійну регресійну модель між х та у;
- Побудувати графік отриманої моделі, і на цьому графіку нанести точки спостереження;
- Знайти коефіцієнт кореляції. Зробити висновок про адекватність;
- Перевірити регресійну модель на адекватність за допомогою критерію Фішера;
- Знайти значення дисперсії для b0 та b1;
- Перевірити значущість b0 та b1 за допомогою критерія Стьюдента;
- Побудувати інтервали довіри для β0 та β1;
- Побудувати інтервали довіри для двох прогнозованих значень:
xn+1 = ͞ + 0,5;
xn+2 – довільне.
IІ) Побудова та перевірка багатофакторної лінійної регресійної моделі:
- Зробити аналіз і вибрати фактори для багатофакторної лінійної регресійної моделі;
- Зробити математично – статистичний аналіз на мультиколінеарність. Результати цього аналізу сформулювати в багатофакторну лінійну регресійну модель;
- Зробити оцінку невідомих параметрів b0…bm;
- Перевірити на адекватність побудовану багатофакторну лінійну регресійну модель за допомогою F– критерію Фішера;
- Побудувати множинний коефіцієнт кореляції. І зробити висновок наскільки знайдені данні відповідають фактичним даним;
- Побудувати варіаційно-коваріаційну матрицю параметрів багатофакторної регресійної моделі;
- Перевірити значущість коефіцієнтів побудованої багатофакторної регресії;
- Побудувати інтервали довіри для знайдених параметрів ;
- Знайти деяке прогнозне значення і побудувати інтервали довіри для індивідуального значення прогнозного і для його математичного сподівання;
- Перевірити присутність загальної мультиколінеарності серед випадкових величин, використовуючи тест Фаррара-Глобера;
- Побудувати t-статистику для всіх факторів і визначити мультиколінеарність між цими факторами;
- За допомогою теста Гольдфельда-Квандта оцінити наявність гетероскедастичності.
За отриманими даними зробити висновки.
Розв’язок
І) Побудова та перевірка простої лінійної регресійної моделі:
- Побудова простої лінійної регресійної моделі:
Кількість сімей та одинаків, які одержали житло протягом року, тис. |
Весь житловий фонд, загальної площі, млн.м2 |
|||
хi |
yi |
xi2 |
xiyi | |
|
1990 |
235 |
922,1 |
55 225 |
216 693,5 |
1991 |
179 |
932,7 |
32 041 |
166 953,3 |
1992 |
166 |
944,7 |
27 556 |
156 820,2 |
1993 |
144 |
960,6 |
20 736 |
138 326,4 |
1994 |
104 |
962,9 |
10 816 |
100 141,6 |
1995 |
82 |
978,3 |
6 724 |
80 220,6 |
1996 |
56 |
995,2 |
3 136 |
55 731,2 |
1997 |
47 |
1 002,6 |
2 209 |
47 122,2 |
1998 |
37 |
1 008,4 |
1 369 |
37 310,8 |
2000 |
32 |
1 015,0 |
1 024 |
32 480,0 |
2001 |
29 |
1 026,1 |
841 |
29 756,9 |
2002 |
25 |
1 031,7 |
625 |
25 792,5 |
2003 |
25 |
1 035,7 |
625 |
25 892,5 |
2004 |
23 |
1 040,0 |
529 |
23 920,0 |
2005 |
20 |
1 046,4 |
400 |
20 928,0 |
2006 |
20 |
1 049,2 |
400 |
20 984,0 |
2007 |
17 |
1 057,6 |
289 |
17 979,2 |
2008 |
17 |
1 066,6 |
289 |
18 132,2 |
2009 |
11 |
1 072,2 |
121 |
11 794,2 |
∑/n |
66,8 |
1 007,8 |
8 681,8 |
64 577,9 |
Рівняння лінійної регресії має вигляд:
ŷ = b0 + b1x , де
Підставимо значення з таблиці:
Таким чином, рівняння лінійної регресії має вигляд:
ŷ = 1 051,21 – 0,65х
- Побудова графіку простої лінійної регресійної моделі:
- Знаходження коефіцієнтів кореляції:
Коефіцієнт кореляції обчислюється за формулою:
де:
var(x) – дисперсія величини x;
var(y) – дисперсія величини y;
cov(y,x) = –2731,87
var(x) = 4221,01
var(y) = 2017,28
|rxy| > 0,9
На основі отриманого значення коефіцієнту
кореляції можна зробити
- Перевірка регресійної модель на адекватність за допомогою критерія Фішера:
Регресійна модель для отриманих даних має вигляд:
Для застосування критерія Фішера необхідно:
1. Обчислити розрахункове число Фішера F1,n–2;
F1,17 = 121,65
2. Задати коефіцієнт значущості α;
3. Якщо F1,n-2 > Fкр(α; n – 2) , то дана регресійна модель адекватна спостереженим даним.
Перевіримо модель на адекватність:
- Коефіцієнт значущості α = 0,05:
Fкр(0,05; 17) = 4,45
F1,17 > Fкр(0,05; 17)
Модель є адекватною спостереженим даним на рівні значущості 5%.
- Коефіцієнт значущості α = 0,01:
Fкр(0,01; 17) = 8,4
F1,17 > Fкр(0,01; 17)
Модель є адекватною спостереженим даним на рівні значущості 1%.
- Знаходження дисперсії для значень b0 та b1:
Дисперсія значень b0 та b1обчислюється за формулами:
де:
- Перевірка значущості одержаних значень b0 та b1 за допомогою критерія Стьюдента:
Щоб визначити значущість одержаних значень b0 та b1 за допомогою критерія Стьюдента необхідно:
- Обчислити розрахункове
, i = 0, 1; де:
2. Задати рівень значущості α і, користуючись таблицею критичних точок розподілу Стьюдента знайти теоретичне значення розподілу Стьюдента, t(α/2;n–2)