Статистический анализ средней продолжительности жизни в странах Африки
Курсовая работа, 06 Января 2013, автор: пользователь скрыл имя
Краткое описание
Целью данной работы является статистический анализ средней ожидаемой продолжительности жизни населения при рождении в странах Африки.
Задачи данной работы следующие:
Рассмотреть среднюю продолжительность жизни как объект статистического исследования
Выявить факторы, оказывающие воздействие на продолжительность жизни методами корреляционного анализа
Построить и проанализировать регресионную модель средней ожидаемой продолжительности жизни при рождении
Провести снижение признакового пространства методом компонентного анализа
Выявить группы однородных объектов методом кластерного анализа
Уточнить результаты полученной классификации с помощью дискриминантного анализа.
Содержание
Введение 1
1. Предварительный анализ данных 3
2. Проверка данных на нормальный закон распределения 6
3. Проверка данных на аномальные наблюдения и выбросы 8
4. Корреляционный анализ 10
5. Компонентный анализ 20
6. Кластерный анализ 25
7. Дискриминантный анализ 33
Заключение 40
Список использованной литературы: 45
Приложение 1 46
Приложение 2 49
Приложение 3 50
Приложение 4 54
Вложенные файлы: 1 файл
курсийн ажил МСМ1.docx
— 453.45 Кб (Скачать файл)Таблица 22
Сводка для модели
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
1 |
,488a |
,238 |
,203 |
7,01715 |
a. Predictors: (Constant), x4 |
||||
Таблица 23
Дисперсионный анализb
|
Model |
Sum of Squares |
df |
Mean Square |
F |
Sig. | |
1 |
Regression |
338,346 |
1 |
338,346 |
6,871 |
,016a |
|
Residual |
1083,289 |
22 |
49,240 |
|||
Total |
1421,635 |
23 |
||||
a. Predictors: (Constant), x4 |
||||||
b. Dependent Variable: y |
||||||
Таблица 24
Коэффициентыa
|
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. | ||
B |
Std. Error |
Beta | ||||
1 |
(Constant) |
63,926 |
5,967 |
10,713 |
,000 | |
x4 |
-,962 |
,367 |
-,488 |
-2,621 |
,016 | |
a. Dependent Variable: y |
||||||
Уравнение регрессии:
Ỹ=63,926 - 0,962X4
Fнабл=6,87,
Уравнение значимо Fнабл=6,87 > Fkp(a=0,05;n1=1;n2=22)=4,3. Значимы и коэффициенты уравнения, ½tj½>tkp(a=0,05;n=22)=2,07 для j=0,4. Множественный коэффициент детерминации свидетельствует, что 23,8% вариации Y (ожидаемая продолжительность жизни населения при рождении) объясняется вариацией коэффициентом смертности на 1000 жителей (X4) а 76,2% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель не адекватно отражает исследуемый процесс.
7. Дискриминантный анализ
При проведении дискриминантного анализа был использован пакет анализа данных SPSS. Анализ проводился как пошаговым методом, так и методом принудительного включения. Результаты пошагового метода представлены в нижеприведенных таблицах.
Таблица 25
Групповые статистики
Cluster Number of Case |
Mean |
Std. Deviation |
Valid N (listwise) | ||
Unweighted |
Weighted | ||||
1 |
x3 |
6,0357 |
,87934 |
14 |
14,000 |
x4 |
17,3571 |
3,60784 |
14 |
14,000 | |
x5 |
1,0700E2 |
19,75231 |
14 |
14,000 | |
x6 |
2,5214E2 |
96,49062 |
14 |
14,000 | |
x1 |
1,0039E3 |
284,44138 |
14 |
14,000 | |
x2 |
17,3714 |
11,01058 |
14 |
14,000 | |
y |
44,6279 |
7,26783 |
14 |
14,000 | |
2 |
x3 |
5,7208 |
,68650 |
24 |
24,000 |
x4 |
15,7917 |
3,98889 |
24 |
24,000 | |
x5 |
94,7500 |
26,54979 |
24 |
24,000 | |
x6 |
4,5125E2 |
227,90754 |
24 |
24,000 | |
x1 |
1,4196E2 |
141,35047 |
24 |
24,000 | |
x2 |
7,0121 |
6,42792 |
24 |
24,000 | |
y |
48,7417 |
7,86195 |
24 |
24,000 | |
Total |
x3 |
5,8368 |
,76703 |
38 |
38,000 |
x4 |
16,3684 |
3,87941 |
38 |
38,000 | |
x5 |
99,2632 |
24,72080 |
38 |
38,000 | |
x6 |
3,7789E2 |
212,21048 |
38 |
38,000 | |
x1 |
4,5950E2 |
467,30566 |
38 |
38,000 | |
x2 |
10,8287 |
9,69152 |
38 |
38,000 | |
y |
47,2261 |
7,81190 |
38 |
38,000 | |
В этой таблице отображаются средние значения как внутри кластеров, так и в целом и стандартные отклонения. Переходим к пошаговым статистикам (табл.26-28).
Таблица 26
Введенные/исключенные переменныеa,b,c,d
|
Step |
Entered |
Wilks' Lambda | |||||||
Statistic |
df1 |
df2 |
df3 |
Exact F | |||||
Statistic |
df1 |
df2 |
Sig. | ||||||
1 |
x1 |
,187 |
1 |
1 |
36,000 |
156,463 |
1 |
36,000 |
,000 |
At each step, the variable that minimizes the overall Wilks' Lambda is entered. |
|||||||||
a. Maximum number of steps is 14. |
|||||||||
b. Maximum significance of F to enter is .05. |
|||||||||
c. Minimum significance of F to remove is .10. |
|||||||||
d. F level, tolerance, or VIN insufficient for further computation. |
|||||||||
Таблица 27
Переменные в анализе
Step |
Tolerance |
Sig. of F to Remove | |
1 |
x1 |
1,000 |
,000 |
Таблица 28
Переменные, не включенные в анализ.
Step |
Tolerance |
Min. Tolerance |
Sig. of F to Enter |
Wilks' Lambda | |
0 |
x3 |
1,000 |
1,000 |
,227 |
,960 |
x4 |
1,000 |
1,000 |
,235 |
,961 | |
x5 |
1,000 |
1,000 |
,143 |
,941 | |
x6 |
1,000 |
1,000 |
,004 |
,790 | |
x1 |
1,000 |
1,000 |
,000 |
,187 | |
x2 |
1,000 |
1,000 |
,001 |
,727 | |
y |
1,000 |
1,000 |
,119 |
,934 | |
1 |
x3 |
,943 |
,943 |
,447 |
,184 |
x4 |
,990 |
,990 |
,991 |
,187 | |
x5 |
,999 |
,999 |
,643 |
,186 | |
x6 |
,997 |
,997 |
,113 |
,174 | |
x2 |
,912 |
,912 |
,987 |
,187 | |
y |
,997 |
,997 |
,339 |
,182 | |
Таким образом, значимыми для разделения по кластерам оказались лишь один результативный признак - X1 (территория). И действительно, при кластерном анализе именно этот признак являлся одним из основных, различающих объекты в кластерах. Переходим к каноническим дискриминантным функциям (таблицы 29-33).
Таблица 29
Собственные значения
Function |
Eigenvalue |
% of Variance |
Cumulative % |
Canonical Correlation |
1 |
4,346a |
100,0 |
100,0 |
,902 |
a. First 1 canonical discriminant functions were used in the analysis. | ||||
Таблица 30
Лямбда Уилкса
Test of Function(s) |
Wilks' Lambda |
Chi-square |
df |
Sig. |
1 |
,187 |
59,512 |
1 |
,000 |
Таблица 31
Нормированные коэффициенты канонической дискриминантной функции
Function | |
1 | |
x1 |
1,000 |
В таблице 31 показан нормированный коэффициент канонической дискриминантной функции, по которому можно определить относительный вклада каждой переменной в значение дискриминантной функции с учетом влияния остальных переменных. Таким образом, в функции преобладает влияние показателя Х1.
Таблица32
Структурная матрица
Function | |
1 | |
x1 |
1,000 |
x2a |
,297 |
x3a |
,238 |
x4a |
,099 |
x6a |
,057 |
ya |
,054 |
x5a |
,032 |
a. This variable not used in the analysis. | |
В таблице 32 показаны объединенные внутригрупповые корреляции между дискриминантными переменными и нормированными каноническими дискриминантными функциями.
Таблица 33
Коэффициенты канонической дискриминантрой функции
Function | |
1 | |
x1 |
,005 |
(Constant) |
-2,243 |
Unstandardized coefficients | |
Из таблицы 33 получаем функцию, которая выглядит следующим образом:
d = -2,243 + 0,005X1
После этого проводим анализ
методом принудительного
Таблица 32
Лямбда Уилкса
Test of Function(s) |
Wilks' Lambda |
Chi-square |
df |
Sig. |
1 |
,150 |
61,554 |
7 |
,000 |
Таблица 33
Коэффициенты канонической дискриминантрой функции
Function | |
1 | |
x3 |
,501 |
x4 |
,046 |
x5 |
-,003 |
x6 |
,003 |
x1 |
-,005 |
x2 |
,018 |
y |
,032 |
(Constant) |
-3,764 |
Unstandardized coefficients | |
По таблице 33 делаем вывод, что функция имеет следующий вид:
d = -3,764 - 0,005Х1 + 0,018Х2 + 0,501Х3 + 0,046Х4 – 0,003Х5 + 0,003Х6
Таблица 34 показывает некоторые изменения в структурной матрице по сравнению с пошаговым методом.
Таблица 34
Структурная матрица
Function | |
1 | |
x1 |
-,877 |
x2 |
-,258 |
x6 |
,217 |
y |
,112 |
x5 |
-,105 |
x3 |
-,086 |
x4 |
-,085 |
Таблица 35
Нормированные коэффициенты канонической дискриминантной функции
Function | |
1 | |
x3 |
,382 |
x4 |
,177 |
x5 |
-,062 |
x6 |
,518 |
x1 |
-1,070 |
x2 |
,148 |
y |
,248 |
Как и в пошаговом методе в функции преобладает влияние показателя Х1, что видно в таблице 35.