Корреляционно-регрессионный анализ сельскохозяйственных культур (на данных статистики Республики Казахстан)
Практическая работа, 15 Июня 2012, автор: пользователь скрыл имя
Краткое описание
Целью нашего исследования является анализ статистических данных за последние 20 лет и прогнозирование данных урожайности сельскохозяйственных культур в РК на ближайшие годы. Задача состоит в проведении корреляционно-регрессионного анализа, на основе которого можно будет определить тесноту связи между факторами, а также выявить является ли модель адекватной.
Содержание
1. Постановка задачи
2. Формирование факторов и их содержательный анализ
3. Установление тесноты связи факторов модели регрессии
4. Выбор вида модели регрессии
5. Определение параметров модели регрессии
6. Проверка адекватности модели регрессии
7. Проверка значимости параметров модели регрессии
8. Прогнозирование значений зависимой переменной
9. Регрессионный анализ в Excel
1. Постановка задачи
2. Формирование факторов и их содержательный анализ
3. Установление тесноты связи факторов модели регрессии
4. Выбор вида модели регрессии
5. Определение параметров модели регрессии
6. Проверка адекватности модели регрессии
7. Проверка значимости параметров модели регрессии
8. Прогнозирование значений зависимой переменной
9. Регрессионный анализ в Excel
Вложенные файлы: 1 файл
ПРОЕКТ.docx
— 118.88 Кб (Скачать файл) Отсюда
a=-62,3795377; b=2,260645466 è y=-62,379+2,2606x
- Проверка адекватности модели регрессии
Проверка состоит в оценке трех параметров:
- Проверка качества подбора теоретического уравнения проводится с использованием средней ошибки аппроксимации. Средняя ошибка аппроксимации регрессии определяется по формуле:
Аср= (∑Аi)/n
Ошибка аппроксимации в пределах 6-8% свидетельствует о хорошем подборе модели к исходным данным.
Аср=2,69481/21=0,1284 *100%=12,84 → превышает пределы
- Проверка качества уравнения регрессии – состоит в проверке гипотезы Н˚ о статистической значимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфак и критического Fтабл значений F –критерия Фишера. Fфак определяется из соотношения:
Значение F вычисляемое по формуле сравнивают с критическим значением. Если Fф>Fкр, то нулевая гипотеза о случайной природе зависимости отклоняется и признается их статистическая значимость и надежность модели регрессии.
Fтабл=4,32 < Fфакт=43,114 – модель надежна
3)Для
оценки адекватности модели
t=
Значение t вычисляемое по формуле сравнивают с критическим значением. Если tф>tкр, то нулевая гипотеза о случайной природе зависимости отклоняется и признается их статистическая значимость и надежность модели регрессии.
tтабл=2.0796 < tфакт=6,57
Уравнение регрессии является адекватным, т.е. полученное уравнение достоверно описывает количественную зависимость факторов у и х.
Если
модель удовлетворяет всем требованиям
качества, то она может быть использована
для прогнозирования или
- Проверка значимости параметров модели регрессии
В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. Для этого по каждому параметру определяется стандартная ошибка ma и mb:
Подставляя данные из нашей таблицы, получаем:
Проверка статистической значимости параметров модели регрессии по критерию Стьюдента проводится по следующим формулам:
Отсюда получаем:
Значение t, вычисляемое по формуле, сравниваем с критическим значением: tfact = 6,56 > tkr = 2,07 è параметры а и b являются статистически значимыми и фактор х оказывает существенное влияние на у.
Необходимо выяснить, согласуются ли абсолютные значения параметров а и b. При это особенно важно соответствие знаков параметров.
Вычислим
доверительные интервалы
- Определим предельную ошибку для каждого параметра.
- Вычисляем доверительные интервалы:
- Параметры а и b находятся в интервалах:
Поскольку
параметр b имеет четкую экономическую
интерпретацию, то доверительные границы
интервала не должны содержать противоречивых
результатов, то есть положительные и
отрицательные значения одновременно.
В нашем случае параметр b находится между
положительными интервалами, а значит,
модель на этом не заканчивается.
- Прогнозирование значения зависимой переменной у
Полученные уравнения регрессии находят практическое применение в прогностическом анализе. Прогноз получают путем постановки в регрессию с численно оцененными параметрами значений факторов.
Прогнозное
значение Упрог определяется путем
подстановки в уравнение
Средняя стандартная ошибка прогноза вычисляется по формуле:
и доверительный интервал прогноза
При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей, исходя из конкретной ситуации, а также из анализа динамики данного фактора.
Упрог 2011=-12,646
Упрог 2012=-10,385
Доверительные интервалы на 2011:
Таким образом, Упрог будет находится в интервале [-87,37; 62,03]
Доверительные интервалы на 2012 год:
Упрог
за 2012 год будет находится в
этом промежутке [-84,55; 63,78]
- Регрессионный анализ в Excel
Регрессионный анализ выполняется на компьютере с помощью ППП Excel, анализ выполняется очень легко и быстро. Для него нужно выполнить следующие шаги:
- В главном меню выбираем последовательно пункты:
Меню→Данные→Анализ данных→Корреляция→ОК
- Заполняем диалоговое окно ввода данных и параметров вывода
Входной интервал; выделить все столбцы, содержащие значение Х и У;
Выходной интервал; выделить область пустой ячейки для вывода результатов.
Excel представит таблицу коэффициентов парной корреляции между У и Х.
| Столбец 1 | Столбец 2 | |
| Столбец 1 | 1 | |
| Столбец 2 | 0,833130196 | 1 |
Эта таблица показывает коэффициент корреляции между У и Х =0.833.
- Для вычисления параметров уравнения регрессии используем инструмент анализа данных Регрессия
Алгоритм выполнения следующий: Меню→Данные→Анализ данных→Регрессия→ОК
Входной интервал У: выделить столбец содержащий значение У;
Входной интервал Х: выделить столбец содержащий значение Х;
Выходной интервал: выделите область пустых ячеек для вывода результатов.
Остатки; установить флажок.
Появились 3 таблицы.
- Таблица регрессионной статистики
| Регрессионная статистика | |
| Множественный R | 0,833130196 |
| R-квадрат | 0,694105923 |
| Нормированный R-квадрат | 0,678006235 |
| Стандартная ошибка | 24,75009609 |
| Наблюдения | 21 |
- Дисперсионный анализ
| df | SS | MS | F | Значимость F | |
| Регрессия | 1 | 26409,61451 | 26409,61451 | 43,11300389 | 2,75642E-06 |
| Остаток | 19 | 11638,77787 | 612,5672564 | ||
| Итого | 20 | 38048,39238 |
- Таблица параметров уравнения регрессии
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
| Y-пересечение | -62,37902129 | 33,46615312 | -1,863943581 | 0,077857757 | -132,4244848 | 7,666442188 |
| Переменная X 1 | 2,260640083 | 0,344292278 | 6,566049337 | 2,75642E-06 | 1,540028064 | 2,981252102 |
По результатам запишем уравнение регрессии. У=-62,379+2,260х
Доверительные интервалы:
-132,425<а<7,666
Заключение
Проведя
корреляционно-регрессионный
– Количество собранного урожая зависит от размеров посевной площади, чем больше посевная площадь, тем больше урожай. Исходя из этого у нас: посевная площадь - это факторный признак Х, урожайность –результативный признак У.
– В ходе исследования мы выявили, что теснота связи этих факторов тесная и положительная, так как r=0,83313.
– Далее, построив график, мы увидели, что зависимость урожайности (У) от посевной площади (Х) характеризуется линейной функцией у=а+вх. На графике видно что урожайность имеет тенденцию роста.
– Затем, определяем параметры модели регрессии. Они равны: а=-62,379 и в=2,260 → отсюда уравнение регрессии имеет вид: у=-62,379+2,260*х. Значение параметра b говорит о том, что при увеличении площади посева на 1 гектар, урожайность повысится на 2,260 центнеров.
– Затем мы проверили модель регрессии на адекватность при помощи:
- Средней ошибки аппроксимации: А=12,84 → превышает 6-8%.
- F-критерия Фишера: F=43.114 → Fтабл<Fфакт
- t-критерий Стьюдента: t= 6,567 → tтабл< tфакт
Отсюда следует, что модель регрессии надежна и уравнение регрессии является адекватным. Т. е. полученное уравнение достоверно описывает количественную зависимость факторов у и х.
– Для того чтобы проверить значимость параметров модели регрессии, мы определили стандартные ошибки: ,
– Нашли статистическую значимость параметров модели регрессии:
,
– Затем нашли доверительные интервалы параметров регрессии: -132,425<а<7,667 и 1,540<в<2,982
– Мы также составили прогноз значений зависимой переменной у на 2 года вперед
Посмотрев
на прогнозные значения, можно сделать
вывод, что через год, т.е. в 2011 году,
урожайность