Парная регрессия и корреляция

Автор работы: Пользователь скрыл имя, 22 Января 2014 в 10:19, контрольная работа

Краткое описание

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.
Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.

Скачать в ZIP архиве (434.39 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

Эконометрика 327з.doc

— 2.23 Мб (Скачать файл)

Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется нормальной линейной регрессионной (Classical Normal Regression model).

В матричной форме нормальная (классическая) регрессионная, модель имеет вид:

, (28)

где Y – случайный вектор-столбец размерности (n´1) наблюдаемых значений результативного признака; X – матрица размерности (n´(m+1)) наблюдаемых значений факторных признаков. Добавление 1 к общему числу факторов т учитывает свободный член b₀ в уравнении регрессии. Значения фактора х₀ для свободного члена принято считать равным единице; b – вектор-столбец размерности ((т+1)´1) неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); e – случайный вектор-столбец размерности (n´1) ошибок наблюдений.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

1. Они должны быть количественно измеримы. Если не обходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов).

2. Каждый фактор должен быть достаточно тесно связан с результатом (т. е. коэффициент парной линейной корреляции между фактором и результатом должен существенно отличаться от нуля).

3. Факторы не должны сильно коррелировать друг с другом, тем более находиться в строгой функциональной связи (т. е. они не должны быть интеркоррелированны).

2.2. Традиционный метод наименьших квадратов
для многомерной регрессии (OLS)

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии модели или вектора b.

Оценка параметров многомерной модели, как и в случае парной регрессии, осуществляется обычно традиционным методом наименьших квадратов (МНК). Согласно данному методу, в качестве оценки вектора b₁ принимают вектор b, который минимизирует сумму квадратов отклонений наблюдаемых значений y_i от рассчитанных по модели .

В матричной форме функционал S будет записан так:

(29)

МНК-оценки в матричной форме находят по формулам:

, где . (30)

Оценим с помощью МНК параметры линейной двухфакторной модели: , i=1; n. Для этого минимизируем функционал:

(31)

Функционал S является функцией трех переменных b₀, b₁, b₂. Чтобы найти экстремум функции нескольких переменных, нужно взять ее частные производные по этим переменным и приравнять их нулю:

, , .

Получим следующую систему нормальных линейных уравнений:

(32)

Параметры этой системы могут быть найдены, например, методом К. Гаусса, либо методом итераций.

Для сравнения влияния на зависимую переменную различных объясняющих переменных используют стандартизированные коэффициенты регрессии и коэффициенты эластичности E_j (j = 1, 2, …, n):

; . (33)

Стандартизированный коэффициент регрессии показывает, на сколько величин S_y изменится в среднем зависимая переменная у при увеличении только j-й объясняющей переменной на S_xj. Коэффициент эластичности E_j показывает, на сколько процентов (от средней) изменится в среднем у при увеличении только х_j на 1%.

2.3. Парный, частный и множественный коэффициент корреляции

Выполним корреляционный анализ множественной модели. Для этого рассчитаем матрицу выборочных парных коэффициентов корреляции, используя формулу (12). Для модели, в которой используются две факторные переменные, матрица выборочных коэффициентов имеет вид:

. (34)

Во множественных моделях необходимо проверить модель на мультиколлинеарность. Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Один из подходов выявления мультиколлинеарности является анализ матрицы парных коэффициентов корреляции и выявление пар факторов, имеющих высокие коэффициенты корреляции.

Показатели парной корреляции – r_yx характеризуют тесноту связи результата и фактора, не принимая во внимание возможного влияния на результат других факторных признаков. Поэтому во множественном регрессионном анализе возникает проблема определения тесноты связи между двумя признаками в чистом виде, т.е. при устранении воздействия других факторов. Нам под силу исключить влияние только учтенных в модели факторов.

Показателем «чистого» влияния фактора на результат при устранении влияния прочих факторов, включенных в модель регрессии, является частный коэффициент корреляции или частный индекс корреляции (в зависимости от формы связи).

Частные коэффициенты корреляции для двухфакторной модели рассчитываются по формуле.

; (35)

. (36)

Коэффициент множественной корреляции вычисляют по формуле:

(37)

Оценку адекватности множественной модели производим по формулам (18), (21).

3. Моделирование одномерных временных рядов

3.1. Основные понятия и определения

В современной экономике и в бизнесе без прогноза не обойтись. Любое серьезное решение, в особенности связанное с вложением денег, требует прогноза, предвидения развития экономической ситуации.

Имеется два подхода к прогнозированию. Первый – использование методов качественного прогнозирования. Эти методы применимы в тех ситуациях, когда данные за прошедшие периоды времени недоступны и/или ненадежны, например, при прогнозировании объема продаж совершенно нового товара, не существовавшего ранее на рынке. Второй подход – использование количественных методов. В этом случае данные за прошедшие периоды времени доступны для исследователя.

Информационной базой для анализа экономических процессов являются динамические и временные ряды. Совокупность наблюдений некоторого явления (показателя), упорядоченная в зависимости от последовательности значений другого явления (признака), называют динамическим рядом. Динамические ряды, у которых в качестве признака упорядочения используется время, называют временными.

В экономике и бизнесе временные ряды – это очень распространенный тип данных. Во временном ряде содержится информация об особенностях и закономерностях протекания процесса, а статистический анализ позволяет выявить закономерности и использовать их для оценки характеристик процесса в будущем, т.е. для прогнозирования.

Временной ряд – это набор чисел, привязанный к последовательным, обычно равноотстоящим моментам времени. Числа, составляющие временной ряд и получающиеся в результате наблюдения за ходом некоторого процесса, называются уровнями временного ряда, или элементами. Интервал между двумя последовательными моментами времени называют тактом (шагом, квантом). Под длиной временного ряда понимают количество входящих в него уровней n. Временной ряд обычно обозначают Y(t), или y_t, где t = 1, 2, … n.

Формально задача прогнозирования сводится к получению оценок значений ряда для некоторого периода будущего, т.е. к получению значения Y_{прогноз}(t), где t = n + 1, n + 2, … При использовании методов экстраполяции исходят из предположения о сохранении закономерностей прошлого развития на период прогнозирования. Во многих случаях (но не всегда!) при разработке оперативного (до года) и краткосрочного (до 2 лет) прогноза эти предположения являются справедливыми.

Статистические методы исследования исходят из предположения возможности представлять уровни временного ряда в виде суммы нескольких компонент, отражающих закономерность и случайность развития, в частности, в виде суммы четырех компонент:

Y(t) = f(t) + S(t) + U(t) + E(t), (38)

где f(t) – тренд (долговременная тенденция) развития;

S(t) – сезонная компонента;

U(t) – циклическая компонента;

E(t) – остаточная компонента.

В модели временного ряда принято выделять две основные составляющие: детерминированную (систематическую) и случайную. Под детерминированной составляющей временного ряда у₁, у₂, …, y_n понимают числовую последовательность, элементы которой вычисляются по определенному правилу как функция времени t. Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять случайные скачки, а в другом – плавное колебательное движение.

Детерминированная составляющая может содержать следующие структурные компоненты.

1. Тренд, или тенденция f(t), представляет собой устойчивую закономерность, наблюдаемую в течение длительного периода времени. В качестве примера таких факторов в экономике можно назвать:

а) изменение демографических характеристик популяции (численности, возрастной структуры);

б) технологическое и экономическое развитие;

в) рост потребления.

Обычно тренд (тенденция) описывается с помощью той или иной неслучайной функции F_тр(t) (аргументом которой является время), как правило, монотонной. Эту функцию называют функцией тренда, или просто – трендом.

2. Сезонная компонента S(t) связана с наличием факторов, действующих с заранее известной периодичностью. Это регулярные колебания, которые носят периодический или близкий к нему характер и заканчиваются в течение года. Типичные примеры сезонного эффекта: изменение загруженности автотрассы в течение суток, по дням недели, временам года, пик продаж товаров для школьников в конце августа – начале сентября. Сезонная компонента со временем может меняться либо иметь плавающий характер.

3. Циклическая компонента U(t) – неслучайная функция, описывающая длительные периоды (более одного года) относительного подъема и спада и состоящая из циклов переменной длительности и амплитуды. Примером циклической (конъюнктурной) компоненты являются волны Кондратьева, демографические «ямы» и т.п. Подобная компонента весьма характерна для рядов макроэкономических показателей. Здесь циклические изменения обусловлены взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т.п. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя • только из данных изучаемого ряда,

4. Случайная составляющая E(t) ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начиная от простейшей в виде «белого шума» до весьма сложных, описываемых моделями авторегрессии и скользящего среднего.

Основная цель статистического анализа временных рядов - изучение соотношения между закономерностью и случайностью в формировании значений уровней ряда, оценка количественной меры их влияния. Закономерности, объясняющие динамику показателя в прошлом, используются для прогнозирования его значений в будущем, а учет случайности позволяет определить вероятность отклонения от закономерного развития и его возможную величину.

3.2. Требования к исходной информации

Анализ временных рядов, отражающих развитие экономических процессов, начинается с оценки данных. Уровни исследуемого показателя обязательно должны быть сопоставимыми, однородными и устойчивыми, а их число должно быть достаточно велико.

Сопоставимость достигается в результате одинакового подхода к наблюдениям на разных этапах формирования динамического ряда.

Однородность данных означает отсутствие сильных изломов тенденций, а также аномальных (т.е. резко выделяющихся, нетипичных для данного ряда) наблюдений. Аномальные наблюдения проявляются в виде сильного изменения уровня – скачка или спада – с последующим приблизительным восстановлением предыдущего уровня. Наличие аномалии резко искажает результаты моделирования. Поэтому аномальные наблюдения необходимо исключить из временного ряда, заменив их расчетными значениями.

Устойчивость характеризуется преобладанием закономерности над случайностью в изменении уровней ряда. На графиках устойчивых временных рядов закономерность прослеживается визуально, на графиках неустойчивых рядов изменения последовательных уровней представляются хаотичными, и поэтому поиск закономерностей в формировании значений уровней таких рядов лишен смысла.

Требование полноты данных обусловливается тем, что закономерность может обнаружиться лишь при наличии минимально допустимого объема наблюдений.

3.3. Этапы построения прогноза по временным рядам

Экстраполяционное прогнозирование экономических процессов, представленных одномерными временными рядами, сводится к выполнению следующих основных этапов:

1) предварительный анализ данных;

2) построение моделей: формирование набора аппроксимирующих функций (кривых роста) и численное оценивание параметров моделей;

3) проверка адекватности моделей и оценка их точности;

4) выбор лучшей модели;

5) расчет точечного и интервального прогнозов.

На первом этапе производится:

выявление аномальных наблюдений;
проверка наличия тренда;
сглаживание временных рядов;
расчет показателей развития динамики экономических процессов.

Так как наличие аномальных наблюдений приводит к искажению результатов моделирования, то необходимо убедиться в отсутствии аномалий данных. В качестве примера аномалии может служить скачок курса доллара, зафиксированный в «черный вторник».

Следующая процедура этапа предварительного анализа данных – выявление наличия тенденций в развитии исследуемого показателя. Отметим, что тенденция прослеживается не только в увеличении или уменьшении среднего текущего значения временного ряда, но она присуща и другим его характеристикам: дисперсии, автокорреляции, корреляции с другими показателями и т.д. Тенденцию среднего визуально можно определить из графика исходных данных, а более точно – с помощью метода Фостера–Стьюарта, метода проверки существенности разности средних, подробное описание которых дано в работе.

Информация о работе Парная регрессия и корреляция