Парная регрессия и корреляция

Автор работы: Пользователь скрыл имя, 22 Января 2014 в 10:19, контрольная работа

Краткое описание

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.
Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.

Скачать в ZIP архиве (434.39 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

Эконометрика 327з.doc

— 2.23 Мб (Скачать файл)

1. Парная регрессия и корреляция

1.1. Оценка параметров, оценка адекватности модели

В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.

Рассмотрим линейную модель и представим ее в виде

= b₀ + b₁x. (1)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b₀, b₁) используя метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры b₀ и b₁ выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений y_i от значений , найденных по уравнению регрессии (1), была минимальной:

. (2)

На основании необходимого условия экстремума функции двух переменных S = S(b₀, b₁) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы на n, получим систему нормальных уравнений в следующем виде:

(3)

где соответствующие средние определяются по формулам:

; (4) ; (6)

; (5) . (7)

Решая систему (3), найдем

, (8)

где - выборочная дисперсия переменной х:

, (9)

- выборочный корреляционный момент или выборочная ковариация:

. (10)

Коэффициент b₁ называется выборочным коэффициентом регрессии Y по X.

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.

Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.

Если r > 0 (b₁ > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b₁ < 0), - обратной.

Формулы для расчета коэффициента корреляции имеют следующий вид:

; (11)

. (12)

Выборочный коэффициент корреляции обладает следующими свойствами:

1. Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.

2. При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной у будут в большей или меньшей мере отклоняться от функции регрессии j(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

у = j(х) + e,

где e - случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В модели y_i = b₀ + b₁x_i + e_i возмущение e_i есть величина случайная, а объясняющая переменная x_i – величина неслучайная.

2. Математическое ожидание возмущения e_i равно нулю:

M(e_i) = 0. (13)

3. Дисперсия возмущения e_i постоянна для любого i:

D(e_i) = s². (14)

4. Возмущения e_i и e_j не коррелированны:

M(e_i e_j) = 0 (i ¹ j). (15)

5. Возмущения e_i есть нормально распределенная случайная величина.

Оценкой модели y_i = b₀ + b₁x_i + e_i по выборке является уравнение регрессии = b₀ + b₁x. Параметры этого уравнения b₀ и b₁ определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии.

Теорема Гаусса-Маркова. Если регрессионная модель
y_i = b₀ + b₁x_i + e_i удовлетворяет предпосылкам 1-5, то оценки b₀, b₁ имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b₀ и b₁ в определенном смысле являются наиболее эффективными линейными оценками параметров b₀ и b₁.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

Нулевая гипотеза Н₀ – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Коэффициент регрессии (b₁) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н₀) о равенстве нулю коэффициента регрессии (Н₀:b₁ = 0) против альтернативной гипотезы (Н₁) о неравенстве нулю коэффициента регрессии (Н₁:b₁ ¹ 0). Для проверки гипотезы Н₀ против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n - 2) степенями свободы (парная линейная регрессия).

Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н₀), если t_набл > t_a_;_n_-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости. t_a_;_n_-2 - критическая точка, определяемая по математико-статистическим таблицам.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Согласно основной идее дисперсионного анализа

(16)

или

Q = Q_R + Q_e, (17)

где Q – общая сумма квадратов отклонений зависимой переменной от средней, а Q_R и Q_e – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты и s² (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют c²-распределение соответственно с т – 1 и п – т степенями свободы.

Таблица 1

Компоненты дисперсии	Сумма квадратов	Число степеней свободы	Средние квадраты
Объясненная		m – 1
Остаточная		n – m
Общая		n – 1

Поэтому уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

, (18)

где - табличное значение F-критерия Фишера-Снедекора, определяемое на уровне значимости a при k₁ = m – 1 и k₂ = n – m степенях свободы.

Учитывая смысл величин и s², можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне a (отвергается нулевая гипотеза), если

. (19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b₁, который имеет t-распределение Стьюдента с k = n – 2 степенями свободы.

Уравнение парной регрессии или коэффициент регрессии b₁ значимы на уровне a (иначе – гипотеза Н₀ о равенстве параметра b₁ нулю, т.е.
Н₀:b₁ = 0, отвергается), если фактически наблюдаемое значение статистики

(20)

больше критического (по абсолютной величине), т.е. |t| > t₁_-_a_;_n_-₂.

Коэффициент корреляции r значим на уровне a (Н₀: r = 0), если

. (21)

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:

. (22)

Величина R² показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R² = r².

1.2. Виды нелинейной регрессии. Оценка параметров модели.

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций, например равносторонней гиперболы: ; параболы второй степени: и др.

Различают два класса нелинейных регрессий:

относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
по оцениваемым параметрам.

Рассмотрим нелинейные регрессии по включаемым в нее объясняющим переменным, но линейные по оцениваемым параметрам.

Данный класс нелинейных регрессий включает уравнения, в которых у линейно связан с параметрами. Примером могут служить следующие функции.

1. Полиномы разных степеней. Например, полином k-й степени .

2. Равносторонняя гипербола – .

При оценке параметров регрессий нелинейных по объясняющим переменным используется подход, именуемый "замена переменных". Суть его состоит в замене "нелинейных" объясняющих переменных новыми "линейными" переменными и сведение нелинейной регрессии к линейной. К новой "преобразованной" регрессии может быть применен обычный метод наименьших квадратов (МНК).

Рассмотрим применение данного подхода к параболе второй степени: . Заменяя переменную х² на z, получим двухфакторное уравнение линейной регрессии: , для оценки параметров которого используется обычный МНК.

Среди нелинейной полиноминальной регрессии чаще всего используется парабола второй степени; в отдельных случаях - полином третьего порядка. Ограничение в использовании полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и, соответственно, менее однородна совокупность по результативному признаку.

Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу: . Она может быть использована, например, для характеристики связи удельных расходов сырья, материалов и топлива с объемом выпускаемой продукции.

Для оценки параметров равносторонней гиперболы используется тот же подход "замены переменных": заменив 1/х на z, получим линейное уравнение регрессии: , для которого может быть применен обычный МНК.

Регрессии нелинейные по оцениваемым параметрам. К данному классу регрессий относятся уравнения, в которых у нелинейно связан с параметрами. Примером таких нелинейных регрессий являются функции:

степенная – ;
показательная – ;
экспоненциальная – .

Данный класс нелинейных моделей подразделяется на два типа:

нелинейные модели внутренне линейные;
нелинейные модели внутренне нелинейные.

Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду (например, логарифмированием и заменой переменных). Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции.

Примером нелинейной по параметрам регрессии внутренне линейной является степенная функция, которая широко используется в эконометрических исследованиях при изучении спроса от цен:

где у – спрашиваемое количество;

х – цена;

e – случайная составляющая.

Данная модель нелинейна относительно оцениваемых параметров, так как включает параметры а и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию е приводит его к линейному виду: . Заменив переменные и параметры, получим линейную регрессию, оценки параметров которой а и b могут быть найдены МНК.

В рассматриваемой выше степенной функции предполагалось, что случайная составляющая u мультипликативно связана с объясняющей переменной х. Если же модель представить в виде , то она становится внутренне нелинейной, т. к. ее невозможно преобразовать к линейному виду.

Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей применяемого итеративного подхода.

Применение МНК для оценки параметров нелинейных моделей внутренне линейных. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. В таких моделях преобразованию подвергается результативный признак у, в отличие от нелинейных моделей 1-го типа, где результативный признак у остается неизменным, а преобразуется факторный признак.

Информация о работе Парная регрессия и корреляция