Корреляционно-регрессионный анализ в Excel: инструкция выполнения. Многофакторный регрессионный и корреляционный анализ линейный многофакторный

Многофакторный корреляционно - регрессионный анализ

Таблица 4. Исходные данные.

уровеньбезраб-цы

доходнасел-я

индексцен

индексВРП

Для анализа необходимо из нескольких факторов произвести предварительный отбор факторов для регрессионной модели. Сделаем это по итогам расчета коэффициента корреляции, т.е. возьмем те факторы, связь которых с результативным признаком будет выражена в большей степени. Рассмотрим следующие факторы:

Доход на душу населения - x 1 (%)

Индекс потребительских цен - x 2 (%)

Индекс ВРП - x 3 (%)

Рассчитаем коэффициент корреляции для линейной связи и для имеющихся факторов - x 1 , x 2 и x 3:

Для фактора x 1 получаем коэффициент корреляции: r 1 = 0,042

Для фактора x 2 получаем коэффициент корреляции: r 2 =0,437

Для фактора x 3 получаем коэффициент корреляции: r 3 =0,151

По полученным данным можно сделать вывод о том, что:

1)Связь между x 1 и y отсутствует, так как коэффициент корреляции меньше 0,15. Таким образом, возникает необходимость исключить данный фактор из дальнейших исследований.

2)Связь между x 2 и y прямая (так как коэффициент корреляции положительный) и умеренная, так как она находится между 0,41 и 0,50. Поэтому, будем использовать фактор в дальнейших расчётах.

3)Связь между x 3 и y прямая (так как коэффициент корреляции положительный) и слабая. Тем не менее, будем использовать фактор в дальнейших расчетах.

Таким образом, два наиболее влиятельных фактора - Индекс потребительских цен - x 2 и индекс ВРП - x 3 . Для имеющихся факторов x 2 и x 3 составим уравнение множественной регрессии.

Проверим факторы на мультиколлинеарность, для чего рассчитаем коэффициент корреляции r x2x3 . Подставив имеющиеся данные (из таблицы 10) в формулу, имеем следующее значение: r x2x3 =0,747. Полученный коэффициент говорит об очень высокой связи, поэтому дальнейший анализ по обоим факторам вестись не может. Однако в учебных целях продолжим анализ.

Проводим оценку существенности связи с помощью коэффициента множественной корреляции: R=0,512

Так как R < 0,8, то связь признаем не существенной, но, тем не менее, в учебных целях, проводим дальнейшее исследование.

Уравнение прямой имеет следующий вид: y = a + bx 1 + cx 3

Для определения параметров уравнения необходимо решить систему:

Решив систему, получим уравнение: Y=41,57-0,042 x 1 -0,183x 3

Для данного уравнения найдем ошибку аппроксимации:

А> 5%, то данную модель нельзя использовать на практике.

Проведем оценку параметров на типичность. Рассчитаем значения величин:

m a =0,886; m b =0,0003; m с =0,017;

t a =41,57/0,886=46,919; t b =-0,042/0,0003=-140; t c =-0,183/0,017=-10,77.

Сравним полученные выше значения t для б = 0,05 и числа степеней свободы (n-2) с теоретическим значением t-критерия Стьюдента, который t теор = 2,1788. Расчетные значения t b и t с < t теор, значит данные параметры не значимы и данное уравнение не используется для прогнозирования.

где: n - число уровней ряда; к - число параметров; R - коэффициент множественной корреляции.

После расчета получаем: F=1,41

Сравним F расч с F теор для числа степеней свободы U 1 = 9 и U 2 = 2, видим, что 1,41 < 19,40, то есть F расч < F теор - связь признаётся не существенной, то есть корреляция между факторами x 2 , x 3 и у не существенна.

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов.

Многофакторный корреляционный и регрессионный анализ позволяет оценить меру влияния на исследуемый результативный показатель каждого из включенных в модель (уравнение) факторов при фиксированном положении (на среднем уровне) остальных факторов. Он позволяет также при любых возможных сочетаниях факторов с определенной степенью точности найти теоретическое значение этого показателя (важным условием является отсутствие между факторами функциональной связи).

Математически задача формулируется следующим образом. Требуется найти аналитическое выражение, наилучшим образом отражающее установленную теоретическим анализом связь независимых признаков с результативным, т.е. функцию:

В условиях использования ЭВМ выбор аппроксимирующей математической функции осуществляется перебором решений, наиболее часто применяемых в анализе корреляции уравнений регрессии.

После выбора типа аппроксимирующей функции приступают к многофакторному корреляционному и регрессионному анализу, задачей которого является построение уравнения множественной регрессии и нахождение его неизвестных параметров.

Параметры уравнения множественной регрессии, как и в случае парной регрессии, находят по способу наименьших квадратов.

Для расчета параметров простейшего уравнения множественной линейной двухфакторной регрессии, которая имеет вид:

где _ расчетные значения зависимой переменной (результативного признака);

x 1, х 2 _ независимые переменные (факторные признаки);

a 0, a 1, a 2 _ параметры уравнения,

строится следующая система нормальных уравнений:

(8.5)

Параметры этой системы могут быть найдены методом К. Гаусса.

Парные коэффициенты корреляции применяются для измерения тесноты связи между двумя из рассматриваемых переменных (без учета их взаимодействия с другими переменными). Методика расчета таких коэффициентов и их интерпретация аналогичны методике расчета линейного коэффициента корреляции в случае однофакторной связи. Если известны средние квадратические отклонения анализируемых величин, то парные коэффициенты корреляции можно рассчитать проще, по следующим формулам:



(8.6)

(8.7)

. (8.8)

Частные коэффициенты корреляции. Однaкo в реальныx условиях все переменные, как правило, взaимoсвязaны. Тeснота этой связи определяется частными кoэффициентами корреляции, которые характеризуют степень и влияние одного из аргументов на функцию при условии, что остальные независимые переменные закреплены на постоянном уровне. В зависимости от количества переменных, влияние которых исключается, частные коэффициенты корреляции могут быть различного порядка: при исключении влияния одной переменной получаем частный коэффициент корреляции первого порядка; при исключении влияния двух переменных _ второго порядка и т.д. Парный коэффициент корреляции между функцией и аргументом обычно не равен соответствующему частному коэффициенту.

Частный коэффициент корреляции первого порядка между признаками x 1 и y при исключении влияния признака х 2 вычисляют по формуле:

(8.9)

Зависимость y от х 2 при исключенном влиянии x 1 рассчитывают по формуле:

(8.10)

(8.11)

где r _ парные коэффициенты корреляции между соответствующими признаками.

Показателем тесноты связи, устанавливаемой между результативными и двумя или более факторными признаками, является совокупный коэффициент множественной корреляции _ . В случае линейной двухфакторной связи совокупный коэффициент множественной корреляции может быть рассчитан по формуле:

(8.12)

где r _ линейные коэффициенты корреляции (парные); подстрочные индексы показывают, между какими признаками они исчисляются.

Совокупный коэффициент множественной корреляции измеряет одновременное влияние факторных признаков на результативный. Его значения находятся в пределах _1 до +1. Чем меньше наблюдаемые значения изучаемого показателя отклоняются от линии множественной регрессии, тем корреляционная связь является более интенсивной, а следовательно, значение R ближе к единице.

Совокупный коэффициент множественной детерминации. Величина R 2 называется совокупным коэффициентом множественной детерминации . Она показывает, какая доля вариации изучаемого показателя объясняется влиянием факторов, включенных в уравнение множественной регрессии. Значение совокупного коэффициента множественной детерминации находится в пределах от 0 до 1. Поэтому, чем ближе R 2 к единице, тем вариация изучаемого показателя в большей мере характеризуется влиянием отобранных факторов.

Динамические ряды

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://сайт

Многофакторная модель корреляционно-регрессионного ан а лиза

С помощью корреляционно-регрессионного анализа мы сможем определить динамику стоимости недвижимости, и влияние отдельных факторов на стоимость недвижимости, а так же установим, какие из этих факторов оказывают наибольшее влияние на стоимость недвижимости.

Система факторов всегда формируется на стадии логического анализа. Конкретное построение модели осуществляется на основе собранной исходной информации с количественными оценками факторов.

Показатели, включаемые в статистическую модель, должны быть качественно однородны, независимы друг от друга, достаточны по количеству измерителей для статистической обоснованности результатов регрессионного анализа. Количество измерений должно превосходить число факторов не менее чем в 2 раза.

Этапы выполнения работы:

1. Ввод исходных данных;

2. Расчет корреляционной матрицы;

3. Определить коллинеарность;

4. Определить параметры уравнения регрессии;

5. Анализ факторов по коэффициенту эластичности;

6. Оценка параметров уравнения регрессии;

7. Оценить значимость показателей тесноты связи r;

8. Оценка значимости коэффициента детерминации R 2 ;

9. Доверительные интервалы для коэффициентов уравнения регрессии;

10. Доверительные интервалы для средних значений факторных признаков;

11. Автокорреляция

Пример расчета

1. Ввод исходных данных

Систему функциональных показателей формируем на стадии логического анализа.

При построении многофакторной модели прогнозирования стоимости недвижимости, могут быть включены следующие факторы:

Результирующий признак: Y -стоимость недвижимости, $;

Факторные признаки:

Х 1 -стоимость одного квадратного метра объекта, $;

Х 2 - валютный курс;

Х 3 - уровень доходности населения, $;

Х 4 - социально-политическое положение, баллы;

Х 5 - инфраструктура, баллы;

Х 6 - состояние объекта, ремонт, баллы;

Х 7 - количество телефонов, штук;

Х 8 - количество телефонов

Так как для статистического анализа требуется ввести факторы за какой-то промежуток времени, то нами была составлена таблица данных факторов для нескольких наблюдений за 10 лет, которая представлена ниже:

2. Расчет корреляционной матрицы

Введем составленную матрицу в Excel. С помощью надстройки Анализ данных в меню Сервис рассчитаем корреляционную матрицу. Для этого в появившемся окне “Анализ данных” в поле “Инструменты анализа” активизируем строку “Корреляция”. В окне “Корреляция” введем входной интервал, выделяя с помощью мыши столбы и строки исходной таблицы, включая заголовки (за исключением столбца годы); установим флаг на “Метки в первой строке”; затем в поле “Выходной интервал” укажем левую верхнюю ячейку, начиная с которой должна появиться матрица результатов - корреляционная матрица.

Корреляционная матрица:

Корреляционная матрица - симметричная матрица, в которой относительно главной диагонали, на пересечении i-ой строки и j-го столбца, расположены коэффициенты парной корреляции между i-мы и j-ми факторами. По главной диагонали коэффициенты равны 1.

В последней строке корреляционной матрицы расположены коэффициенты парной корреляции между факторными и результирующим признаками.

Учитывая, что, при r < 0 связь обратная, при r > 0 - связь прямая.

Анализируя первый столбец корреляционной матрицы, отберем факторы, влияющие на результирующий признак.

Если коэффициент корреляции, то связь между i-ым фактором и результирующим признаком тесная, тогда этот фактор влияет на среднемесячную заработную плату и остается в модели. В соответствии с этим выпишем соответствующие коэффициенты корреляции:

Вывод: Анализ последней строчки корреляционной матрицы показывает, что факторы Х2 , Х4 , Х5 , Х6 , Х8 исключаются из модели, так как коэффициент корреляции, а для дальнейшего рассмотрения в данной модели остаются факторы Х1 , Х3 , Х7 .

3 . Определение колинеарности

Колинеарность - это зависимость факторных признаков между собой. Связь между факторными и результирующим признаками должна быть более тесная, чем связь между самими факторами, то есть для любой пары отобранных факторов должно выполнять отношение:

Если соотношения данной системы выполняются, то оба фактора остаются в модели. Если соотношения не выполняются, то один из факторов нужно исключить из модели. Обычно исключаются факторы с меньшим коэффициентом корреляции, зависимость которых с результирующим меньше. Но при удалении факторов в каждой конкретной задаче необходимо смотреть смысловое содержание факторов. Формальный подход не допустим.

Определяем колинеарность между факторами:

условие выполняется, оба фактора остаются в модели;

условие не выполняется, фактор Х 7 исключается, так как;

Вывод: Таким образом, в результате анализа, для составления прогнозируемой функции оставляем фактор Х 1 , Х 3 . Тогда уравнение регрессии приобретает следующий вид:

Y 0 + a 1 x 1 + a 2 x 3

4 . Определение параметров уравнения регрессии.

В рабочем поле Excel с помощью команды копирования создадим новую таблицу с исходными данными из оставшихся факторов и найдем средние значения по столбцам:

Для решения полученного уравнения регрессии после активизации сервисной программы Анализ данных в меню Сервис воспользуемся инструментом анализа - Регрессия. В данном диалоговом окне введем с помощью мыши входной интервал Y и X-ов; устанавим флаг на Метки; укажем начальную ячейку для выходного интервала и подтвердим начало расчета кнопкой ОК. В третьей из полученных таблиц ВЫВОДА ИТОГОВ найдем коэффициенты Y-пересечения и Х 1 , Х 3 и подставим полученные значения вместе со средними значениями Х-ов в уравнение регрессии:

Описательная статистика

Стандартная ошибка

Стандартное отклонение

Асимметричность

Интервал

Максимум

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

корреляционный регрессия матрица эластичность

Вывод:

1. Уравнение регресс имеет следующий вид:

2. Зависимость между стоимостью недвижимости (У) и стоимостью одного квадратного метра (Х 1), между стоимостью недвижимости (У) и уровнем доходности населения (Х 3), является более тесной, чем между стоимостью недвижимости и остальными факторами.

5 . Анализ факторов по коэффициенту эластичности

О значимости факторов нельзя судить по значению коэффициента регрессии. Анализ осуществляется по коэффициенту эластичности.

Коэффициент эластичности показывает, на сколько процентов изменяется резул ьтирующий признак при изменении факторного признака на 1%. Обычно берется 10%. Знак коэффициента эластичности всегда совпадает со знаком коэффициентов регрессии. Чем больше по модулю значение коэффициента эластичности, тем большее влияние оказывает этот фактор на результирующий признак.

.

Увеличим каждый фактор на 10%:

Подставляя средние значения факторов Х 1 , Х 3, а также их последовательно увеличенные на 10% значения в соответствующие уравнения регрессии, вычислим коэффициенты эластичности:

Коэффициент эластичности принято изображать графически.

Зависимость между Х 1 (стоимостью одного метра квадратного) и Y (стоимостью недвижимости объекта):

Вывод: при увеличении факторного признака Х 1 на 10 % результативный признак увеличивается на 11,91 %.

Зависимость между Х 3 (уровнем доходности населения) и Y (стоимостью недвижимости объекта)

Вывод: при увеличении факторного признака Х 3 на 10 % результативный признак сокращается на 3,42 %.

ВЫВОД: Анализ факторов по коэффициенту эластичности показал, что наибольшее влияние на стоимость недвижимости оказывает стоимость одного метра квадратного (фактор Х 1), затем уровень доходности населения (фактор Х 3).

6 . Оценка параметров уравнения регрессии

Для того, чтобы оценить параметры уравнения регрессии используется t- критерий Стьюдента. В таблице «дисперсионный анализ», в графе «t- статистика» содержатся рассчитанные на компьютере данные:

Эти значения сравниваются t - критическим, учитывая принятый уровень значимости б = 0,05 и k - число степеней свободы k = n-m-1; k=10-2-1=7, затем по таблице Стьюдента определяем, что: t кр = 2,365, либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку СТЮДРАСПОБР , с помощью которой компьютер возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, а в поле степень свободы -7

Параметры уравнения регрессии признаются типичными, если выполняются неравенства:

Подставим имеющие данные для сравнения:

Условие не выполняется

Условие не выполняется.

Вывод: Анализ параметров уравнения регрессии показал, что рассчитанные на компьютере данные не удовлетворяют условию сравнения. Поэтому математическая формула регрессии не может быть использована для прогнозирования стоимости недвижимости, а может быть использована только для практических расчетов.

7. Оценить значимость показателей тесноты связи r

Для этого применяется t- критерий Стьюдента. Расчетные значения t r для факторов Х 1 , Х 3 определяется по формуле:

где r - значения, рассчитанные в корреляционной матрице (столбец У) для объясняющих факторов

n - количество наблюдений.

Подставляя имеющиеся данные в формулу, получаем:

Рассчитанные значения надо сравнить с t- критическим равное 2,365. Показатели тесноты связи признаются типичными, если

Подставляя полученные данные, получим:

Условие выполняется

Условие выполняется

Вывод: все коэффициенты корреляции, соответствующие оставшимся факторам, признаются типичным, так как условие неравенства выполняется.

8 . Оценка значимости коэффициента детерминации R 2

Для этого используется F- критерий Фишера, величина которого берется из таблицы Фишера со степенями свободы:

к 1 = m = 2 - число объясняющих факторов.

к 2 = n-m-1= 10-2-1=7

Либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку F РАСПОБР , с помощью которой компьютер возвращает обратное значение для F-распределения вероятностей, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, в поле степень свободы1 ставим число объясняющих факторов, т.е. 2, а в поле степень свободы2 вводим к 2 = 7

Для определения статистической значимости коэффициента детерминации R 2 используется неравенство:

Значение F R рассчитывается по формуле:

Подставляя данные в неравенство получим: F расч =337,55 F крит. =4,737

Вывод:

Коэффициент детерминации R 2 является значимым, так как неравенство выполняется;

Величина R 2 =0,990- это означает, что 99 % общей вариации результативного признака объясняется изменением факторных признаков Х 1 ,Х 3 , а 1 % объясняется изменениями других факторов.

9. Доверительные интервалы для коэффициентов уравнения регрессии

Доверительные интервалы для коэффициентов множественной регрессии определяются:

а=499,986; Sa=29,254; tкрит.= 2,365

a 2 =-779,762; Sa 2 =644,425; tкрит.= 2,365

Вывод:

95% коэффициента регрессии а 1 лежит в интервале, а 5% вне этого интервала.

95% коэффициента регрессии а 2 лежит в интервале, а 5% вне этого интервала.

10 . Доверительные интервалы для средних значений факторных призн а ков

Доверительные интервалы для средних значений факторных признаков определяются:

где -стандартное отклонение (среднеквадратическое отклонение);

n - число наблюдений;

t находится по функции таблицы Лапласа

95% факторного признака (стоимость 1 м 2) лежит в интервале, а 5% вне этого интервала.

95% факторного признака (уровень доходности населения) лежит в интервале, а 5% вне этого интервала.

1 1 . Автокорреляция

А) Для определения величины коэффициента автокорреляции используются значения остатков, которые имеют следующий вид:

ВЫВОД ОСТАТКА

Дополнительные расчеты

Наблюдение

Предсказанное Y

Остатки i

Для определения величины коэффициента автокорреляции используется формула Дарвина - Оутсона:

использование, которой связано с дополнительными расчетами. Подставим данные в формулу и получим:

Коэффициент корреляции изменяется в пределах 0?dw?4.

Значит и размер автокорреляционного поля должен иметь эти же пределы.

Б) В автокорреляции содержатся (слева направо):

1. Зона положительной автокорреляции

2. Зона неопределенности

3. Зона отсутствия автокорреляции

4. Зона неопределенности

5. Зона отрицательной автокорреляции.

Размер зон неопределенности зависят от показателей таблицы Дарвина-Оутсона.

Для того чтобы найти в таблице нужные показатели надо знать номер столбца и строки.

Номер нужного столбца - это число объясняющих факторов уравнения регрессии: k=m=2;

Номер строки- это количество наблюдений: n=10.

В таблице находятся показатели d l и d u:

В левой половине автокорреляционного поля:

Нижняя граница зоны равна d l =0,697

Верхняя граница зоны равна d u = 1,641

Для правой половины автокорреляционного поля границы неопределенности надо рассчитать:

Верхняя граница зоны равна 4-d u = 4-1,641= 2,359

Нижняя граница зоны равна 4-d l =4-0,697= 3,303

Общая картина автокорреляционного поля может быть представлена в виде:

В) Коэффициент автокорреляции, его значение соответствует зоне отсутствия автокорреляции.

Размещено на сайт

Подобные документы

    Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа , добавлен 27.03.2009

    Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.

    задача , добавлен 20.01.2010

    Расчёт параметров линейного уравнения регрессии. Оценка регрессионного уравнения через среднюю ошибку аппроксимации, F-критерий Фишера, t-критерий Стьюдента. Анализ корреляционной матрицы. Расчёт коэффициентов множественной детерминации и корреляции.

    контрольная работа , добавлен 29.08.2013

    Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа , добавлен 27.07.2015

    Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат , добавлен 25.01.2009

    Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.

    курсовая работа , добавлен 22.05.2015

    Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция , добавлен 23.12.2014

    Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа , добавлен 22.07.2015

    Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа , добавлен 29.06.2013

    Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.