Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров




НазваниеЛабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров
Дата конвертации09.03.2013
Размер141.75 Kb.
ТипЛабораторная работа
ПОСТРОЕНИЕ МОДЕЛИ МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

Лабораторная работа №1.

Отбор факторов для построения множественной линейной зависимости

и оценка степени коллинеарности и мультиколлинеарности регрессоров

Множественная линейная регрессия – уравнение связи с несколькими независимыми переменными:

, (1)

где у – зависимая (объясняемая, эндогенная) – регрессанд; x1, x2, , xm – независимые (объясняющие, экзогенные) переменные – регрессоры, случайная составляющая модели.

Зависимость (1) во многих случаях довольно хорошо отражает сложившиеся экономические взаимосвязи. Исходная информация для построения данной зависимости обычно задается в виде некоторой таблицы.



Факторы, для которых получены данные

x1

x2



xj

xm

y

1

x11

x21



xj1

xm1

y1

2

x12

x22



xj2

xm2

y2















n

x1m

x2m



xjn

xmn

yn

Следует определить все ли переменные следует включать в уравнение или есть переменные, которые существенно не влияют на величину y и их нецелесообразно включать в (1). В первом случае p = m, во втором p< m.

Для решения этого вопроса часто используется таблица, составленная из коэффициентов парной корреляции. Элементами такой таблицы являются коэффициенты парной корреляции для всех m факторов. Таблица имеет вид:




y

x1

x2



xm

y

1









x1



1







x2





1

















xm









1

В клетках таблицы записаны парные коэффициенты корреляции, например, – парный коэффициент корреляции между переменными x2 и x1.

Коэффициенты и , а также и совпадают, так как теснота связи между переменными y и xj такая же, как между переменными xj и y, аналогично для xj и xi.

Поэтому таблицу записывают в упрощенной симметричной форме (треугольная форма).




y

x1

x2



xm

y

1









x1

––

1







x2

––

––

1

















xm

––

––

––



1

По данным такой таблицы можно примерно оценить, какие факторы существенно влияют на переменную y, а какие – несущественно, а также выявить зависимость между факторами.

Если величина коэффициента парной корреляции между y и xj мала, то нецелесообразно включать фактор xj в уравнение (1). Высокое значение коэффициента парной корреляции между xi и xj, показывает их тесную корреляционную связь. Считается, что две переменные xi и xj явно коллинеарны, т.е. находятся между собой в линейной зависимости, если . Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами или выбирают один из них в зависимости от их смысла и мнения исследователя. Нецелесообразно включать в уравнение одновременно показатели, представляющие сумму некоторых факторов или их составных частей, а также характеризующие один и тот же фактор, выраженный в различных единицах измерения, например, абсолютных и относительных.

По величине парных коэффициентов корреляции обнаруживается лишь явная корреляция факторов. Наибольшие трудности возникают при мультиколлинеарности факторов. Для оценки мультиколлинеарности факторов используется определитель матрицы парных коэффициентов межфакторной корреляции .

.

Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Задача

В таблице 1. представлены данные о рынке строящегося жилья в Московской области. Необходимо провести отбор факторов для построения множественной линейной регрессии, оценить степень коллинеарности регрессоров.

Решение.

  1. Рассчитайте коэффициенты парной корреляции. Проверьте правильность расчетов с помощью статистической функции КОРРЕЛ электронной таблицы Microsoft Excel.

  2. По полученным значениям парных коэффициентов корреляции отберите наиболее существенные факторы для уравнения (1).

  3. Проверьте факторы на коллинеарность и мультиколлинеарность.

  4. Сделайте выводы.

Таблица 1.

Исходные данные задачи


Лабораторная работа №2.

Оценка параметров уравнения множественной регрессии

Для оценки параметров уравнения множественной линейной регрессии применяют метод наименьших квадратов (МНК).

Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии, в частности для уравнения (1):

(2)
Одним из методов для ее решения является метод определителей:



где – определитель системы;

, ,…, – частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Задача

  1. Рассчитайте параметры уравнения множественной регрессии с помощью метода определителей. Для вычисления определителей используйте статистическую функцию МОПРЕД. Проверьте полученные результаты с помощью функции ЛИНЕЙН.

  2. Запишите полученное уравнение множественной регрессии.


Лабораторная работа №3.

Построение уравнения множественной регрессии в стандартизованной форме

Если коэффициенты множественной регрессии рассматривать в качестве показателей влияния факторов, то следует иметь в виду, что коэффициенты регрессии между собой прямо не сравнимы. Их численные значения зависят от выбранных единиц измерения каждого фактора. Чтобы коэффициенты регрессии стали сравнимы, их приводят к стандартизированному масштабу. Для этого все переменные выражают в безразмерных, так называемых стандартизированных единицах измерения при помощи следующих соотношений:



где , – соответственно средние квадратичные отклонения.

Свободный член b0 в стандартизованном уравнении множественной регрессии отсутствует, т.е. уравнение (1) можно записать в виде:

. (2)

Все переменные уравнения выражены в сравнимых единицах измерения. Коэффициенты называются коэффициентами регрессии в стандартизованном масштабе. Для их определения можно перейти от коэффициентов bj к и обратно осуществляется по формуле:

.

Коэффициенты регрессии (2) показывают влияния изменения каждой переменной на изменение фактора y. Все коэффициенты выражены в сравнимых единицах измерения. Чем больше ||, тем сильнее влияет соответствующий факторный показатель на результативный.

Таким образом, сравнивая между собой стандартизованные коэффициенты регрессии можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

На практике часто используют уравнение регрессии в стандартизованном масштабе в виде:

.

Как было показано выше, ранжирование факторов, участвующих во множественной линейной регрессии, может быть проведено через стандартизованные коэффициенты регрессии (β-коэффициенты). Эта же цель может быть достигнута с помощью частных коэффициентов корреляции – для линейных связей. Кроме того, частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.

Частные коэффициенты (или индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии. Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии, произошедшего в результате дополнительного включения в анализ нового фактора, к остаточной дисперсии, имевшей место до введения в модель нового фактора.

Коэффициент частной корреляции, измеряющий влияние на у фактора хi при неизменном уровне других факторов, можно определить по формуле:



где – множественный коэффициент детерминации всего комплекса m факторов с результатом; – показатель детерминации, но без введения в модель фактора xj.

Средние коэффициенты эластичности для линейной множественной регрессии рассчитываются по формуле:



и показывают, на сколько процентов в среднем по совокупности изменится результат у от своей величины при изменении фактора х на 1 % от своего значения при неизменных значениях других факторов.

Задача

  1. Рассчитайте стандартизованные коэффициенты регрессии. Запишите полученное уравнение в стандартизованном масштабе вида (2).

  2. Проранжируйте стандартизованные коэффициенты регрессии по силе их воздействия на результат.

  3. Рассчитайте средние коэффициенты эластичности.

Лабораторная работа №4.

Составление частных уравнений регрессии

На основе линейного уравнения множественной регрессии (1) могут быть найдены частные уравнения регрессии, т.е. уравнения регрессии, которые связывают результативный признак с соответствующими факторами хj при закреплении других, учитываемых во множественной регрессии, факторов на среднем уровне. Частные уравнения регрессии имеют следующий вид:









При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т. е. имеем:









где









В отличие от парной регрессии, частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:



где bj – коэффициенты регрессии для фактора хi в уравнении множественной регрессии; – значение результативного фактора, полученное из частного уравнения регрессии при данном значении фактора хj.

Задача

  1. Составьте частные уравнения регрессии.

  2. Определите частные коэффициенты эластичности и проранжируйте факторы по силе их воздействия на результат.

Лабораторная работа №5.

Оценка надежности результатов множественной регрессии и корреляции

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:



где – общая дисперсия результативного признака; – остаточная дисперсия для уравнения , .

При линейной зависимости признаков формула индекса корреляции может быть также представлена следующим выражением:



где – стандартизованные коэффициенты регрессии; – парные коэффициенты корреляции результата с каждым фактором.

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции, или, что то же самое, совокупного коэффициента корреляции.

Индекс множественной корреляции изменяется от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции больше или равна максимального парного индекса корреляции:



При правильном включении факторов в регрессионный анализ величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости.

Коэффициент (индекс) множественной детерминации рассчитывается как квадрат индекса множественной корреляции:

.

Скорректированный коэффициент (индекс) множественной детерминации содержит поправку на число степеней свободы и рассчитывается по формуле:

,

где n – число наблюдений; m – число факторов.

Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера:

.
Fтабл определяется при заданном α (0,05; 0,01) и степенях свободы k1 = m, k2 = n – m – 1, (m – число параметров при факторных переменных в уравнении множественной регрессии).

Частный F-критерий оценивает статистическую значимость присутствия каждого из факторов в уравнении. В общем виде, для факторов частный F-критерий определится как:

.

Fтабл для частного F-критерия определяется при заданном α и степенях свободы k1 = 1, k2 = n– m – 1.

Оценка значимости коэффициентов чистой регрессии с помощью t-критерия Стьюдента сводится к вычислению значения:



где mbi –средняя квадратичная ошибка коэффициента регрессии bj, она может быть определена по следующей формуле:

,

– множественный коэффициент детерминации всего комплекса m факторов с результатом; – коэффициент детерминации для зависимости фактора xj со всеми другими факторами уравнения множественной регрессии.

tтабл определяется при заданном α и степени свободы k = n – m - 1.

Задача

  1. Рассчитайте линейного коэффициента множественной корреляции и сделайте вывод о тесноте связи результативного признака со всем набором исследуемых факторов.

  2. Рассчитайте коэффициент множественной детерминации и сделайте вывод об оценке качества построенной модели.

  3. Рассчитайте Fфакт и сравните полученное значение со значением, рассчитанным с помощью функции ЛИНЕЙН. Определите Fтабл при заданном уровне значимости  = 0,05. Сравните полученные значения Fтабл и Fфакт, сделайте вывод о существенности связи.

  4. Определите tфакт и tтабл при заданном уровне значимости  = 0,05 Сравните полученные значения и сделайте вывод о статистической значимости параметров регрессии.


Контрольные вопросы:

1. Что понимается под линейной множественной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие требования предъявляются к факторам, включаемым в уравнение регрессии?

4. Что понимается под коллинеарностью и мультиколлинеарностью факторов?

5. Как проверяется наличие коллинеарности и мультиколлинеарности?

6. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае линейной регрессии?

7. По какой формуле вычисляется индекс множественной корреляции?

8. Как вычисляются индекс множественной детерминации и скорректированный индекс множественной детерминации?

9. Что означает низкое значение коэффициента (индекса) множественной корреляции?

10. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

11. Как строятся частные уравнения регрессии?

12. Как вычисляются средние частные коэффициенты эластичности?

13. Что такое стандартизированные переменные?

14. Какой вид имеет уравнение линейной регрессии в стандартизированном масштабе?

15. Что понимается под гомоскедастичностью?

16. Как проверяется гипотеза о гомоскедастичности ряда остатков?

Похожие:

Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconТесты на гетероскедастичность. Регрессионные модели с переменной структурой (фиктивные переменные). Фиктивная переменная сдвига. Фиктивная переменная наклона
Исследование проблем мультиколлинеарности, последствия мультиколлинеарности. Способы обнаружения мультиколлинеарности. Способы устранения...
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconОценивание параметров линейной модели множественной регрессии Множественная регрессия
...
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconЛабораторная работа №2 Проектирование регулятора для линейной системы
Для построения моделей соединений систем в Matlab используются знаки арифметических действий. Эти операции перегружены, то есть,...
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconЛабораторная работа №7: Прогнозирование на основе множественной регрессии
В подавляющем большинстве реальных экономических задач приходится рассматривать данные более чем об одном или двух факторах. Прогнозирование...
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconЛабораторная работа 4 множественная регрессия цель работы Изучение методов расчета коэффициентов корреляции. Построение уравнения множественной регрессии
Изучение методов оценки параметров множественной регрессии и коэффициентов корреляции
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconЛабораторная работа №1. Исследование естественного освещения
Естественное освещение обусловлено прямыми солнечными лучами и рассеянным светом небосвода и меняется в зависимости от географической...
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconЛабораторная работа № сокращение продолжительности жизни в зависимости от условий труда и быта. Общие сведения. Используемые в тексте данной лабораторной работы понятия несут следующую смысловую нагрузку
Лабораторная работа № сокращение продолжительности жизни в зависимости от условий труда и быта
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconКонтрольная работа по теме занятия Лабораторная работа по теме
Лабораторная работа по теме: «Кондуктометрическое определение степени и константы диссоциации слабого электролита»
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconЛабораторная работа №1 Тема: Регрессионный анализ. Уравнение линейной парной регрессии. Уравнение линейной парной регрессии выглядит следующим образом: Y=a 0 +а 1 X
Константу a0 также называют свободным членом, а угловой коэффициент коэффициентом регрессии. Параметры уравнения могут быть определены...
Лабораторная работа №1. Отбор факторов для построения множественной линейной зависимости и оценка степени коллинеарности и мультиколлинеарности регрессоров iconВлияние экологических факторов на здоровье школьника. Работа на XVI научно-практическую конференцию «Научное творчество молодёжи»
Целью работы является определение зависимости состояния здоровья учащихся 5-х классов от факторов экологии человека
Разместите кнопку на своём сайте:
kurs.znate.ru


База данных защищена авторским правом ©kurs.znate.ru 2012
обратиться к администрации
kurs.znate.ru
Главная страница