Коэффициентом детерминации r2 характеризуют долю вариации переменной. Коэффициент детерминации

Отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R 2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для вычисления коэффициента детерминации:

где yi - наблюдаемое значение зависимой переменной, а fi - значение зависимой переменной предсказанное по уравнению регрессии -среднее арифметическое зависимой переменной.

[править]Проблемы и общие свойства R 2

[править]Интерпретация

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

Количественная мера тесноты связи

Качественная характеристика силы связи

Умеренная

Заметная

Весьма высокая

Функциональная связь возникает при значении равном 1, а отсутствие связи - 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]Общие свойства для МНК регрессии

Линейная множественная регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R 2.

Линейная множественная МНК регрессия имеет следующие общие свойства :

1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

2. С увеличением количества объясняющих переменных увеличивается R 2.

[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)

Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами:

1. принимает значения из интервала (отрезка) .

2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2. А в случае множественной МНК регрессии R 2 = r (y ;f )2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

3. R 2 можно разложить по вкладу каждого фактора в значение R 2, причём вклад каждого такого фактора будет положительным. Используется разложение: , где r 0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.

4. R 2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина имеет F-распределение с (k-1) и (n-k) степенями свободы.

[править]Мнимая регрессия

Значения R 2, , Быль" href="/text/category/bilmz/" rel="bookmark">быль проверено или сопоставлено с использованием R 2 и его модификаций.

[править]Решение проблем или модификации R 2

[править]R 2-скорректированный (adjusted)

Для того, чтобы исследователи не увеличивали R 2 с помощью добавления посторонних факторов, R 2 заменяется на скорректированный https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23 src=">, который будет совпадать с исходным для случая МНК регрессии со свободным членом, и для которого будут продолжать выполняться четыре свойства перечисленые выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных .
Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, P (X ) = X * (X " * X ) − 1 * X " - проектор на плоскость X, https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23">с условием небольшой модификации , также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

[править]R 2-истинный (несмещённый)

<---Будет добавлен---!>

[править]Прочие используемые критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения между моделями. Чем меньше значение тем лучше. Часто используется в виде сравнения моделей временных рядов с разным количеством лагов.
. Даёт меньший штраф за включение лишних лагов в модель, чем BIC.
BIC - информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем BIC (см. формулу).

[править]См. также

§ Коэффициент корреляции

§ Корреляция

§ Мультиколлинеарность

§ Дисперсия случайной величины

§ Метод группового учета аргументов

§ Регрессионный анализ

[править]Примечания

1. 1 2 , Эконометрика. Начальный курс.. - 6,7,8-е изд., доп. и перераб.. - Москва: Дело, 2004. - Т. "". - 576 с. - ISBN -X

2. 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы . - Москва: ЦЕМИ РАН, 2002. - В. 3. - Т. 38. - С. 107-120.

3. , Прикладная статистика. Основы эконометрики (в 2-х т.). - ??. - Москва: Юнити-Дана (проект TASIS), 2001. - Т. "1,2". - 1088 с. - ISBN -8

4. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. - Москва: Маркет ДС, 2008. - В. 4. - Т. 12. - С. 71-83.

[править]Ссылки

§ Глоссарий статистических терминов

§ Прикладная эконометрика (журнал)

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

Коэффициент детерминации

Коэффициент детерминации ( - R-квадрат ) - это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно - это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x .

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

где - условная (по факторам x) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

где -сумма квадратов остатков регрессии, - фактические и расчетные значения объясняемой переменной.

Общая сумма квадратов.

В случае линейной регрессии с константой , где - объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае - коэффициент детерминации - это доля объяснённой суммы квадратов в общей :

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

Интерпретация

1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.

2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика для линейной регрессии имеет асимптотическое распределение , где - количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика имеет точное (для выборок любого объёма) распределение Фишера (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.

Недостаток и альтернативные показатели

Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted)

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику обычно используется скорректированный коэффициент детерминации , в котором используются несмещённые оценки дисперсий:

который даёт штраф за дополнительно включённые факторы, где n - количество наблюдений, а k - количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как "доли". Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели . Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения моделей. Чем меньше значение тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
, где k - количество параметров модели.
BIC или SC - байесовский информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

-обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации . Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации , который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства перечисленные выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, - проектор на плоскость X, , где - единичный вектор nx1.

с условием небольшой модификации , также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (также как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Примечания

Ссылки

  • Прикладная эконометрика (журнал)

Wikimedia Foundation . 2010 .

  • Коэффициент де Ритиса
  • Коэффициент естественной освещённости

Смотреть что такое "Коэффициент детерминации" в других словарях:

    КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ - оценка качества (объясняющей способности) уравнения регрессии, доля дисперсии объясненной зависимой переменной у: R2= 1 Sum(yi yzi)2 / Sum(yi y)2 , где yi наблюдаемое значение зависимой переменной y, yzi значение зависимой переменной,… … Социология: Энциклопедия

    Коэффициент детерминации - квадрат коэффициента линейной корреляции Пирсона, интерпретируется как доля дисперсии зависимой переменной, объясненной посредством независимой переменной … Социологический словарь Socium

    Коэффициент детерминации - Мера того, насколько хорошо соотносятся зависимые и независимые переменные в регрессивном анализе. Например, процент от изменения доходности актива, объясняемый доходностью рыночного портфеля … Инвестиционный словарь

    Коэффициент детерминации - (COEFFICIENT OF DETERMINATION) определяется при построении линейной регрессионной зависимости. Равен доле дисперсии зависимой переменной, связанной с вариаций независимой переменной … Финансовый глоссарий

    Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

Коэффициент детерминации.  

Анализ проводится, например, по коэффициенту детерминации  

Альтернативным показателем степени зависимости между двумя переменными является коэффициент детерминации, представляющий собой возведенный в квадрат коэффициент корреляции (г2). Коэффициент детерминации выражается в процентах и отражает величину изменения результативного показателя (у) за счет изменения другой переменной - факторного показателя (х).  

По результатам нашего примера, приведенного выше, коэффициент детерминации составил г = 0,471 б2 = 0,2224 = 22,24%. Это означает, что более 22% изменений в выручке от продаж связаны с изменениями в расходах на рекламу.  

Определите коэффициент детерминации по условию теста 1. Интерпретируйте уровень этого коэффициента.  

В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера , показателю средней ошибки аппроксимации и величине множественного коэффициента детерминации, о которых речь пойдет несколько позже (см. 7.4).  

Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции , составил 99,31% стандартная ошибка модели оказалась равна 4415 тыс. руб., / статистика Фишера - 4,415, а уровень значимости гипотезы об отсутствии связи - менее 0,01%.  

Это выражение соответствует выражению т)2 (см. формулу (8.2)). Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины г2л, как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации  

Коэффициент детерминации г2 = 71,3%, т. е. вариация возраста супруга или супруги на 71% зависит от вариации возраста второй половины. Связь весьма тесная.  

Поскольку г 2 - аналог коэффициента детерминации, можно сделать вывод, что 42,2% вариации себестоимости молока в совокупности 136 предприятий были связаны с вариацией продуктивности коров (и с факторами, варьирующими согласованно с продуктивностью в соответствии с ранее сделанной оговоркой об интерпретации парных связей).  

Здесь Ry2 - коэффициент детерминации для уравнения со всеми k факторами. Числитель (8.43) и есть дополнительно объясняемая часть вариации у при включении фактора хт в уравнение после всех остальных факторов. В нашем примере, используя ранее рассчитанную величину R2 = 0,5765, при включении в анализ фактора х3 получаем  

Однако крупнейшим недостатком такого способа разложения R2 является зависимость величин р2 от принятого порядка включения факторов в уравнение регрессии . Первый включаемый фактор забирает в свою пользу львиную часть системного эффекта , а на долю последнего фактора остается ничтожная часть. Например, если переставить местами факторы дс, и хэ, а также вычислить по рекуррентной формуле двухфакторный коэффициент детерминации /Z2 x = 0,8035, то получим результаты , отличные от предыдущих  

Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому, недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов Xj коэффициент рентабельности , хотя включение такого фактора значительно повышает коэффициент детерминации.  

Принцип простоты предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем коэффициенте.  

Предельно возможный избыток был бы в том случае, если бы не было гетерогенных сочетаний, т. е. Аб и Ба. Он составляет 140 + 80 + 230 = 450. Сам же показатель тесноты связи - отношение фактического излишка к предельному 140 450 = 0,311. Как видим, этот показатель близок к коэффициенту ассоциации, но обладает чрезвычайно логичной и ясной интерпретацией связь составляет 0,311 или 31,1%, от предельно возможной функциональной . Этот показатель - аналог не коэффициента корреляции , а коэффициента детерминации. Поэтому правомерно обозначить его как R2 или г 2. Он имеет вид  

Коэффициент детерминации г2, равен 0,88, или 88% колебаний себестоимости картофеля связаны с колебаниями урожайности. Положительны лишь три произведения отклонения мг иу, притом наименьшие.  

Проведение анализа по отдельным единицам с использованием уравнения регрессии обычно основывается на разложении величины отклонения от общей средней (у, - у) на две составляющие (у, - у) и (у, - у,). Если в уравнение регрессии входят все важные и существенные факторы, от которых- зависит величина результативного признака , и коэффициент детерминации близок к единице, то остальные, не включенные в уравнение факторы, характеризуют индивидуальные, несущественные особенности, зачастую не имеющие количественного выражения. В этом случае разница (у, - у/) образуется за счет несовпадения интенсивности воздействия на у всех учтенных факторов в условиях данной /-и единицы и средней интенсивности их воздействия, выраженной в величинах коэффициентов регрессии, входящих в расчетное значение yf. Это дает право интерпретировать разницу (у, -у,) или отношение у,/у, как показатель того, как эффективность использования учтенных факторов у /-и единицы соотносится со средней эффективностью их использования. Разница (у, - у) возникает за счет различия в значениях учтенных факторов для данной /-и единицы и в среднем по совокупности. Такое разложение дает возможность выявить резервы, имеющиеся у каждой отдельной единицы, в части эффективности ис- пользования факторов и в части их уровня.  

Учитывая сравнительно низкие значения отчетного и базисного коэффициентов детерминации (/ 0 = 0,8] 54, г2, = 0,7974), разница фактической и расчетной величин (V,- V) выражает не только различия в эффективности использования учтенного фактора - мощности пласта - на данной конкретной шахте по сравнению со средней эффективностью по тресту, но и влияние неучтенных в уравнении регрессии факторов.  

I Третий способ построения многомерных средних долей не требует привлечения каких-либо субъективных экспертных оценок - используется только информация, содержащаяся в исходных долях. Более информативным, а следовательно, весомым признается тот признак, который имеет более высокий коэффициент детерминации долей со всеми остающимися признаками. Вычислив попарные и средние коэффициенты детерминации, примем меньший из них за единицу (один балл) и получим баллы для других признаков, как отношения их средних коэффициентов детерминации к меньшему (см. табл. 11.9).  

После выбора типа уравнения и расчета его параметров следует проверка выбранной функции на адекватность. Сущность этогог этапа заключается в том, адекватно ли характеризует выбранная функция развитие исследуемого экономического явления и нет ли среди факторов таких, которые можно исключить из-за незначительности в изучении данного явления. Для исследования используют коэффициент детерминации и критерий Фишера.  

Сoefficient of determination

Синонимы: Коэффициент смешанной корреляции

Статистический показатель, отражающий объясняющую способность уравнения регрессии и равный отношению суммы квадратов регрессии SSR к общейвариации SST:

где – уровень ряда,– смоделированное значение,– среднее по всем уровням ряда.

Данный показатель является статистической мерой согласия, с помощью которой можно определить, насколько уравнение регрессии соответствует реальным данным.

Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно налинии регрессии , т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когдавходная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность.

Коэффициент детерминации (R 2 )- это долядисперсии отклонений зависимой переменной от еёсреднего значения , объясняемая рассматриваемоймоделью связи (объясняющими переменными). Модель связи обычно задается как явная функция от объясняющих переменных. В частном случае линейной связиR 2 является квадратомкоэффициента корреляции между зависимой переменной и объясняющими переменными.

Общая формула для вычисления коэффициента детерминации:

где y i - наблюдаемое значение зависимой переменной, аf i - значение зависимой переменной предсказанное по уравнению регрессии-среднее арифметическое зависимой переменной.

При проверке гипотезы о наличии связи модель связи может быть неизвестна. Тогда ее задают в виде кусочно-постоянной функции (в этом случае коэффициент детерминации равен квадрату корреляционного отношения) либо оценивают неизвестные значения функции связи, используя методы сглаживания эмпирической зависимости (напримерметод скользящих средних ) .

Публикации по теме