Критерий стьюдента для проверки значимости коэффициента корреляции. История разработки критерия корреляции. Связь корреляционного анализа с регрессионным

​ Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных. В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа .
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа .
  4. Критерий корреляции Пирсона является параметрическим , в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена .
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью , подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь , означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста , но разного роста , то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока :

Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице.

Как неоднократно отмечалось, для статистического вывода о наличии или отсутствии корреляционной связи между исследуемыми переменными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистических характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь между исследуемыми переменными отсутствует, то коэффициент корреляции генеральной совокупности равен нулю. При практических исследованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случайно рассеиваются вокруг одноименного параметра генеральной совокупности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у их коэффициент корреляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда некоторые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.

Могут ли обнаруженные различия быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния,

обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение выборочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у их существует статистически значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется критерием значимости.

Процедура проверки значимости начинается с формулировки нулевой гипотезы В общем виде она заключается в том, что между параметром выборки и параметром генеральной совокупности нет каких-либо существенных различий. Альтернативная гипотеза состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокупности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю Если в результате проверки окажется, что нулевая гипотеза не приемлема, то выборочный коэффициент корреляции значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Другими словами, предположение о некоррелированности случайных переменных в генеральной совокупности следует признать необоснованным. И наоборот, если на основе критерия значимости нулевая гипотеза принимается, т. е. лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелированности переменных в генеральной совокупности.

При проверке значимости исследователь устанавливает уровень значимости а, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень редких случаях. Уровень значимости выражает вероятность того, что нулевая гипотеза отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.

Пусть известно распределение выборочной характеристики, являющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости а соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки образуют критическую область, или область отклонения гипотезы.

При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствующим критическим значением. При этом следует различать одностороннюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследовании. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной совокупности

требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и отрицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или меньше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании односторонней критической области меньше, чем при использовании двусторонней.

Рис. 24. Проверка нулевой гипотезы

Если распределение выборочной характеристики симметрично, то уровень значимости двусторонней критической области равен а, а односторонней - у (см. рис. 24). Ограничимся лишь общей постановкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различных процедур, не останавливаясь на их построении.

Проверяя значимость коэффициента парной корреляции, устанавливают наличие или отсутствие корреляционной связи между исследуемыми явлениями. При отсутствии связи коэффициент корреляции генеральной совокупности равен нулю Процедура проверки начинается с формулировки нулевой и альтернативной гипотез:

Различие между выборочным коэффициентом корреляции незначимо,

Различие между значимо, и следовательно, между переменными у их имеется существенная связь. Из альтернативной гипотезы следует, что нужно воспользоваться двусторонней критической областью.

В разделе 8.1 уже упоминалось, что выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной подчиняющейся распределению Стьюдента с степенями свободы. Вычисленная по результатам выборки статистика

сравнивается с критическим значением, определяемым по таблице распределения Стьюдента при заданном уровне значимости а и степенях свободы. Правило применения критерия заключается в следующем: если то нулевая гипотеза на уровне значимости а отвергается, т. е. связь между переменными значима; если то нулевая гипотеза на уровне значимости а принимается. Отклонение значения от можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возможную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.

Процедура проверки гипотезы значительно упрощается, если вместо статистики воспользоваться критическими значениями коэффициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в

Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если то можем утверждать, что связь между переменными существенная. Если то результаты наблюдений считаем непротиворечащими гипотезе об отсутствии связи.

Проверим гипотезу о независимости производительности труда от уровня механизации работ при по данным, приведенным в разделе 4.1. Ранее было вычислено, что По (8.38) получаем

По таблице распределения Стьюдента для находим критическое значение этой статистики: Поскольку нулевую гипотезу отвергаем, допуская ошибку лишь в 5% случаев.

Мы получим тот же результат, если будем сравнивать с критическим значением коэффициента корреляции найденным по соответствующей таблице при

которая имеет -распределение с степенями свободы. Далее процедура проверки значимости проводится аналогично предыдущей с помощью -критерия.

Пример

Исходя из экономического анализа явлений предполагаем в генеральной совокупности сильную связь между производительностью труда и уровнем механизации работ. Пусть, например, . В качестве альтернативной в этом случае можем выдвинуть гипотезу так как выборочный коэффициент корреляции Таким образом, мы должны воспользоваться односторонней критической областью. Из (8.40) следует, что

Полученное значение сравниваем с критическим значением Имеем Таким образом, на уровне значимости 5% можно предполагать наличие очень тесной связи между изучаемыми признаками, т. е. исходные данные позволяют считать правдоподобным, что

Значимость коэффициентов частной корреляции проверяется аналогичным путем. Изменяется только число степеней свободы, которое становится равным где - количество объясняющих переменных. Значение статистики, вычисленное по формуле

сравнивается с критическим значением а, найденным по таблице -распределения при уровне значимости а и числе степеней свободы Принятие или отклонение гипотезы о значимости коэффициента частной корреляции производится по тому же правилу, что было описано выше. Проверку значимости можно осуществить также с помощью критических значений коэффициента корреляции по (8.39), а также используя -преобразование Фишера (8.40).

Пример

Проверим статистическую надежность коэффициентов частной корреляции, вычисленных в разделе 4.5, на уровне значимости Ниже, наряду с коэффициентами частной корреляции, приведены соответствующие им расчетные и критические значения статистики

В связи с тем что при принимается гипотеза о значимости коэффициентов делаем вывод: уровень механизации работ оказывает существенное влияние на производительность труда при исключении влияния среднего возраста работников (и среднего процента выполнения норм). Отличие от нуля остальных коэффициентов

частной корреляции может быть отнесёноза счет случайных колебаний в выборке, и поэтому по ним мы не можем сказать ничего определенного о частных влияниях соответствующих переменных.

О значимости коэффициента множественной корреляции судят по результату осуществления процедуры проверки значимости коэффициента множественной детерминации. Более подробно мы обсудим это в следующем разделе.

Часто представляет интерес вопрос: значимо ли отличаются друг от друга два коэффициента корреляции? При проверке этой гипотезы предполагается, что рассматриваются одни и те же признаки однородных совокупностей; данные представляют собой результаты независимых испытаний; применяются коэффициенты корреляции одного типа, т. е. либо коэффициенты парной корреляции, либо коэффициенты частной корреляции при исключении одинакового количества переменных.

Объемы двух выборок, по которым вычисляются коэффициенты корреляции, могут быть различны. Нулевая гипотеза: т. е. коэффициенты корреляции двух рассматриваемых совокупностей равны. Альтернативная гипотеза: Из альтернативной гипотезы следует, что должна быть использована двусторонняя критическая область. Другими словами, следует проверить, значимо ли отличается от нуля разность Воспользуемся статистикой, имеющей приближенно нормальное распределение:

где - результаты -преобразований коэффициентов корреляции - объемы выборок. Правило проверки: если то гипотеза отвергается; если то гипотеза принимается.

В случае принятия величина

после обратного пересчета в с помощью (8.6) служит сводной оценкой коэффициента корреляции Далее может быть проверена гипотеза с помощью статистики

имеющей нормальное распределение.

Пример

Пусть требуется установить при различна ли теснота связи между производительностью труда и уровнем механизации работ на предприятиях одной отрасли промышленности, расположенных в различных районах страны. Сравним предприятия, находящиеся в двух районах. Пусть для одного из них коэффициент корреляции вычислен по выборке объема (см. раздел 4.1). Для Другого района вычислен по выборке объема

После перевода обоих коэффициентов корреляций в -величины вычислим по (8.42) значение статистики X:

Критическое значение статистики при составляет Таким образом, гипотеза принимается, т. е. на основе имеющихся выборок мы не можем установить значимого различия между коэффициентами корреляции. При этом оба коэффициента корреляции значимы.

Используя (8.43) и (8.6), получим сводную оценку коэффициента корреляции для двух районов:

Наконец, проверим гипотезу, значимо ли отличается от нуля сводная оценка коэффициента корреляции с помощью статистики (8.44):

Так как при можем утверждать, что в генеральной совокупности имеется существенная связь между производительностью труда и уровнем механизации работ.

Критерий X может быть использован в различных аспектах. Так, вместо районов могут рассматриваться различные отрасли промышленности, например когда требуется определить, значимы ли различия по силе исследуемых связей между экономическими показателями предприятий, принадлежащих двум различным отраслям.

Пусть на основе двух выборок объема вычислены коэффициенты корреляции характеризующие тесноту связи между производительностью труда и уровнем механизации работ на предприятиях, принадлежащих двум отраслям промышленности (двум генеральным совокупностям). По (8.42) получим

Так как при нулевую гипотезу отвергаем. Следовательно, можно утверждать, что имеются значимые различия в тесноте связи между производительностью труда и уровнем механизации работ на предприятиях, относящихся к различным отраслям промышленности. Этот пример продолжим в разделе 8.7, где будет произведено сравнение регрессионных прямых, построенных для двух совокупностей.

Анализируя приведенные примеры, убеждаемся, что рассмотрение только абсолютной разницы сравниваемых коэффициентов корреляции

(объемы выборок в обоих случаях одинаковы) без проверки значимости этой разницы приведет к ошибочным заключениям. Это подтверждает необходимость пользоваться статистическими критериями при сравнении коэффициентов корреляции.

Процедуру сравнения двух коэффициентов корреляции можно обобщить на большее число коэффициентов при соблюдении указанных выше предпосылок. Гипотеза равенства коэффициентов корреляции между переменными у их выражается следующим образом: Она проверяется на основе коэффициентов корреляции вычисленных по выборкам объема из генеральных совокупностей. производится пересчет коэффициентов корреляций в -величины: Так как в общем случае неизвестен, находим его оценку через по формуле, являющейся обобщением (8.43).


Введение. 2

1. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 3

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 6

Заключение. 15

После построения уравнения регрессии необходимо сделать проверку его значимости: с помощью специальных критериев установить, не является ли полученная зависимость, выраженная уравнением регрессии, случайной, т.е. можно ли ее использовать в прогнозных целях и для факторного анализа. В статистике разработаны методики строгой проверки значимости коэффициентов регрессии с помощью дисперсионного анализа и расчета специальных критериев (например, F-критерия). Нестрогая проверка может быть выполнена путем расчета среднего относительного линейного отклонения (ё), называемого средней ошибкой аппроксимации:

Перейдем теперь к оценке значимости коэффициентов регрессии bj и построению доверительного интервала для параметров регрессионной модели Ру (J=l,2,..., р).

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия Стьюдента. Расчетные значения ta сравниваются с допустимым значением

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия. Расчетные значения t0n сравниваются с допустимым значением 4,/, которое определяется по таблицам t - распределения для заданной вероятности ошибок (а) и числа степеней свободы (/).

Кроме проверки значимости всей модели, необходимо провести проверки значимости коэффициентов регрессии по /-критерию Стюдента. Минимальное значение коэффициента регрессии Ьг должно соответствовать условию bifob- ^t, где bi - значение коэффициента уравнения регрессии в натуральном масштабе при i-ц факторном признаке; аь. - средняя квадратическая ошибка каждого коэффициента. несопоставимость между собой по своей значимости коэффициентов D;

Дальнейший статистический анализ касается проверки значимости коэффициентов регрессии. Для этого находим значение ^-критерия для коэффициентов регрессии. В результате их сравнения определяется наименьший по величине ^-критерий. Фактор, коэффициенту которого соответствует наименьший ^-критерий, исключается из дальнейшего анализа.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стъюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Но о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Оценка значимости коэффициентов чистой регрессии с помощью /-критерия Стьюдента сводится к вычислению значения

Качество труда - характеристика конкретного труда, отражающая степень его сложности, напряженности (интенсивности), условия и значимость для развития экономики. К.т. измеряется посредством тарифной системы, позволяющей дифференцировать заработную плату в зависимости от уровня квалификации (сложности труда), условий, тяжести труда и его интенсивности, а также значимости отдельных отраслей и производств, районов, территорий для развития экономики страны. К.т. находит выражение в заработной плате работников, складывающейся на рынке труда под воздействием спроса и предложения рабочей силы (конкретные виды труда). К.т. - сложная по структуре

Полученные баллы относительной значимости отдельных экономических, социальных и экологических последствий осуществления проекта дают далее основу для сравнения альтернативных проектов и их вариантов с помощью "комплексного балльного безразмерного критерия социальной и эколого-экономической эффективности" проекта Эк, рассчитываемого (в усредненных баллах значимости) по формуле

Внутриотраслевое регулирование обеспечивает различия в оплате труда работников данной отрасли промышленности в зависимости от значимости отдельных.видов производства данной отрасли, от сложности и условий труда, а также от применяемых форм оплаты труда.

Полученная рейтинговая оценка анализируемого предприятия по отношению к предприятию-эталону без учета значимости отдельных показателей является сравнительной. При сравнении рейтинговых оценок нескольких предприятий наивысший рейтинг имеет предприятие с минимальным значением полученной сравнительной оценки.

Понимание качества товара как меры его полезности ставит практически важный вопрос об её измерении. Его решение достигается изучением значимости отдельных свойств в удовлетворении определенной потребности. Значимость даже одного и того же свойства может быть неодинаковой в зависимости от условий потребления продукта. Следовательно, и полезность товара в разных обстоятельствах её использования различна.

Второй этап работы - изучение статистических данных и выявление взаимосвязи и взаимодействия показателей, определение значимости отдельных факторов и причин изменения общих показателей.

Все рассматриваемые показатели сводятся в один таким образом, что в результате получается комплексная оценка всех анализируемых сторон деятельности предприятия с учетом условий его деятельности, с учетом степени значимости отдельных показателей для различных типов инвесторов:

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предварительная стандартизация факторных показателей, то Ь0 равняется среднему значению результативного показателя в совокупности. Коэффициенты Ь, Ь2 ..... Ьл показывают, на сколько единиц уровень результативного показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии характеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициентов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных уравнений).

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента

Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то производят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии имеет вид:


где k - число факторных признаков.

Чтобы упростить систему уравнений МНК, необходимую для вычисления параметров уравнения (8.32), обычно вводят величины отклонений индивидуальных значений всех признаков от средних величин этих признаков.

Получаем систему k уравнений МНК:

Решая эту систему, получаем значения коэффициентов условно-чистой регрессии b. Свободный член уравнения вычисляется по формуле


Термин «коэффициент условно-чистой регресии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют.

Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины bj. можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты bj. не свободны от примеси влияния факторов, не входящих в уравнение.

Включить все факторы в уравнение регрессии невозможно по одной из трех причин или сразу по ним всем, так как:

1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное;

2) по части известных теоретических факторов нет информации либо таковая ненадежна;

3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов.

Коэффициенты условно-чистой регрессии bj. являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или?-коэффициентом.


Коэффициент при факторе хj, определяет меру влияния вариации фактора хj на вариацию результативного признака у при отвлечении от сопутствующей вариации других факторов, входящих в уравнение регрессии.

Коэффициенты условно-чистой регрессии полезно выразить в виде относительных сравнимых показателей связи, коэффициентов эластичности:

Коэффициент эластичности фактора хj говорит о том, что при отклонении величины данного фактора от его средней величины на 1% и при отвлечении от сопутствующего отклонения других факторов, входящих в уравнение, результативный признак отклонится от своего среднего значения на ej процентов от у. Чаще интерпретируют и применяют коэффициенты эластичности в терминах динамики: при увеличении фактора х.на 1% его средней величины результативный признак увеличится на е. процентов его средней величины.

Рассмотрим расчет и интерпретацию уравнения многофакторной регрессии на примере тех же 16 хозяйств (табл. 8.1). Результативный признак - уровень валового дохода и три фактора, влияющих на него, представлены в табл. 8.7.

Напомним еще раз, что для получения надежных и достаточно точных показателей корреляционной связи необходима более многочисленная совокупность.


Таблица 8.7

Уровень валового дохода и его факторы

Номера хозяйств

Валовой доход, руб./ra у

Затраты труда, чел.-дни/га х1

Доля пашни,

Надой молока на 1 корову,


Таблица 8.8 Показатели уравнения регрессии


Dependent variable: у

Regression coefficient

Constant-240,112905

Std. error оf est. = 79,243276


Решение проведено по программе «Microstat» для ПЭВМ. Приведем таблицы из распечатки: табл. 8.7 дает средние величины и средние квадратические отклонения всех признаков. Табл. 8.8 содержит коэффициенты регрессии и их вероятностную оценку:

первая графа «var» - переменные, т. е. факторы; вторая графа «regression coefficient» - коэффициенты условно-чистой регрессии bj; третья графа «std. errror» - средние ошибки оценок коэффициентов регрессии; четвертая графа - значения t-критерия Стьюдента при 12 степенях свободы вариации; пятая графа «prob» - вероятности нулевой гипотезы относительно коэффициентов регрессии;

шестая графа «partial r2» - частные коэффициенты детерминации. Содержание и методика расчета показателей в графах 3-6 рассматриваются далее в главе 8. «Constant» - свободный член уравнения регрессии a; «Std. error of est.» - средняя квадратическая ошибка оценки результативного признака по уравнению регрессии. Было получено уравнение множественной регрессии:


у= 2,26x1 - 4,31х2 + 0,166х3 - 240.


Это означает, что величина валового дохода на 1 га сельхозугодий в среднем по совокупности возрастала на 2,26 руб. при увеличении затрат труда на 1 ч/га; уменьшалась в среднем на 4,31 руб. при возрастании доли пашни в сельхозугодиях на 1% и увеличивалась на 0,166 руб. при росте надоя молока на корову на 1 кг. Отрицательная величина свободного члена вполне закономерна, и, как уже отмечено в п. 8.2, результативный признак - валовой доход становится нулевым задолго до достижения нулевых значений факторов, которое в производстве невозможно.

Отрицательное значение коэффициента при х^ - сигнал о существенном неблагополучии в экономике изучаемых хозяйств, где растениеводство убыточно, а прибыльно только животноводство. При рациональных методах ведения сельского хозяйства и нормальных ценах (равновесных или близких к ним) на продукцию всех отраслей, доход должен не уменьшаться, а возрастать с увеличением наиболее плодородной доли в сельхозугодиях - пашни.

На основе данных предпоследних двух строк табл. 8.7 и табл. 8.8 рассчитаем р-коэффициенты и коэффициенты эластичности согласно формулам (8.34) и (8.35).

Как на вариацию уровня дохода, так и на его возможное изменение в динамике самое сильное влияние оказывает фактор х3 - продуктивность коров, а самое слабое - х2 - доля пашни. Значения Р2/ будут использоваться в дальнейшем (табл. 8.9);


Таблица 8.9 Сравнительное влияние факторов на уровень дохода

Факторы хj


Итак, мы получили, что?-коэффициент фактора хj относится к коэффициенту эластичности этого фактора, как коэффициент вариации фактора к коэффициенту вариации результативного признака. Поскольку, как видно по последней строке табл. 8.7, коэффициенты вариации всех факторов меньше коэффициента вариации результативного признака; все?-коэффициенты меньше коэффициентов эластичности.

Рассмотрим соотношение между парным и условно-чистым коэффициентом регрессии на примере фактора -с,. Парное линейное уравнение связи у с х, имеет вид:


y = 3,886x1 – 243,2


Условно-чистый коэффициент регрессии при x1, составляет только 58% парного. Остальные 42% связаны с тем, что вариации x1 сопутствует вариация факторов x2 x3, которая, в свою очередь, влияет на результативный признака. Связи всех признаков и их коэффициенты парных регрессий представлены на графе связей (рис. 8.2).

Если сложить оценки прямого и опосредованного влияния вариации х1 на у, т. е. произведения коэффициентов парных регрессий по всем «путям» (рис. 8.2), получим: 2,26 + 12,55·0,166 + (-0,00128)·(-4,31) + (-0,00128)·17,00·0,166 = 4,344.

Эта величина даже больше парного коэффициента связи x1 с у. Следовательно, косвенное влияние вариации x1 через не входящие в уравнение признаки-факторы - обратное, дающее в сумме:


1 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. - М.: ЮНИТИ, 2008,– 311с.

2 Джонстон Дж. Эконометрические методы. - М.: Статистика, 1980,. – 282с.

3 Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2004, – 354с.

4 Дрейер Н., Смит Г., Прикладной регрессионный анализ. - М.: Финансы и статистика, 2006,– 191с.

5 Магнус Я.Р., Картышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.-М.: Дело, 2006, – 259с.

6 Практикум по эконометрике/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 248с.

7 Эконометрика/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 541с.

8 Кремер Н., Путко Б. Эконометрика.- М.:ЮНИТИ-ДАНА,200, – 281с.



Репетиторство

Нужна помощь по изучению какой-либы темы?

Наши специалисты проконсультируют или окажут репетиторские услуги по интересующей вас тематике.
Отправь заявку с указанием темы прямо сейчас, чтобы узнать о возможности получения консультации.

Введение. 2

1. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 3

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 6

Заключение. 15

После построения уравнения регрессии необходимо сделать проверку его значимости: с помощью специальных критериев установить, не является ли полученная зависимость, выраженная уравнением регрессии, случайной, т.е. можно ли ее использовать в прогнозных целях и для факторного анализа. В статистике разработаны методики строгой проверки значимости коэффициентов регрессии с помощью дисперсионного анализа и расчета специальных критериев (например, F-критерия). Нестрогая проверка может быть выполнена путем расчета среднего относительного линейного отклонения (ё), называемого средней ошибкой аппроксимации:

Перейдем теперь к оценке значимости коэффициентов регрессии bj и построению доверительного интервала для параметров регрессионной модели Ру (J=l,2,..., р).

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия Стьюдента. Расчетные значения ta сравниваются с допустимым значением

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия. Расчетные значения t0n сравниваются с допустимым значением 4,/, которое определяется по таблицам t - распределения для заданной вероятности ошибок (а) и числа степеней свободы (/).

Кроме проверки значимости всей модели, необходимо провести проверки значимости коэффициентов регрессии по /-критерию Стюдента. Минимальное значение коэффициента регрессии Ьг должно соответствовать условию bifob- ^t, где bi - значение коэффициента уравнения регрессии в натуральном масштабе при i-ц факторном признаке; аь. - средняя квадратическая ошибка каждого коэффициента. несопоставимость между собой по своей значимости коэффициентов D;

Дальнейший статистический анализ касается проверки значимости коэффициентов регрессии. Для этого находим значение ^-критерия для коэффициентов регрессии. В результате их сравнения определяется наименьший по величине ^-критерий. Фактор, коэффициенту которого соответствует наименьший ^-критерий, исключается из дальнейшего анализа.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стъюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Но о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Оценка значимости коэффициентов чистой регрессии с помощью /-критерия Стьюдента сводится к вычислению значения

Качество труда - характеристика конкретного труда, отражающая степень его сложности, напряженности (интенсивности), условия и значимость для развития экономики. К.т. измеряется посредством тарифной системы, позволяющей дифференцировать заработную плату в зависимости от уровня квалификации (сложности труда), условий, тяжести труда и его интенсивности, а также значимости отдельных отраслей и производств, районов, территорий для развития экономики страны. К.т. находит выражение в заработной плате работников, складывающейся на рынке труда под воздействием спроса и предложения рабочей силы (конкретные виды труда). К.т. - сложная по структуре

Полученные баллы относительной значимости отдельных экономических, социальных и экологических последствий осуществления проекта дают далее основу для сравнения альтернативных проектов и их вариантов с помощью "комплексного балльного безразмерного критерия социальной и эколого-экономической эффективности" проекта Эк, рассчитываемого (в усредненных баллах значимости) по формуле

Внутриотраслевое регулирование обеспечивает различия в оплате труда работников данной отрасли промышленности в зависимости от значимости отдельных.видов производства данной отрасли, от сложности и условий труда, а также от применяемых форм оплаты труда.

Полученная рейтинговая оценка анализируемого предприятия по отношению к предприятию-эталону без учета значимости отдельных показателей является сравнительной. При сравнении рейтинговых оценок нескольких предприятий наивысший рейтинг имеет предприятие с минимальным значением полученной сравнительной оценки.

Понимание качества товара как меры его полезности ставит практически важный вопрос об её измерении. Его решение достигается изучением значимости отдельных свойств в удовлетворении определенной потребности. Значимость даже одного и того же свойства может быть неодинаковой в зависимости от условий потребления продукта. Следовательно, и полезность товара в разных обстоятельствах её использования различна.

Второй этап работы - изучение статистических данных и выявление взаимосвязи и взаимодействия показателей, определение значимости отдельных факторов и причин изменения общих показателей.

Все рассматриваемые показатели сводятся в один таким образом, что в результате получается комплексная оценка всех анализируемых сторон деятельности предприятия с учетом условий его деятельности, с учетом степени значимости отдельных показателей для различных типов инвесторов:

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предварительная стандартизация факторных показателей, то Ь0 равняется среднему значению результативного показателя в совокупности. Коэффициенты Ь, Ь2 ..... Ьл показывают, на сколько единиц уровень результативного показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии характеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициентов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных уравнений).

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента

Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то производят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии имеет вид:


где k - число факторных признаков.

Чтобы упростить систему уравнений МНК, необходимую для вычисления параметров уравнения (8.32), обычно вводят величины отклонений индивидуальных значений всех признаков от средних величин этих признаков.

Получаем систему k уравнений МНК:

Решая эту систему, получаем значения коэффициентов условно-чистой регрессии b. Свободный член уравнения вычисляется по формуле


Термин «коэффициент условно-чистой регресии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют.

Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины bj. можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты bj. не свободны от примеси влияния факторов, не входящих в уравнение.

Включить все факторы в уравнение регрессии невозможно по одной из трех причин или сразу по ним всем, так как:

1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное;

2) по части известных теоретических факторов нет информации либо таковая ненадежна;

3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов.

Коэффициенты условно-чистой регрессии bj. являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или?-коэффициентом.


Коэффициент при факторе хj, определяет меру влияния вариации фактора хj на вариацию результативного признака у при отвлечении от сопутствующей вариации других факторов, входящих в уравнение регрессии.

Коэффициенты условно-чистой регрессии полезно выразить в виде относительных сравнимых показателей связи, коэффициентов эластичности:

Коэффициент эластичности фактора хj говорит о том, что при отклонении величины данного фактора от его средней величины на 1% и при отвлечении от сопутствующего отклонения других факторов, входящих в уравнение, результативный признак отклонится от своего среднего значения на ej процентов от у. Чаще интерпретируют и применяют коэффициенты эластичности в терминах динамики: при увеличении фактора х.на 1% его средней величины результативный признак увеличится на е. процентов его средней величины.

Рассмотрим расчет и интерпретацию уравнения многофакторной регрессии на примере тех же 16 хозяйств (табл. 8.1). Результативный признак - уровень валового дохода и три фактора, влияющих на него, представлены в табл. 8.7.

Напомним еще раз, что для получения надежных и достаточно точных показателей корреляционной связи необходима более многочисленная совокупность.


Таблица 8.7

Уровень валового дохода и его факторы

Номера хозяйств

Валовой доход, руб./ra у

Затраты труда, чел.-дни/га х1

Доля пашни,

Надой молока на 1 корову,

Таблица 8.8 Показатели уравнения регрессии

Dependent variable: у

Regression coefficient

Constant-240,112905

Std. error оf est. = 79,243276


Решение проведено по программе «Microstat» для ПЭВМ. Приведем таблицы из распечатки: табл. 8.7 дает средние величины и средние квадратические отклонения всех признаков. Табл. 8.8 содержит коэффициенты регрессии и их вероятностную оценку:

первая графа «var» - переменные, т. е. факторы; вторая графа «regression coefficient» - коэффициенты условно-чистой регрессии bj; третья графа «std. errror» - средние ошибки оценок коэффициентов регрессии; четвертая графа - значения t-критерия Стьюдента при 12 степенях свободы вариации; пятая графа «prob» - вероятности нулевой гипотезы относительно коэффициентов регрессии;

шестая графа «partial r2» - частные коэффициенты детерминации. Содержание и методика расчета показателей в графах 3-6 рассматриваются далее в главе 8. «Constant» - свободный член уравнения регрессии a; «Std. error of est.» - средняя квадратическая ошибка оценки результативного признака по уравнению регрессии. Было получено уравнение множественной регрессии:

у= 2,26x1 - 4,31х2 + 0,166х3 - 240.

Это означает, что величина валового дохода на 1 га сельхозугодий в среднем по совокупности возрастала на 2,26 руб. при увеличении затрат труда на 1 ч/га; уменьшалась в среднем на 4,31 руб. при возрастании доли пашни в сельхозугодиях на 1% и увеличивалась на 0,166 руб. при росте надоя молока на корову на 1 кг. Отрицательная величина свободного члена вполне закономерна, и, как уже отмечено в п. 8.2, результативный признак - валовой доход становится нулевым задолго до достижения нулевых значений факторов, которое в производстве невозможно.

Отрицательное значение коэффициента при х^ - сигнал о существенном неблагополучии в экономике изучаемых хозяйств, где растениеводство убыточно, а прибыльно только животноводство. При рациональных методах ведения сельского хозяйства и нормальных ценах (равновесных или близких к ним) на продукцию всех отраслей, доход должен не уменьшаться, а возрастать с увеличением наиболее плодородной доли в сельхозугодиях - пашни.

На основе данных предпоследних двух строк табл. 8.7 и табл. 8.8 рассчитаем р-коэффициенты и коэффициенты эластичности согласно формулам (8.34) и (8.35).

Как на вариацию уровня дохода, так и на его возможное изменение в динамике самое сильное влияние оказывает фактор х3 - продуктивность коров, а самое слабое - х2 - доля пашни. Значения Р2/ будут использоваться в дальнейшем (табл. 8.9);

Таблица 8.9 Сравнительное влияние факторов на уровень дохода

Факторы хj


Итак, мы получили, что?-коэффициент фактора хj относится к коэффициенту эластичности этого фактора, как коэффициент вариации фактора к коэффициенту вариации результативного признака. Поскольку, как видно по последней строке табл. 8.7, коэффициенты вариации всех факторов меньше коэффициента вариации результативного признака; все?-коэффициенты меньше коэффициентов эластичности.

Рассмотрим соотношение между парным и условно-чистым коэффициентом регрессии на примере фактора -с,. Парное линейное уравнение связи у с х, имеет вид:

y = 3,886x1 – 243,2

Условно-чистый коэффициент регрессии при x1, составляет только 58% парного. Остальные 42% связаны с тем, что вариации x1 сопутствует вариация факторов x2 x3, которая, в свою очередь, влияет на результативный признака. Связи всех признаков и их коэффициенты парных регрессий представлены на графе связей (рис. 8.2).


Если сложить оценки прямого и опосредованного влияния вариации х1 на у, т. е. произведения коэффициентов парных регрессий по всем «путям» (рис. 8.2), получим: 2,26 + 12,55·0,166 + (-0,00128)·(-4,31) + (-0,00128)·17,00·0,166 = 4,344.

Эта величина даже больше парного коэффициента связи x1 с у. Следовательно, косвенное влияние вариации x1 через не входящие в уравнение признаки-факторы - обратное, дающее в сумме:

1 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. - М.: ЮНИТИ, 2008,– 311с.

2 Джонстон Дж. Эконометрические методы. - М.: Статистика, 1980,. – 282с.

3 Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2004, – 354с.

4 Дрейер Н., Смит Г., Прикладной регрессионный анализ. - М.: Финансы и статистика, 2006,– 191с.

5 Магнус Я.Р., Картышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.-М.: Дело, 2006, – 259с.

6 Практикум по эконометрике/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 248с.

7 Эконометрика/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 541с.

8 Кремер Н., Путко Б. Эконометрика.- М.:ЮНИТИ-ДАНА,200, – 281с.


Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. - М.: ЮНИТИ, 2008,–с. 23.

Кремер Н., Путко Б. Эконометрика.- М.:ЮНИТИ-ДАНА,200, –с.64

Дрейер Н., Смит Г., Прикладной регрессионный анализ. - М.: Финансы и статистика, 2006,– с57.

Практикум по эконометрике/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, –с 172.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.



Открытие бизнеса