Статистическое изучение взаимосвязей. Коэффициенты корреляции рангов спирмена, кендалла, коэффициент фехнера

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле :

где , - среднее значение выборок.

Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы .

    Коэффициент ранговой корреляции Кендалла

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

,

большим значением рангов Y.

Суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

  1. Коэффициент ранговой корреляции Спирмена

Степень зависимости двух случайных величин (признаков) X и Y может характеризоваться на основе анализа получаемых результатов . Каждому показателю X и Y присваивается ранг. Ранги значений X расположены в естественном порядке i=1, 2, . . ., n. Ранг Y записывается как Ri и соответствует рангу той пары (X, Y), для которой ранг X равен i. На основе полученных рангов Х i и Yi рассчитываются их разности и вычисляется коэффициент корреляции Спирмена:

Значение коэффициента меняется от −1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.

  1. Коэффициент корреляции знаков Фехнера

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

C - число пар, у которых знаки отклонений значений от их средних совпадают.

H - число пар, у которых знаки отклонений значений от их средних не совпадают.

Литература: http://ru.wikipedia.org/wiki/%CA%EE%F0%F0%E5%EB%FF%F6%E8%FF

9. вычислите коэффициент корреляции Спирмэна.

Оценка взаимосвязи показателей: X – место занятое в стрельбе из винтовки; Y – количество попаданий в десятку. Все прочие условия примерно одинаковы. Результаты соревнований представлены в Таблице №1

Таблица №1 Расчет рангового коэффициента корреляции Спирмэна.

Пояснение:

шаг 1. Проранжировать (упорядочить и приписать порядковые номера) показатели X и Y. Так как X упорядочен и обозначает соответствующие ранги, перепишем его в столбец 3. показателю Y приписываем ранги следующим образом: значению 10 – ранг 1; 9 – ранг (2+3)/2=2,5; 8 – ранг 4; 7 – ранг 5 и т. д. (столбец 4)

шаг 2. вычислить разность рангов d=Dx-Dy(столбец 5)

шаг 3. вычислить квадрат разности d=(Dx-Dy)2 (столбец 6)

шаг 4. вычислить сумму квадратов разности

Коэффициент Фехнера - это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такими коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков .

Назначение сервиса . Данный сервис предназначен для расчета коэффициент Фехнера в онлайн режиме. Также определяется значимость данного коэффициента (см. пример решения).

Инструкция . Укажите количество данных (количество строк), нажмите Далее. Полученное решение сохраняется в файле Word . Также автоматически создается шаблон для проверки решения в Excel .

Количество строк (исходных данных)

Расчет коэффициента Фехнера состоит из следующих этапов:

  1. Определяют средние значения для каждого признака (X и Y).
  2. Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.
  3. Если знаки совпадают, присваивают значение А, иначе В.
  4. Считают количество А и В, вычисляя коэффициент Фехнера по формуле: K ф = (n a - n b)/(n a + n b) где n a - число совпадений знаков отклонений индивидуальных величин от средней; n b - число несовпадений.
Коэффициент Фехнера изменяется в пределах [-1;+1] и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Графическое представление коэффициента Фехнера

Пример . При разработке глинистого раствора с пониженной водоотдачей в высокотемпературных условиях проводили параллельное испытание двух рецептур, одна из которых содержала 2% КМЦ и 1% Na2CO3, а другая 2% КМЦ, 1% Na2CO3 и 0,1% бихромата калия. В результате получена следующие значения Х (водоотдача через 30 с).

X1 9 9 11 9 8 11 10 8 10
X2 10 11 10 12 11 12 12 10 9
Проверит, различимы ли рассматриваемые растворы по значению водоотдачи.

Коэффициент корреляции, предложенный во II–й половине XIX века Г. Т. Фехнером, является наиболее простой мерой связи между двумя переменными. Он основан на сопоставлении двух психологических признаков x i и y i , измеренных на одной и той же выборке, по сопоставлению знаков отклонений индивидуальных значений от среднего: и
. Вывод о корреляции между двумя переменными делается на основании подсчета числа совпадений и несовпадений этих знаков.

Пример

Пусть x i и y i – два признака, измеренные на одной и той же выборке испытуемых. Для вычисления коэффициента Фехнера необходимо вычислить средние значения для каждого признака, а также для каждого значения переменной – знак отклонения от среднего (табл. 8.1):

Таблица 8.1

x i

y i

Обозначение

В таблице: а – совпадения знаков, b – несовпадения знаков; n a – число совпадений, n b – число несовпадений (в данном случае n a = 4, n b = 6).

Коэффициент корреляции Фехнера вычисляется по формуле:

(8.1)

В рассматриваемом случае:

Вывод

Между исследуемыми переменными существует слабая отрицательная связь.

Необходимо отметить, что коэффициент корреляции Фехнера не является достаточно строгим критерием, поэтому его можно использовать лишь на начальном этапе обработки данных и для формулировки предварительных выводов.

8. 4. Коэффициент корреляции Пирсона

Исходный принцип коэффициента корреляции Пирсона – использование произведения моментов (отклонений значения переменной от среднего значения):

Если сумма произведений моментов велика и положительна, то х и у связаны прямой зависимостью; если сумма велика и отрицательна, то х и у сильно связаны обратной зависимостью; наконец, в случае отсутствия связи между x и у сумма произведений моментов близка к нулю.

Для того чтобы статистика не зависела от объема выборки, берется не сумма произведений моментов, а среднее значение. Однако деление производится не на объем выборки, а на число степеней свободы n - 1.

Величина
является мерой связи междух и у и называется ковариацией х и у .

Во многих задачах естественных и технических наук ковариация является вполне удовлетворительной мерой связи. Ее недостатком является то, что диапазон ее значений не фиксирован, т. е. она может варьировать в неопределенных пределах.

Для того чтобы стандартизировать меру связи, необходимо избавить ковариацию от влияния стандартных отклонений. Для этого надо разделить S xy на s x и s y:

(8.3)

где r xy - коэффициент корреляции, или произведение моментов Пирсона.

Общая формула для вычисления коэффициента корреляции выглядит следующим образом:

(некоторые преобразования)

(8.4)

Влияние преобразования данных на r xy:

1. Линейные преобразования x и y типа bx + a и dy + c не изменят величину корреляции между x и y .

2. Линейные преобразования x и y при b < 0, d > 0, а также при b > 0 и d < 0 изменяют знак коэффициента корреляции, не меняя его величины.

Достоверность (или, иначе, статистическая значимость) коэффициента корреляции Пирсона может быть определена разными способами:

По таблицам критических значений коэффициентов корреляции Пирсона и Спирмена (см. Приложение, табл. XIII). Если полученное в расчетах значение r xy превышает критическое (табличное) значение для данной выборки, коэффициент Пирсона считается статистически значимым. Число степеней свободы в данном случае соответствует n – 2, где n – число пар сравниваемых значений (объем выборки).

По таблице XV Приложений, которая озаглавлена «Количество пар значений, необходимое для статистической значимости коэффициента корреляции». В данном случае необходимо ориентироваться на коэффициент корреляции, полученный в вычислениях. Он считается статистически значимым, если объем выборки равен или превышает табличное число пар значений для данного коэффициента.

По коэффициенту Стьюдента, который вычисляется как отношение коэффициента корреляции к его ошибке:

(8.5)

Ошибка коэффициента корреляции вычисляется по следующей формуле:

где m r - ошибка коэффициента корреляции, r - коэффициент корреляции; n - число сравниваемых пар.

Рассмотрим порядок вычислений и определение статистической значимости коэффициента корреляции Пирсона на примере решения следующей задачи.

Условие задачи

22 старшеклассника были протестированы по двум тестам: УСК (уровень субъективного контроля) и МкУ (мотивация к успеху). Получены следующие результаты (табл. 8.2):

Таблица 8.2

УСК (x i )

МкУ (y i )

УСК (x i )

МкУ (y i )

Задание

Проверить гипотезу о том, что для людей с высоким уровнем интернальности (балл УСК) характерен высокий уровень мотивации к успеху.

Решение

1. Используем коэффициент корреляции Пирсона в следующей модификации (см. формулу 8.4):

Для удобства обработки данных на микрокалькуляторе (в случае отсутствия необходимой компьютерной программы) рекомендуется оформление промежуточной рабочей таблицы следующего вида (табл. 8.3):

Таблица 8.3

x i y i

x 1 y 1

x 2 y 2

x 3 y 3

x n y n

Σx i y i

2. Проводим вычисления и подставляем значения в формулу:

3. Определяем статистическую значимость коэффициента корреляции Пирсона тремя способами:

1-й способ:

В табл. XIII Приложений находим критические значения коэффициента для 1-го и 2-го уровней значимости: r кр. = 0,42; 0,54 (ν = n – 2 = 20).

Делаем вывод о том, r xy > r кр . , т. е. корреляция является статистически значимой для обоих уровней.

2-й способ:

Воспользуемся табл. XV, в которой определяем число пар значений (число испытуемых), достаточное для статистической значимости коэффициента корреляции Пирсона, равного 0,58: для 1-го, 2-го и 3-го уровней значимости оно составляет, соответственно, 12, 18 и 28.

Отсюда мы делаем вывод о том, что коэффициент корреляции является значимым для 1-го и 2-го уровня, но «не дотягивает» до 3-го уровня значимости.

3-й способ:

Вычисляем ошибку коэффициента корреляции и коэффициент Стьюдента как отношение коэффициента Пирсона к ошибке:

В табл. X находим стандартные значения коэффициента Стьюдента для 1-го, 2-го и 3-го уровней значимости при числе степеней свободы ν = n – 2 = 20: t кр. = 2,09; 2,85; 3,85.

Общий вывод

Корреляция между показателями тестов УСК и МкУ является статистически значимой для 1-го и 2-го уровней значимости.

Примечание:

При интерпретации коэффициента корреляции Пирсона необходимо учитывать следующие моменты:

    Коэффициент Пирсона может использоваться для различных шкал (шкала отношений, интервальная или порядковая) за исключением дихотомической шкалы.

    Корреляционная связь далеко не всегда означает связь причинно-следственную. Другими словами, если мы нашли, предположим, положительную корреляцию между ростом и весом у группы испытуемых, то это вовсе не означает, что рост зависит от веса или наоборот (оба этих признака зависят от третьей (внешней) переменной, каковая в данном случае связана с генетическими конституциональными особенностями человека).

    r xu » 0 может наблюдаться не только при отсутствии связи между x и y , но и в случае сильной нелинейной связи (рис. 8.2 а). В данном случае отрицательная и положительная корреляции уравновешиваются и в результате создается иллюзия отсутствия связи.

    r xy может быть достаточно мал, если сильная связь между х и у наблюдается в более узком диапазоне значений, чем исследуемый (рис. 8.2 б).

    Объединение выборок с различными средними значениями может создавать иллюзию достаточно высокой корреляции (рис. 8.2 в).

y i y i y i

+ + . .

x i x i x i

Рис. 8.2. Возможные источники ошибок при интерпретации величины коэффициента корреляции (объяснения в тексте (пункты 3 – 5 примечания))

И некоторые ранговые коэффициенты

Кроме рассмотренных в подразд. 10.2 коэффициента кор-

Реляции, коэффициента детерминации, корреляционного от-

Ношения, существуют и другие коэффициенты для оценки

Степени тесноты корреляционной связи между изучаемыми

Явлениями, причем формулы для их нахождения достаточно

Просты. Рассмотрим некоторые из таких коэффициентов.

Коэффициент корреляции знаков Фехнера

Этот коэффициент является простейшим показателем

Степени тесноты связи, он был предложен немецким ученым

Г. Фехнером. Данный показатель основан на оценке степени

Согласованности направлений отклонений индивидуальных

Значений факторного и результативного признаков от соот-

Ветствующих средних значений. Для его определения вычис-

Ляют средние значения результативного () и факторного ()

Признаков, а затем находят знаки отклонений от средних для

Всех значений результативного и факторного признаков. Если

сравниваемое значение больше среднего, то ставится знак “+”,

а если меньше - знак “-”. Совпадение знаков по отдельным

значениям рядов x и y означает согласованную вариацию, а их

Несовпадение - нарушение согласованности.

Коэффициент Фехнера находится по следующей формуле:

, (10.40)

где С - число совпадений знаков отклонений индивидуаль-

Ных значений от средней величины;

Н - число несовпадений знаков отклонений индивидуаль-

Ных значений от средней величины.

Заметим, что -1 ≤ Кф ≤ 1. При Кф = ±1 имеем полную пря-

мую или обратную согласованность. При Кф = 0 - связь между

Рядами наблюдений отсутствует.

По исходным данным примера 10.1 рассчитаем коэффици-

Ент Фехнера. Необходимые данные для его определения помес-

тим в табл. 10.4.

Из табл. 10.4 находим, что С = 6; Н = 0, поэтому по форму-

ле (10.40) получаем: , т. е. полную прямую зависимость

между хищениями оружия (х ) и вооруженными преступлени-

ями (y ). Полученное значение Кф подтверждает вывод, сделан-

Ный после вычисления коэффициента корреляции о том, что

Между рядами x и y существует достаточно близкая прямая

Линейная зависимость.

Таблица 10.4

Хищение

оружия, x

Вооруженные

преступления, y

Знаки отклонения от средней

773 4481 − −

1130 9549 − −

1138 8873 − −

1336 12160 + +

1352 18059 + +

1396 19154 + +

Коэффициент корреляции рангов Спирмэна

Данный коэффициент относится к ранговым, т. е. коррели-

Руются не сами значения факторного и результативного при-

Знаков, а их ранги (номера их мест, занимаемых в каждом ряду

Значений по возрастанию или убыванию). Коэффициент кор-

Реляции рангов Спирмэна основан на рассмотрении разности

Рангов значений факторного и результативного признаков. Для

его нахождения используется следующая формула:

, (10.41)

Где - квадрат разности рангов.

Рассчитаем коэффициент Спирмэна по данным рассмат-

Риваемого примера 10.1. Так как значение факторного призна-

ка х мы изначально расположили по возрастанию, то ряд х ран-

жировать не надо. Ранжируем (от меньшего к большему) ряд y .

Все необходимые данные для расчета помещены в табл. 10.5.

Таблица 10.5

Ранги Rgx ряда х Ранги Rgy ряда y |di | = |Rgxi Rgyi |

Теперь по формуле (10.41) получаем

Заметим, что -1 ≤ ρc ≤ 1, т. е. полученное значение показыва-

Ет, что между хищениями оружия и вооруженными преступле-

Общее представление о корреляционно-регрессивном анализе

Существующие между явлениями формы и виды связей весьма разнообразны по своей классификации. являются только такие из них, которые имеют количественный характер и изучаются с помощью количественных методов. Рассмотрим метод корреляционно-регрессионного анализа, который является основным в изучении взаимосвязей явлений.

Данный метод содержит две свои составляющие части — корреляционный анализ и регрессионный анализ. Корреляционный анализ — это количественный метод определения тесноты и направления взаимосвязи между выборочными переменными величинами. Регрессионный анализ — это количественный метод определения вида математической функции в причинно-следственной зависимости между переменными величинами.

Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока: слабая — от 0,1 до 0,3; умеренная — от 0,3 до 0,5; заметная — от 0,5 до 0,7; высокая — от 0,7 до 0,9; весьма высокая (сильная) — от 0,9 до 1,0. Она используется далее в примерах по теме.

Линейная корреляция

Данная корреляция характеризует линейную взаимосвязь в вариациях переменных. Она может быть парной (две коррелирующие переменные) или множественной (более двух переменных), прямой или обратной — положительной или отрицательной, когда переменные варьируют соответственно в одинаковых или разных направлениях.

Если переменные — количественные и равноценные в своих независимых наблюдениях при их общем количестве , то важнейшими эмпирическими мерами тесноты их линейной взаимосвязи являются коэффициент прямой корреляции знаков австрийского психолога Г.Т.Фехнера (1801-1887) и коэффициенты парной, чистой (частной) и множественной (совокупной) корреляции английского статистика-биометрика К.Пирсона (1857-1936).

Коэффициент парной корреляции знаков Фехнера определяет согласованность направлений в индивидуальных отклонениях переменных и от своих средних и . Он равен отношению разности сумм совпадающих () и несовпадающих () пар знаков в отклонениях и к сумме этих сумм:

Величина Кф изменяется от -1 до +1. Суммирование в (1) производится по наблюдениям, которые не указаны в суммах ради упрощения. Если какое-то одно отклонение или , то оно не входит в расчет. Если же сразу оба отклонения нулевые: , то такой случай считается совпадающим по знакам и входит в состав . В таблице 12.1. показана подготовка данных для расчета (1).

Таблица 12.1 Данные для расчета коэффициента Фехнера.

Число работников, тыс. чел.

Товарооборот, у.е.

Отклонение от средних

Сравнение знаков и

совпа-дение
(С к)

несов-падение (Н к)

По (1) имеем К ф = (3 — 2)/(3 + 2) = 0,20 . Направление взаимосвязи в вариациях!!Средняя численность работников|численности работников]] и — положительное (прямолинейное): знаки в отклонениях и и в своем большинстве (в 3 случаях из 5) совпадают между собой. Теснота взаимосвязи переменных по шкале Чеддока — слабая.

Коэффициенты парной, чистой (частной) и множественной (совокупной) линейной корреляции Пирсона, в отличие от коэффициента Фехнера, учитывают не только знаки, но и величины отклонений переменных. Для их расчета используют разные методы. Так, согласно методу прямого счета по несгруппированным данным, коэффициент парной корреляции Пирсона имеет вид:

Этот коэффициент также изменяется от -1 до +1. При наличии нескольких переменных рассчитывается коэффициент множественной (совокупной) линейной корреляции Пирсона. Для трех переменных x, y, z он имеет вид

Этот коэффициент изменяется от 0 до 1. Если элиминировать (совсем исключить или зафиксировать на постоянном уровне) влияние на и , то их "общая" связь превратится в "чистую", образуя чистый (частный) коэффициент линейной корреляции Пирсона:

Этот коэффициент изменяется от -1 до +1. Квадраты коэффициентов корреляции (2)-(4) называются коэффициентами (индексами) детерминации — соответственно парной, чистой (частной), множественной (совокупной):

Каждый из коэффициентов детерминации изменяется от 0 до 1 и оценивает степень вариационной определенности в линейной взаимосвязи переменных, показывая долю вариации одной переменной (y), обусловленную вариацией другой (других) — x и y. Многомерный случай наличия более трех переменных здесь не рассматривается.

Согласно разработкам английского статистика Р.Э. Фишера (1890-1962), статистическая значимость парного и чистого (частного) коэффициентов корреляции Пирсона проверяется в случае нормальности их распределения, на основании -распределения английского статистика В.С. Госсета (псевдоним "Стьюдент"; 1876-1937) с заданным уровнем вероятностной значимости и имеющейся степени свободы , где — число связей (факторных переменных). Для парного коэффициента имеем его среднеквадратическую ошибку и фактическое значение -критерия Стьюдента:

Для чистого коэффициента корреляции при расчете его вместо (n-2) надо брать , т.к. в этом случае имеется m=2 (две факторные переменные x и z). При большом числе n>100 вместо (n-2) или (n-3) в (6) можно брать n, пренебрегая точностью расчета.

Если t r > t табл. , то коэффициент парной корреляции — общий или чистый является статистически значимым, а при t r ≤ t табл. — незначимым.

Значимость коэффициента множественной корреляции R проверяется по F — критерию Фишера путем расчета его фактического значения

При F R > F табл. коэффициент R считается значимым с заданным уровнем значимости a и имеющихся степенях свободы и , а при F r ≤ F табл — незначимым.

В совокупностях большого объема n > 100 для оценки значимости всех коэффициентов Пирсона вместо критериев t и F применяется непосредственно нормальный закон распределения (табулированная функция Лапласа-Шеппарда).

Наконец, если коэффициенты Пирсона не подчиняются нормальному закону, то в качестве критерия их значимости используется Z — критерий Фишера, который здесь не рассматривается.

Условный пример расчета (2) — (7)дан в табл. 12.2, где взяты исходные данные табл.12.1 с добавлением к ним третьей переменной z — размера общей площади магазина (в 100 кв. м).

Таблица 12.2. Подготовка данных для расчета коэффициентов корреляции Пирсона

Показатели

Согласно (2) — (5), коэффициенты линейной корреляции Пирсона равны:

Взаимосвязь переменных x и y является положительной, но не тесной, составляя по их парному коэффициенту корреляции величину и по чистому — величину и оценивалась по шкале Чеддока соответственно как "заметная" и "слабая".

Коэффициенты детерминации d xy =0,354 и d xy . z = 0,0037 свидетельствуют, что вариация у (товарооборота) обусловлена линейной вариацией x (численности работников) на 35,4% в их общей взаимосвязи и в чистой взаимосвязи — только на 0,37% . Такое положение обусловлено значительным влиянием на x и y третьей переменной z — занимаемой магазинами общей площади. Теснота ее взаимосвязи с ними составляет соответственно r xz =0,677 и r yz =0,844 .

Коэффициент множественной (совокупной) корреляции трех переменных показывает, что теснота линейной взаимосвязи x и z c y составляет величину R = 0,844 , оцениваясь по шкале Чеддока как "высокая", а коэффициент множественный детерминации — величину D=0,713 , свидетельствуя, что 71,3 % всей вариации у (товарооборота) обусловлены совокупным воздействием на нее переменных x и z . Остальные 28,7% обусловлены воздействием на y других факторов или же криволинейной связью переменных y, x, z .

Для оценки значимости коэффициентов корреляции возьмем уровень значимости . По исходным данным имеем степени свободы для и для . По теоретической таблице находим соответственно t табл.1. = 3,182 и t табл.2. = 4,303. Для F-критерия имеем и и по таблице находим F табл. = 19,0. Фактические значения каждого критерия по (6) и (7) равны:

Все расчетные критерии меньше своих табличных значений: все коэффициенты корреляции Пирсона статистически незначимы.



Закрытие ИП