Линейный коэффициент корреляции изменяется в пределах. Статистика и обработка данных в психологии(продолжение). Оценка тесноты связи

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. Для этого используются методы корреляции.

  1. Виды проявления количественных связей между признаками
    • функциональная связь
    • корреляционная связь
  2. Определения функциональной и корреляционной связи

    Функциональная связь - такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для физико-математических процессов.

    Корреляционная связь - такая связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов.

  3. Практическое значение установления корреляционной связи . Выявление причинно-следственной между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.)

    Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др.

  4. Величина, характеризующая направление и силу связи между признаками . Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1
  5. Способы представления корреляционной связи
    • график (диаграмма рассеяния)
    • коэффициент корреляции
  6. Направление корреляционной связи
    • прямая
    • oбратная
  7. Сила корреляционной связи
    • сильная: ±0,7 до ±1
    • средняя: ±0,3 до ±0,699
    • слабая: 0 до ±0,299
  8. Методы определения коэффициента корреляции и формулы
    • метод квадратов (метод Пирсона)
    • ранговый метод (метод Спирмена)
  9. Методические требования к использованию коэффициента корреляции
    • измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту)
    • расчет может производиться с использованием абсолютных или производных величин
    • для вычисления коэффициента корреляции используются не сгруппированные вариационные ряды (это требование применяется только при вычислении коэффициента корреляции по методу квадратов)
    • число наблюдений не менее 30
  10. Рекомендации по применению метода ранговой корреляции (метод Спирмена)
    • когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных
    • когда признаки представлены не только количественными, но и атрибутивными значениями
    • когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года и др.)
  11. Рекомендации к применению метода квадратов (метод Пирсона)
    • когда требуется точное установление силы связи между признаками
    • когда признаки имеют только количественное выражение
  12. Методика и порядок вычисления коэффициента корреляции

    1) Метод квадратов

    2) Ранговый метод

  13. Схема оценки корреляционной связи по коэффициенту корреляции
  14. Вычисление ошибки коэффициента корреляции
  15. Оценка достоверности коэффициента корреляции,полученного методом ранговой корреляции и методом квадратов

    Способ 1
    Достоверность определяется по формуле:

    Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.

    Способ 2
    Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.

на применение метода квадратов

Задание: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод.

Таблица 1

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

Решение .
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды
(в градусах)
Количество кальция в воде
(в мг/л)
d х d у d х х d у d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х =Σ х / n М у =Σ у / n Σ d х x d у =7078 Σ d х 2 =982 Σ d y 2 =51056
М х =120/6=20 М y =852/6=142
  1. Определить средние величины M x ряду вариант "х" и М у в ряду вариант "у" по формулам:
    М х = Σх/n (графа 1) и
    М у = Σу/n (графа 2)
  2. Найти отклонение (d х и d у) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
    d х = х - М х (графа 3) и d y = у - М у (графа4).
  3. Найти произведение отклонений d x х d y и суммировать их: Σ d х х d у (графа 5)
  4. Каждое отклонение d x и d у возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ d x 2 = 982 (графа 6) и Σ d y 2 = 51056 (графа 7).
  5. Определить произведение Σ d x 2 х Σ d y 2 и из этого произведения извлечь квадратный корень
  6. Полученные величины Σ (d x x d y) и √(Σd x 2 x Σd y 2) подставляем в формулу расчета коэффициента корреляции:
  7. Определить достоверность коэффициента корреляции:
    1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:

    Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.

    2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см. приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше табличного (r табл = + 0,917 при р = 99%).

    Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная : r ху = + 0,99, р > 99,9%).

    на применение рангового метода

    Задание: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

    Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.

    Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.

    Таблица 2

    Стаж работы в годах Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
    X Y d(х-у) d 2
    До 1 года 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 и более 6 5 1 +4 16
    Σ d 2 = 38,5

    Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)

    Число степеней свободы - 2 Уровень вероятности р (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
    2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
    5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

Различные признаки могут быть связаны между собой.

Выделяют 2 вида связи между ними:

  • функциональная;
  • корреляционная.

Корреляция в переводе на русский язык – не что иное, как связь.
В случае корреляционной связи прослеживается соответствие нескольких значений одного признака нескольким значениям другого признака. В качестве примеров можно рассмотреть установленные корреляционные связи между:

  • длиной лап, шеи, клюва у таких птиц как цапли, журавли, аисты;
  • показателями температуры тела и частоты сердечных сокращений.

Для большинства медико-биологических процессов статистически доказано присутствие этого типа связи.

Статистические методы позволяют установить факт существования взаимозависимости признаков. Использование для этого специальных расчетов приводит к установлению коэффициентов корреляции (меры связанности).

Такие расчеты получили название корреляционного анализа. Он проводится для подтверждения зависимости друг от друга 2-х переменных (случайных величин), которая выражается коэффициентом корреляции.

Использование корреляционного метода позволяет решить несколько задач:

  • выявить наличие взаимосвязи между анализируемыми параметрами;
  • знание о наличии корреляционной связи позволяет решать проблемы прогнозирования. Так, существует реальная возможность предсказывать поведение параметра на основе анализа поведения другого коррелирующего параметра;
  • проведение классификации на основе подбора независимых друг от друга признаков.

Для переменных величин:

  • относящихся к порядковой шкале, рассчитывается коэффициент Спирмена;
  • относящихся к интервальной шкале – коэффициент Пирсона.

Это наиболее часто используемые параметры, кроме них есть и другие.

Значение коэффициента может выражаться как положительным, так и отрицательными.

В первом случае при увеличении значения одной переменной наблюдается увеличение второй. При отрицательном коэффициенте – закономерность обратная.

Для чего нужен коэффициент корреляции?

Случайные величины, связанные между собой, могут иметь совершенно разную природу этой связи. Не обязательно она будет функциональной, случай, когда прослеживается прямая зависимость между величинами. Чаще всего на обе величины действует целая совокупность разнообразных факторов, в случаях, когда они являются общими для обеих величин, наблюдается формирование связанных закономерностей.

Это значит, что доказанный статистически факт наличия связи между величинами не является подтверждением того, что установлена причина наблюдаемых изменений. Как правило, исследователь делает вывод о наличии двух взаимосвязанных следствий.

Свойства коэффициента корреляции

Этой статистической характеристике присущи следующие свойства:

  • значение коэффициента располагается в диапазоне от -1 до +1. Чем ближе к крайним значениям, тем сильнее положительная либо отрицательная связь между линейными параметрами. В случае нулевого значения речь идет об отсутствии корреляции между признаками;
  • положительное значение коэффициента свидетельствует о том, что в случае увеличения значения одного признака наблюдается увеличение второго (положительная корреляция);
  • отрицательное значение – в случае увеличения значения одного признака наблюдается уменьшение второго (отрицательная корреляция);
  • приближение значения показателя к крайним точкам (либо -1, либо +1) свидетельствует о наличии очень сильной линейной связи;
  • показатели признака могут изменяться при неизменном значении коэффициента;
  • корреляционный коэффициент является безразмерной величиной;
  • наличие корреляционной связи не является обязательным подтверждением причинно-следственной связи.

Значения коэффициента корреляции

Охарактеризовать силу корреляционной связи можно прибегнув к шкале Челдока, в которой определенному числовому значению соответствует качественная характеристика.

В случае положительной корреляции при значении:

  • 0-0,3 – корреляционная связь очень слабая;
  • 0,3-0,5 – слабая;
  • 0,5-0,7 – средней силы;
  • 0,7-0,9 – высокая;
  • 0,9-1 – очень высокая сила корреляции.

Шкала может использоваться и для отрицательной корреляции. В этом случае качественные характеристики заменяются на противоположные.

Можно воспользоваться упрощенной шкалой Челдока, в которой выделяется всего 3 градации силы корреляционной связи:

  • очень сильная – показатели ±0,7 — ±1;
  • средняя – показатели ±0,3 — ±0,699;
  • очень слабая – показатели 0 — ±0,299.

Данный статистический показатель позволяет не только проверить предположение о существовании линейной взаимосвязи между признаками, но и установить ее силу.

Виды коэффициента корреляции

Коэффициенты корреляции можно классифицировать по знаку и значению:

  • положительный;
  • нулевой;
  • отрицательный.

В зависимости от анализируемых значений рассчитывается коэффициент:

  • Пирсона;
  • Спирмена;
  • Кендала;
  • знаков Фехнера;
  • конкорддации или множественной ранговой корреляции.

Корреляционный коэффициент Пирсона используется для установления прямых связей между абсолютными значениями переменных. При этом распределения обоих рядов переменных должны приближаться к нормальному. Сравниваемые переменные должны отличаться одинаковым числом варьирующих признаков. Шкала, представляющая переменные, должна быть интервальной либо шкалой отношений.

  • точного установления корреляционной силы;
  • сравнения количественных признаков.

Недостатков использования линейного корреляционного коэффициента Пирсона немного:

  • метод неустойчив в случае выбросов числовых значений;
  • с помощью этого метода возможно определение корреляционной силы только для линейной взаимосвязи, при других видах взаимных связей переменных следует использовать методы регрессионного анализа.

Ранговая корреляция определяется методом Спирмена, позволяющим статистически изучить связь между явлениями. Благодаря этому коэффициенту вычисляется фактически существующая степень параллелизма двух количественно выраженных рядов признаков, а также оценивается теснота, выявленной связи.

  • не требующих точного определения значение корреляционной силы;
  • сравниваемые показатели имеют как количественные, так и атрибутивные значения;
  • равнения рядов признаков с открытыми вариантами значений.

Метод Спирмена относится к методам непараметрического анализа, поэтому нет необходимости проверять нормальность распределения признака. К тому же он позволяет сравнивать показатели, выраженные в разных шкалах. Например, сравнение значений количества эритроцитов в определенном объеме крови (непрерывная шкала) и экспертной оценки, выражаемой в баллах (порядковая шкала).

На эффективность метода отрицательно влияет большая разница между значениями, сравниваемых величин. Не эффективен метод и в случаях когда измеряемая величина характеризуется неравномерным распределением значений.

Пошаговый расчет коэффициента корреляции в Excel

Расчёт корреляционного коэффициента предполагает последовательное выполнение ряда математических операций.

Приведенная выше формула расчета коэффициента Пирсона, показывает насколько трудоемок этот процесс если выполнять его вручную.
Использование возможностей Excell ускоряет процесс нахождения коэффициента в разы.

Достаточно соблюсти несложный алгоритм действий:

  • введение базовой информации – столбец значений х и столбец значений у;
  • в инструментах выбирается и открывается вкладка «Формулы»;
  • в открывшейся вкладке выбирается «Вставка функции fx»;
  • в открывшемся диалоговом окне выбирается статистическая функция «Коррел», позволяющая выполнить расчет корреляционного коэффициента между 2 массивами данных;
  • открывшееся окно вносятся данные: массив 1 – диапазон значений столбца х (данные необходимо выделить), массив 2 – диапазон значений столбца у;
  • нажимается клавиша «ок», в строке «значение» появляется результат расчета коэффициента;
  • вывод относительно наличия корреляционной связи между 2 массивами данных и ее силе.

Транскрипт

1 Иткина А.Я. Коэффициенты корреляции и специфика их применения Основное назначение корреляционного анализа выявление связи между двумя или более изучаемыми переменными. Чаще всего анализируется совместное согласованное изменение двух исследуемых показателей, являющихся случайными величинами. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой. По форме корреляционная связь может быть линейной или нелинейной. По направлению положительной или отрицательной. По силе тесной, слабой или отсутствовать. Корреляционный анализ возможен как на основе графического представления исходных данных, так и с помощью вычисления коэффициента корреляции и проверки его статистической значимости. Обычно одно исследование дополняет другое. В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r-пирсона, r-спирмена и τ-кендалла. В зависимости от решаемой задачи и от вида исходных данных стоит отдавать предпочтение одному из этих коэффициентов. Общим для них является то, что все упомянутые коэффициенты применяются для изучения взаимосвязи двух переменных, измеренных на одной и той же выборке. Они меняются в интервале от -1 до +1 и их знак показывает направление связи. Попробуем теперь разобраться в их различиях. Коэффициент корреляции Пирсона (Karl Pearson, английский математик, статистик, биолог и философ) применим, если обе переменные измерены в метрической (интервальной или абсолютной) шкале. Ограничением при использовании коэффициента корреляции Пирсона является отличие распределения хотя бы одной из переменных от нормального. Особенно сильно r- Пирсона реагирует на наличие выбросов. Для представленного на Рис. 1 облака точек r-пирсона равен,98, если учитывать только синие точки и,27, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Поскольку коэффициент r-пирсона есть мера 1

2 Коэффициенты корреляции и специфика их применения линейной связи, он неприменим для анализа нелинейных связей. Равенство r-пирсона означает, что линейная связь между переменными отсутствует r xy Рис. 1. Облако точек 1. Значение выборочного (x x)(y y) (x x) (y y) 2 2 r-пирсона может быть вычислено по формуле:. Равенство r-пирсона 1 говорит о функциональной линейной зависимости между изучаемыми переменными. Важным свойством r- Пирсона является нечувствительность к линейным преобразованиям переменных. значит Пусть kx b, тогда r y n n n n (kx b) kx b k x n b k x b, а n n n (kx b (k x b))(y y) (k(x x))(y y) (kx b (k x b)) (y y) (k (x x)) (y y) k (x x)(y y) k (x x)(y y) k r k (x x) (y y) k (x x) (y y) k положительном k коэффициенты корреляции совпадут, а при отрицательном ry xy, т.е. при r. xy Значимость r-пирсона, т.е. отличие его от, можно проверить с помощью статистики Стьюдента t r n r 2

3 Иткина А.Я. Гипотеза H:, rxy альтернативная H: 1 rxy. Соответственно, если t t n нулевая гипотеза отвергается в пользу альтернативной. Смысл (крит 2 ; 2) тестирования нулевой гипотезы, при условии репрезентативности имеющихся выборок, заключается в проверке предположения о случайности корреляционной связи между переменными, т.е. о независимости случайных величин (если связь линейна). Теория и практика Сложение 1 баррелей нефти и 1 км трубопроводов бессмысленно, но технически возможно (1+1=2). Вычисление коэффициента корреляции Пирсона для порядковых переменных, для переменных, имеющих произвольное распределение и даже для номинативных переменных технически возможно и даже имеет некоторый смысл. Итак, рассчитанный по формуле коэффициент корреляции является выборочной оценкой теоретической корреляции двух случайных величин r xy cov(xy ;) D(x) D(y). Для случайной величины, имеющей двумерное нормальное распределение, выборочный коэффициент корреляции при условии, что теоретический равен, имеет распределение Стьюдента с (n 2) степенями свободы. Именно на этом факте основана проверка гипотезы о равенстве коэффициента корреляции. Расчет коэффициента корреляции Пирсона в случаях нарушения условий его использования это попытка установить факт наличия или отсутствия связи между величинами. К сожалению в этих случаях распределение r-пирсона не известно. Поэтому выводы на основе такого анализа не надежны. Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной по какому-либо признаку совокупности имеющихся данных. Например для выборки 3, 9, 26, -4, 11, 5, ранжированной по возрастанию рангами будут числа от 1 до 7: 3, 5, 7, 1, 6, 2, 4. Трудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. Набор одинаковых наблюдений называют связкой, а количество наблюдений в одной связке ее размером. Связанным или средним рангом называется число, равное среднему арифметическому тех рангов, которые были бы у 3

4 Коэффициенты корреляции и специфика их применения чисел в связке, если бы они различались. Например для выборки 6, 15, 12, 6, 1, 15, 9, 15 соответствующие ранги будут 1 1 2, 7, 5, 1 1 2, 4, 7, 3, 7. Коэффициент корреляции Спирмена (Charles Edward Spearman, английский психолог, статистик) применим, если обе переменные измерены в количественной (метрической или порядковой) шкале. Отсутствие ограничений на вид распределения исходных данных (переменных) вызвано тем, что это ранговый коэффициент корреляции. Спирмена n 6 (k t) 1 r 1 3 n n 2 Коэффициент корреляции Спирмена проигрывает r-пирсона только в меньшей чувствительности к связи в случаях несущественного отклонения распределения переменных от нормального. Идея r-спирмена в том, что обе переменные ранжируются (обозначим ранги k и t). И вычисляются разности между рангами для одного и того же наблюдения. Если для всех наблюдений разности близки к, значит рост одной переменной почти всегда сопровождается увеличением другой. По формуле видно, что в этом случае r-спирмена будет близок к 1. Для ручного подсчета удобна формула r-, которую можно использовать при отсутствии связанных рангов или небольшом (<1% наблюдений) их количестве. Ту же самую величину r-спирмена, более того без ограничения на связанные ранги, можно получить применив формулу r-пирсона к ранжированным переменным. Значимость коэффициента корреляции Спирмена проверяется по тем же формулам, что и значимость r-пирсона для n 3. Для выборок небольшого размера лучше пользоваться таблицами критических значений. Коэффициент корреляции Кендалла (Maurce George Kendall, английский статистик) применим, если обе переменные измерены в количественной 4

5 Иткина А.Я. (метрической или порядковой) шкале. Он также как и коэффициент корреляции Спирмена является ранговым. Основная идея, заложенная в τ-кендалла, заключается в изучении направления связи между переменными путем попарных сравнений между собой наблюдений. Ситуацию, при которой изменение Х для двух наблюдений сонаправлено с изменением Y для тех же наблюдений, назовем совпадением. А разнонаправленное изменение назовем инверсией. Например, если ранги по Х - 2, 1, 3, 4, а по Y - 3, 1, 2, 4, то изменение рангов при переходе от 1-го наблюдения ко второму сонаправлено (уменьшение), а при переходе от 1-го к третьему разнонаправлено (по Х рост, а по Y падение). Таких попарных сравнений нужно выполнить N(N 1), что весьма 2 трудоемко. Поэтому для ручного ета τ-кендалла принято упорядочивать наблюдения по одной из переменных, например по Х. τ-кендалла это разность относительных частот совпадений и инверсий для всех наблюдений: P Q, в преобразованном виде N(N 1) / 2 4Q 4P 1 1, N (N 1) N (N 1) где P число совпадений, Q число инверсий, P Q N (N 1) / 2. В Таблица 1 приведен пример подсчета числа совпадений и инверсий. Столбцы с 6 по 9 приведены для лучшего понимания того, что направление сортировки не влияет на величину τ- Кендалла. Сравниваем каждый ранг в столбце 3 со значениями, расположенными ниже его. Поскольку столбец 2 упорядочен по возрастанию, совпадениями будут все случаи, когда наблюдение с меньшим рангом выше по столбцу, чем наблюдение с большим рангом. При заполнении столбца 8 совпадением окажется значение ранга большее (столбец 7), чем у наблюдения ниже по столбцу. Например ранг 4 больше, чем 2, 3 и 1, т.е. всего 3 совпадения. 5

6 Коэффициенты корреляции и специфика их применения Таблица 1. Наблюдения Ранги Совпадения Инверсии Ранги Совпадения Инверсии Х Y P Q Х Y P Q (6 1) / 2 15 Σ = 11 Σ = 4 Σ = 11 Σ = 4 Это означает, что совпадения встречаются почти на 47 процентов чаще, чем инверсии. Другими словами вероятность совпадения, а инверсии Значимость коэффициент корреляции Кендалла проверяется по таблице стандартного нормального распределения, для чего рассчитывается статистика PQ 1 N (N 1) (2N 5) /18 и ее величина сравнивается с табличным значением. Либо находится величина вероятности, соответствующая, и она сравнивается с уровнем значимости. При этом надо помнить, что нулевой гипотезе об отсутствии корреляционной связи соответствует двусторонняя альтернатива о ее наличии. Для представленного выше примера (6 1) (2 6 5) / ,13, табл (,25) 1,96, т.е. на уровне значимости 3 17 /18 28,3 α=,5 не обнаружено корреляционной связи между переменными Х и Y. Или через вероятность p () 2, поскольку альтернатива двусторонняя).,129*2 =,258 >,5, получаем тот же вывод (умножаем на 6

7 Иткина А.Я. Основная идея ранговых коэффициентов корреляции заключается в том, что возможное количество перестановок n чисел-рангов равно n! и любая перестановка равновероятна. Поэтому вероятность случайного совпадения рангов у двух выборок ничтожно мала. При верности H распределение коэффициентов r-спирмена и τ- Кендалла симметрично и концентрируется около нуля. Для небольших выборок имеются таблицы критических значений статистик Спирмена и Кендалла, а при увеличении n их распределение приближается к стандартному нормальному. Если же H неверна, то последовательность рангов k каким-то образом "влияет" на последовательность t. Например, если ранги полностью совпадают, то это означает, что рост одной переменной однозначно связан с ростом другой переменной. Именно поэтому особенностью ранговых коэффициентов является выявление не только линейной связи между переменными, но и любого вида монотонной связи. Для представленного на Рис. 2 облака точек r-спирмена/τ-кендалла равны 1, если учитывать только синие точки и,75/,76, если считать по всем точкам, т.е. вместе с розовой точкой выбросом. Возвращаясь к Рис. 1, мы видим, что выброс привел к уменьшению r-пирсона на,98-,27=,71; r-спирмена на,99-,53=,46; τ-кендалла на,95-,64=,31. Т.е. плюсом ранговых коэффициентов корреляции является их меньшая чувствительность к выбросам, чем у r-пирсона Рис. 2. Облако точек 2. Поскольку коэффициенты r-спирмена и τ-кендалла показывают меру монотонной связи, они неприменимы для анализа связей, меняющих свое направление. Равенство r-спирмена или τ-кендалла означает, что монотонная связь между переменными отсутствует. 7

8 Коэффициенты корреляции и специфика их применения Пример 1. Эксперты оценивали риски освоения площади N месторождения М. Риски упорядочены в порядке убывания (от 1 максимального до 8 минимального). Согласованы ли оценки экспертов? Риски Оценки эксперта 1 Оценки эксперта 2 P (совпадения) Таблица 2. Q (инверсии) Геологический Технологический Технический Кредитный Спекулятивный Политический 6 7 Падение спроса 7 7 Природный форс-мажор 8 7 Σ = 2 Σ = Расчет совпадений и инверсий приведен в Таблица 2, вычислим поправочные коэффициенты: K x 3 (31) 3 (31) 3 (3 1) N(N 1) 3; Ky 6; 28; Тогда коэффициент корреляции Кендалла Коэффициент корреляции Спирмена для экспертных оценок равен,923, τ- Кендалла,853. Несмотря на отсутствие инверсий, коэффициенты корреляции меньше 1, поскольку наличие связок уменьшает изменчивость данных и соответственно возможности оценки корреляционной связи. Выше был приведен ет для проверки значимости τ-кендалла, однако статистика только асимптотически имеет нормальное распределение (n 3), а для маленькой выборки (n = 8) корректнее пользоваться таблицей критических точек. H: корреляционная связь отсутствует. При альтернативе: корреляция положительна, критические значения r-спирмена,643; τ-кендалла,571. Т.е. на уровне 5% оба коэффициента положительные. При альтернативе: корреляция 8

9 Иткина А.Я. ненулевая, критические значения r-спирмена,738; τ-кендалла,643. Т.е. на уровне 5% оба коэффициента ненулевые. Проверка гипотез о различии корреляций 1 Рассмотрим два примера, в которых будет проверена гипотеза H о равенстве коэффициентов корреляции в генеральных совокупностях. Пример 2. Изучался вопрос о влиянии антикоррозийного покрытия S на частоту аварий на трубопроводах. В течение полугода на 5 линейных участках трубопровода без покрытия и на 36 участках с покрытием фиксировалось количество аварий и толщина стенки трубы в месте аварии. Корреляция Пирсона для первой выборки составила r1,59, для второй r2,42. Можно ли предположить, что связь между толщиной стенки и количеством аварий исчезает при использовании антикоррозийного покрытия? В данном примере два анализируемых коэффициента корреляции рассчитаны по независимым выборкам. Процедура проверки H для независимых выборок состоит из следующих шагов. 1. Z-преобразование Фишера исходных коэффициентов корреляции (функция ФИШЕР() в Excel): и r ln 2 1 r, для заданных в примере коэффициентов 1 1,59 1 ln,68 2 1,59 1 1,42 ln,42 2. Расчет статистики критерия по формуле:,68, N 3 N ,1. 3. Сравнение с крит. По таблице стандартных нормальных вероятностей находим крит 1,96 для уровня значимости 5% и получаем крит. 1 Методы и идеи этой части заимствованы из учебного пособия: Наследов А.Д. Математические методы психологического исследования. СПб.: Речь, 212. С

10 Коэффициенты корреляции и специфика их применения 4. Вывод: коэффициенты корреляции статистически не отличимы, а следовательно антикоррозийное покрытие не повлияло на связь аварий с толщиной стенки трубы. Пример 3. В Германии изучалась связь между количеством солнечных часов в неделю (x), выработкой электричества с фотоэлементов (y), а также выработкой электричества с ветрогенераторных установок (). Исследование проводилось в светлое время суток. Важно было понять часто ли совпадает увеличение и падение электрогенерации из нескольких ВИЭ, а также изучить степень предсказуемости ветрогенерации, поскольку метеостанции лучше предсказывают солнечные дни, нежели силу ветра. Была собрана информация за 39 недель и вычислены коэффициенты парной корреляции r,71; r,4; r,29. xy x y Процедура проверки гипотезы о совпадении корреляционной связи между зависимыми выборками, какими в данном случае являются количество солнечных часов и электрогенерация из двух разных источников в эти же часы состоит из ета Z-критерия и вывода на основе сравнения с крит. Использование алгоритма тестирования таких гипотез для независимых выборок может привести к ошибкам за счет меньшей мощности такой проверки. Формула для (r r) N xy x (1 rxy) (1 rx) 2 ry (2 ry rxy rx)(1 rxy rx ry). Для имеющихся данных получилось равным 2,13, что больше, чем 1,96. Соответственно мы делаем вывод о том, что на уровне значимости 5% крит гипотезу следует отвергнуть. При этом, если выбрать уровень значимости равный 1%, основания для отвержения гипотезы отсутствовали бы. вывода К сожалению в случае, когда исходные данные не позволяют сделать уверенного оказывается неустойчивым к небольшому изменению исходных данных. При проверке отказалось, что увеличение уменьшению r x всего на четыре сотые приводит к до 1,9. Т.е. только при заметном отклонении от крит можно сделать уверенный вывод о совпадении/несовпадении коэффициентов корреляции в генеральной совокупности данных. 1

11 Иткина А.Я. Частный коэффициент корреляций Поскольку коэффициент корреляции отражает лишь математически наличие/отсутствие связи между переменными, возникает вопрос об истинной и ложной корреляции. Т.е. действительно ли связь между переменными носит осмысленный характер или она вызвана лишь влиянием выбросов или третьей переменной. В первом случае ошибочных выводов по коэффициенту корреляции можно избежать, рассмотрев облако точек для переменных. Второй случай более сложный, поскольку требует догадаться, что могло вызвать ложную корреляцию. Чтобы проиллюстрировать данную проблему рассмотрим данные по связи энергопотребления на душу населения, квт*час на чел./год (х) в нескольких странах с размером территории этих стран, кв. км (у). По выборке из 44 стран был рассчитан коэффициент корреляции Пирсона, который оказался равен,79. На Рис. 3 видно, что облако распадается на отдельные части, что вызывает сомнения в правильности применения коэффициента корреляции. Внимательно изучив список стран, вошедших в выборку, было сделано предположение о необходимости разделить их по ВВП на душу населения, $ США () Рис. 3. Облако точек: по оси х площадь стран; по у энергопотребление. Частный коэффициент корреляции показывает, какова была бы связь между двумя переменными, при условии, что влияние другой (других) переменных исключается. Частные коэффициенты могут быть разных порядков. Порядок коэффициента определяется числом факторов, влияние которых исключается. Здесь мы 11

12 Коэффициенты корреляции и специфика их применения рассматриваем только частный коэффициент корреляции первого порядка. После введения дополнительной переменной получены rx,93 и ry,76. r xy/ rxy rx ry,79,93,76, (1 rx)(1 ry) (1,93)(1,76) Проверим статистическую значимость частного коэффициента корреляции. Число степеней свободы уменьшилось до n 3. t rxy / n3,39. 1r 1, xy/ Поскольку t t (,25;41) 2,2 гипотезу об отсутствии корреляционной крит связи между электропотреблением и площадью территории страны на уровне значимости 5% необходимо отвергнуть. Однако эта связь не столь существенна, как казалось вначале. 12

13 Иткина А.Я. ПРИЛОЖЕНИЕ 1 Таблица критических значений рангового коэффициента корреляции Спирмена 2 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 2 С сайта Йоркского университета (Великобритания) 13

14 Коэффициенты корреляции и специфика их применения ПРИЛОЖЕНИЕ 2 Таблица критических значений рангового коэффициента корреляции Кендалла 3 (для проверки односторонних альтернатив; n объем выборки; α уровень значимости) 3 С сайта Йоркского университета (Великобритания) 14


ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 2 1. Предположение, проверяемое при помощи научных методов а) научная гипотеза; б) статистическая гипотеза; в) гипотеза исследования; г) задача исследования. 2. Проверяемое

Куда мне отсюда идти? А куда ты хочешь попасть? А мне все равно, только бы попасть куда-нибудь. Тогда все равно куда идти. Куда-нибудь ты обязательно попадешь. Льюис Кэрролл Выбор статистического критерия

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Линейная корреляция Как показано выше, облако точек можно описать двумя линиями регрессии регрессией X на Y и Y на X. Чем меньше угол между этими прямыми, тем сильнее зависимость

3 Методы статистической обработки данных 3. Анализ таблиц сопряженности. Для исследования взаимосвязи пары качественных признаков между собой применяется анализ таблиц сопряженности. Таблица сопряженности

Лекция 0.3. Коэффициент корреляции В эконометрическом исследовании вопрос о наличии или отсутствии зависимости между анализируемыми переменными решается с помощью методов корреляционного анализа. Только

7. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Линейная регрессия Метод наименьших квадратов () Линейная корреляция () () 1 Практическое занятие 7 КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ Для решения практических

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ

Эконометрическое моделирование Лабораторная работа Корреляционный анализ Оглавление Понятие корреляционного и регрессионного анализа... 3 Парный корреляционный анализ. Коэффициент корреляции... 4 Задание

Корреляция Материал из Википедии свободной энциклопедии Корреля ция статистическая взаимосвязь двух или нескольких случайных величин (либо величин которые можно с некоторой допустимой степенью точности

Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «МАТИ» Российский государственный технологический университет им. К.Э. Циолковского

Лекция 8. Непараметрические критерии независимости. Корреляционный анализ Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2014 Грауэр Л.В., Архипова О.А. (CSC) Непараметрические критерии... Санкт-Петербург,

Лекция Корреляционный анализ. Описательные статистики. Коэффициент корреляции определяется: xy Корреляционный анализ M mx Y m Коэффициент показывает меру линейной зависимости между x и y, где x и y среднеквадратичные

УДК...0 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИЗМЕРЕНИЙ РЕЖИМНЫХ ПАРАМЕТРОВ В ЗАДАЧЕ УПРАВЛЕНИЯ ЭЛЕКТРИЧЕСКОЙ СИСТЕМЫ Павлюков В.С., Павлюков С.В. Южно-Уральский государственный университет, г. Челябинск, Россия Основные

СТАТИСТИЧЕСКИЙ ВЫВОД 1. Введение в проблему статистического вывода 2. Статистические гипотезы 3. Статистический критерий 4. Статистическая значимость 5. Классификация статистических критериев 6. Содержательная

Методические указания Корреляция Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида М (Y/ x)=f(x). Регрессией X на Y

Лекция 6. Методы измерения тесноты парной корреляционной связи Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены признаки,

Лекция 7. Непараметрические критерии независимости. Грауэр Л.В., Архипова О.А. CS Center Санкт-Петербург, 2015 Грауэр Л.В., Архипова О.А. (CSC) Критерии независимости Санкт-Петербург, 2015 1 / 31 Cодержание

Методические указания для выполнения лабораторной работы Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы. Методические указания Регрессией Y на X или условным математическим

Проверка статистических гипотез 1 Основные понятия. Нулевая гипотеза (H 0) утверждение о параметре генеральной совокупности (параметрах генеральных совокупностей) или распределении, которое необходимо

Лекция 8. Непараметрические критерии однородности и независимости Буре В.М., Грауэр Л.В. ШАД Санкт-Петербург, 2013 Буре В.М., Грауэр Л.В. (ШАД) Непараметрические критерии... Санкт-Петербург, 2013 1 / 39

7 Корреляционный и регрессионный анализ. Корреляционный анализ статистических данных.. Регрессионный анализ статистических данных. Статистические связи между переменными можно изучать методами дисперсионного,

Лекция 7 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ЦЕЛЬ ЛЕКЦИИ: определить понятие статистических гипотез и правила их проверки; провести проверку гипотез о равенстве средних значений и дисперсий нормально распределенной

Поволжский государственный технологический университет Кафедра РТиМБС Методические указания к выполнению лабораторной работы 4 по дисциплине «Автоматизация обработки экспериментальных данных» Анализ сходства

МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ЗЕМЛЕУСТРОЙСТВЕ Карпиченко Александр Александрович доцент кафедры почвоведения и земельных информационных систем Литература elib.bsu.by Математические методы в землеустройстве [Электронный

11 Тесты по математической статистике Тест 1 P 1 Для любого x имеет место соотношение F x правую часть Заполните Дана выборка (3,1,3,1,4, 5) Составьте вариационный ряд 3 Что оценивают x и выборочная

Лекция 7 ЭКОНОМЕТРИКА 7 Анализ качества эмпирического уравнения множественной линейной регрессии Построение эмпирического уравнения регрессии является начальным этапом эконометрического анализа Построенное

МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)

Проверка статистической гипотезы о математическом ожидании нормального распределения при известной дисперсии. Пусть имеется нормально распределенная случайная величина N, определенная на множестве объектов

3.4. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ВЫБОРОЧНЫХ ЗНАЧЕНИЙ ПРОГНОЗНЫХ МОДЕЛЕЙ До сих пор мы рассматривали способы построения прогнозных моделей стационарных процессов, не учитывая одной весьма важной особенности.

Теория вероятностей и медицинская статистика АНАЛИЗ ЗАВИСИМОСТЕЙ Лекция 7 Кафедра медицинской информатики РУДН Содержание лекции 1. Шкалы измерений 2. Обзор статистических методов анализа 3. Корреляционный

Иткина А.Я. Эконометрика на практике Введение. Исследование в любой области знания предполагает получение результатов обычно в виде чисел. Однако просто собрать данные недостаточно. Даже объективно и корректно

Лекция 10. Методы измерения тесноты парной корреляционной связи. Часть 1 Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

Содержание задачи: Исследовать влияние денежных доходов населения на оборот розничной торговли - Денежные доходы населения (в среднем на душу населения в месяц), руб. y - Оборот розничной торговли, млрд.

Лекция 5 ЭКОНОМЕТРИКА 5 Проверка качества уравнения регрессии Предпосылки метода наименьших квадратов Рассмотрим модель парной линейной регрессии X 5 Пусть на основе выборки из n наблюдений оценивается

МВДубатовская Теория вероятностей и математическая статистика Лекция 4 Регрессионный анализ Функциональная статистическая и корреляционная зависимости Во многих прикладных (в том числе экономических) задачах

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ПСИХОЛОГИИ И СОЦИАЛЬНОЙ РАБОТЫ Факультет прикладной психологии Очно-заочная форма обучения САМОСТОЯТЕЛЬНАЯ РАБОТА По дисциплине: «МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»

Медицинская статистика Специальность «Лечебное дело» Проверка статистических гипотез Критерии согласия Определение статистической гипотезы Статистическая гипотеза - предположение о виде распределения или

Проверка статистических гипотез 1. Статистические гипотезы; 2. Критерии проверки гипотез; 3. Проверка параметрических гипотез; 4. Критерий Пирсона Завершить показ Статистические гипотезы. Статистические

Информационные технологии в физической культуре и спорте Процессы преобразования информации связаны с информационными технологиями. Технология в переводе с греческого - искусство, умение, а это не что

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ

Домашнее задание. Обработка результатов наблюдений двухмерного случайного вектора.1. Содержание и порядок выполнения работы Дана парная выборка (x i ; y i) объема 50 из двумерного нормально распределенного

Тема 4. Анализ матрицы корреляции и его место в регрессионном анализе 4.1. Коэффициент корреляции Коэффициент парной корреляции (Пирсона) показывает меру линейной связи между переменными он принимает значения

Корреляционный и регрессионный анализ. План. 1. Понятие корреляции. Функциональная и корреляционная зависимость. Графики рассеяния. 2. Коэффициент корреляции и его свойства. Коэффициент детерминации. 3.

65 4 ДИСПЕРСИОННЫЙ АНАЛИЗ Дисперсионный анализ разработан для сельскохозяйственных и биологических исследований Р.А. Фишером на основе открытого им закона распределения отношения средних квадратов (дисперсий)

Лукьянова Е.А. Медицинская статистика Специальность «Лечебное дело» 3 Проверка статистических гипотез Критерии согласия Критерий Стьюдента для связанных выборок Критерий Стьюдента для несвязанных выборок

ИЗУЧЕНИЕ СТАТИСТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ РАДИОАКТИВНОГО РАСПАДА Лабораторная работа 8 Цель работы: 1. Подтверждение случайного, статистического характера процессов радиоактивного распада ядер.. Ознакомление

55 3 РЕГРЕССИОННЫЙ АНАЛИЗ 3 Постановка задачи регрессионного анализа Экономические показатели функционирования предприятия (отрасли хозяйства) как правило представляются таблицами статистических данных:

РЕГРЕССИОННЫЙ АНАЛИЗ Пусть у нас есть серии значений двух параметров. Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами.

МУЛЬТИКОЛЛИНЕАРНОСТЬ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Серьезной проблемой при построении моделей множественной регрессии на основе метода наименьших квадратов (МНК) является мультиколлинеарность Мультиколлинеарность

Федеральное агентство воздушного транспорта Федеральное государственное образовательное учреждение высшего профессионального образования МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ГРАЖДАНСКОЙ АВИАЦИИ

Задача.Имеются следующие данные: Вариант 8 Номер семьи 3 4 5 6 7 8 9 0 Число совместно проживающих членов семьи, 3 3 4 4 4 5 6 7 7 чел. Годовое потребление электроэнергии, тыс. кв.- час 5 8 0 4 6 9 3 8.

Практическая работа Обработка и анализ результатов коллективных решений Цель работы определить коллективную оценку объектов (факторов и пр с точки зрения их воздействия на некоторую цель или показатель

Квантили Выборочная квантиль x p порядка p (0 < p < 1) определяется как элемент вариационного ряда выборки x (1), x () с номером [p]+1, где [a] целая часть числа а В статистической практике используется

ТЕСТОВЫЙ КОНТРОЛЬ ПО МОДУЛЮ 1 1. Множество объектов, в отношении которого формулируется исследовательская гипотеза а) случайная выборка; б) генеральная совокупность; в) зависимая выборка; г) независимая

3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 3 Основные понятия статистической проверки гипотезы Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений В экономике, технике, естествознании,

Лекция 11. Методы измерения тесноты парной корреляционной связи. Часть Признаки могут быть представлены в количественных, порядковых и номинальных шкалах. В зависимости от того, по какой шкале представлены

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРОМЫШЛЕННЫХ

​ Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных. В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа .
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа .
  4. Критерий корреляции Пирсона является параметрическим , в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена .
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью , подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь , означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста , но разного роста , то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока :

Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице.

В главе 4 мы рассмотрели основные одномерные описательные статисти­ки - меры центральной тенденции и изменчивости, которые применяются для описания одной переменной. В этой главе мы рассмотрим основные ко­эффициенты корреляции.

Коэффициент корреляции - двумерная описательная статистика, количе­ственная мера взаимосвязи (совместной изменчивости) двух переменных.

История разработки и применения коэффициентов корреляции для ис­следования взаимосвязей фактически началась одновременно с возникнове­нием измерительного подхода к исследованию индивидуальных различий - в 1870-1880 гг. Пионером в измерении способностей человека, как и автором самого термина «коэффициент корреляции», был Френсис Гальтон, а самые популярные коэффициенты корреляции были разработаны его последовате­лем Карлом Пирсоном. С тех пор изучение взаимосвязей с использованием коэффициентов корреляции является одним из наиболее популярных в пси­хологии занятием.

К настоящему времени разработано великое множество различных коэф­фициентов корреляции, проблеме измерения взаимосвязи с их помощью по­священы сотни книг. Поэтому, не претендуя на полноту изложения, мы рас­смотрим лишь самые важные, действительно незаменимые в исследованиях меры связи - /--Пирсона, r-Спирмена и т-Кендалла". Их общей особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в ко­личественной шкале - ранговой или метрической.

Вообще говоря, любое эмпирическое исследование сосредоточено на изу­чении взаимосвязей двух или более переменных.

ПРИМЕРЫ

Приведем два примера исследования влияния демонстра­ции сцен насилия по ТВ на агрессивность подростков. 1. Изучается взаимосвязь двух переменных, измеренных в количественной (ранговой или метрической) шка­ле: 1)«время просмотра телепередач с насилием»; 2) «агрессивность».

Читается как тау-Кендалла.


ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

2. Изучается различие в агрессивности 2-х или более групп подростков, отличаю­щихся длительностью просмотра телепередач с демонстрацией сцен насилия.

Во втором примере изучение различий может быть представлено как исследование взаимосвязи 2-х переменных, одна из которых - номинативная (длительность про­смотра телепередач). И для этой ситуации также разработаны свои коэффициенты корреляции.

Любое исследование можно свести к изучению корреляций, благо изобре­тены самые различные коэффициенты корреляции для практически любой исследовательской ситуации. Но в дальнейшем изложении мы будем разли­чать два класса задач:

П исследование корреляций - когда две переменные представлены в чис­ловой шкале;

исследование различий - когда хотя бы одна из двух переменных пред­ставлена в номинативной шкале.


Такое деление соответствует и логике построения популярных компьютер­ных статистических программ, в которых в меню Корреляции предлагаются три коэффициента (/--Пирсона, r-Спирмена и х-Кендалла), а для решения других исследовательских задач предлагаются методы сравнения групп.

ПОНЯТИЕ КОРРЕЛЯЦИИ

Взаимосвязи на языке математики обычно описываются при помощи фун­кций, которые графически изображаются в виде линий. На рис. 6.1 изобра­жено несколько графиков функций. Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь - нелинейная. Если увеличение одной перемен­ной связано с увеличением другой, то связь - положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь - отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функ­ция - монотонная; в противном случае функцию называют немонотонной.

Функциональные связи, подобные изображенным на рис. 6.1, являются иде-ализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных - веса и длины тела (линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погреш­ностей измерения и пр.

Рис. 6.1. Примеры графиков часто встречающихся функций

В психологии, как и во многих других науках, при изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество воз­можных причин изменчивости этих признаков. Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значе­ний другой переменной (и наоборот). Простейшим примером является соотно­шение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной - идеальной математической функции, даже при всех ухищрениях исследова­теля по учету стройности или полноты испытуемых. (Вряд ли на этом основа­нии кому-то придет в голову отрицать факт наличия строгой функциональ­ной связи между длиной и весом тела.)

Итак, в психологии, как и во многих других науках, функциональная вза­имосвязь явлений эмпирически может быть выявлена только как вероятно­стная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания - график, оси которого со­ответствуют значениям двух переменных, а каждый испытуемый представля­ет собой точку (рис. 6.2). В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.

Читайте также: