Что такое корреляция

Корреляция — это когда два показателя меняются согласованно. Один растёт, другой тоже. Или один растёт, а второй падает. Или вообще никакой связи. Всё, по сути, на этом можно было бы закончить. Но есть нюансы, из-за которых люди регулярно делают неправильные выводы из данных. И вот об этом стоит поговорить подробнее.

Слово пришло из латыни — correlatio, «соотношение». Ввёл его в оборот Фрэнсис Гальтон в 1877 году, когда изучал наследственность. С тех пор корреляция стала одним из базовых инструментов статистики. Простым, но коварным.

Что такое корреляция простыми словами

Корреляция отвечает на вопрос: если один показатель изменился, изменится ли другой? И если да — в какую сторону?

Измеряется коэффициентом от −1 до +1. Плюс — оба показателя движутся в одном направлении. Минус — в противоположных. Ноль — никакой связи нет. Чем ближе к единице (неважно, с каким знаком), тем связь сильнее.

Три типа связи

Прямая (положительная). Один растёт — второй тоже. Температура на улице и продажи мороженого. Рекламный бюджет и количество заявок. Рост человека и его вес — классика из учебников.

Обратная (отрицательная). Один растёт — второй падает. Цена товара и спрос на него. Скорость автомобиля и время в пути. Количество тренировок и процент жира в организме.

Нулевая. Показатели не связаны. Цвет глаз и зарплата. Длина фамилии и IQ. Ну вы поняли.

r = +1
Идеальная прямая связь
📈 ↔ 📈
r = 0
Связи нет
📈 ↔ 🤷
r = −1
Идеальная обратная связь
📈 ↔ 📉

Корреляция — это не причинность

Самое важное, что нужно запомнить. Два показателя могут идеально коррелировать — и при этом вообще никак не влиять друг на друга.

Классика жанра: количество утоплений в бассейнах коррелирует с количеством фильмов Николаса Кейджа. Продажи мороженого — с числом солнечных ударов. Количество аистов в Швеции — с рождаемостью. Сайт Spurious Correlations собрал сотни таких примеров, и некоторые выглядят убедительнее настоящих научных работ.

Почему так происходит? Три причины:

  • Скрытый третий фактор. Мороженое и солнечные удары не связаны напрямую. Связаны они через жару — она увеличивает и то, и другое
  • Обратная причинность. Кажется, что A влияет на B, а на самом деле B влияет на A. Больше пожарных — больше разрушений? Нет. Больше пожар — больше и пожарных, и разрушений
  • Случайное совпадение. При большом объёме данных случайные корреляции неизбежны. Статистика шутит, а люди принимают за чистую монету

Запомните раз и навсегда: корреляция показывает связь, но не причину. Чтобы доказать причинно-следственную связь, нужны эксперименты, контрольные группы и временная последовательность событий. Одной корреляции недостаточно.

Где применяется

Везде, где есть данные и нужно найти закономерности. Без длинных предисловий:

  • Аналитика данных. Первый шаг при исследовании любого датасета — корреляционная матрица. Какие признаки связаны? Какие можно выкинуть? Без этого в ML никуда
  • Маркетинг. Связь между временем показа рекламы и кликабельностью. Между ценой и конверсией. Между длиной текста на лендинге и процентом отказов
  • Экономика. Инфляция и безработица (кривая Филлипса). ВВП и уровень жизни. Курс валюты и цена нефти
  • Медицина. Связь образа жизни и заболеваемости. Дозировка препарата и эффект. Курение и рак лёгких — одна из самых известных корреляций в истории
  • Социальные науки. Доход и продолжительность жизни. Образование и уровень преступности. Доступ к интернету и политическая активность

Корреляция — это всегда отправная точка. Нашли связь? Теперь надо понять, настоящая она или нет. И если настоящая — в какую сторону работает.

Виды коэффициентов корреляции

Не все данные одинаковые. И не все коэффициенты подходят для любых данных. Выбор зависит от типа переменных, распределения и задачи.

Коэффициент Пирсона (r)

Самый популярный. Измеряет линейную связь между двумя количественными переменными. Если данные нормально распределены и зависимость линейная — это ваш выбор.

Формула в упрощённом виде:

\[ r_{xy} = \frac{\sum(x_i — \bar{x})(y_i — \bar{y})}{\sqrt{\sum(x_i — \bar{x})^2 \cdot \sum(y_i — \bar{y})^2}} \]

Где \(x_i\) и \(y_i\) — значения переменных, \(\bar{x}\) и \(\bar{y}\) — их средние.

Когда использовать: рост и вес, температура и потребление энергии, рекламный бюджет и продажи — любые непрерывные числовые данные с приблизительно нормальным распределением.

Слабое место: очень чувствителен к выбросам. Одно экстремальное значение может перевернуть картину. И нелинейные зависимости он просто не видит — покажет ноль там, где связь есть, просто кривая.

Коэффициент Спирмена (ρ)

Ранговый коэффициент. Работает не с самими значениями, а с их порядком (рангами). Не требует нормального распределения, устойчив к выбросам, ловит монотонные зависимости — не обязательно линейные.

Когда использовать: рейтинги, результаты опросов, данные с выбросами. Позиция в поисковой выдаче и количество кликов. Оценки студентов и посещаемость. Любые данные, которые можно ранжировать.

Коэффициент Кендалла (τ)

Тоже ранговый, но считает иначе — через согласованные и несогласованные пары наблюдений. Более устойчив на малых выборках и при большом количестве совпадающих рангов.

Когда использовать: малые выборки, данные с повторяющимися значениями. В ML часто используют для оценки качества ранжирования.

Отличие от Спирмена: Кендалл более «содержательный» — детальнее анализирует связи. Спирмен точнее учитывает количественную степень связи. На практике часто дают схожие результаты, но Кендалл обычно показывает чуть меньшие значения.

Фи, Крамера и корреляционное отношение

Коэффициент фи (φ). Для двух бинарных переменных. Есть симптом / нет симптома — положительный тест / отрицательный. Мужчина / женщина — купил / не купил.

V Крамера. Расширение фи для номинальных переменных с несколькими категориями. Основан на хи-квадрате. Например, регион проживания и предпочитаемый бренд. Или пол водителя и цвет машины. Значения от 0 до 1: до 0.2 — слабая связь, 0.2–0.6 — умеренная, больше 0.6 — сильная.

Корреляционное отношение η (эта). Для нелинейных связей, когда одна переменная количественная, другая категориальная. Там, где Пирсон бессилен.

Сравнительная таблица

Коэффициент Тип данных Шкала Чувствительность к выбросам Тип связи
Пирсона (r) Количественные −1 до +1 Высокая Линейная
Спирмена (ρ) Порядковые / количественные −1 до +1 Низкая Монотонная
Кендалла (τ) Порядковые −1 до +1 Очень низкая Монотонная
Фи (φ) Бинарные −1 до +1 Средняя Линейная
Крамера (V) Номинальные 0 до +1 Низкая Любая
η (эта) Количественные + категориальные 0 до +1 Средняя Нелинейная

Как читать коэффициент корреляции

Знак показывает направление. Абсолютное значение — силу. Звучит просто, но дьявол в деталях.

−1.0
Полная обратная
−0.7…−1.0
Сильная обратная
−0.3…−0.7
Средняя обратная
−0.1…−0.3
Слабая обратная
≈ 0
Нет связи
+0.1…+0.3
Слабая прямая
+0.3…+0.7
Средняя прямая
+0.7…+1.0
Сильная прямая
+1.0
Полная прямая

Границы условные. В социологии r = 0.3 — уже неплохо. В физике с таким значением даже не посмотрят. Всё зависит от области и задачи.

Подводные камни

Нулевая корреляция ≠ нет связи. Пирсон ловит только линейную зависимость. Если зависимость параболическая, синусоидальная, любая нелинейная — Пирсон покажет ноль. Данные связаны, но коэффициент этого не видит. Всегда строите scatter plot перед выводами.

Статистическая значимость ≠ практическая значимость. На выборке в миллион записей даже корреляция 0.02 будет статистически значимой. Но что с ней делать на практике? Ничего. Смотрите не только на p-value, но и на сам коэффициент.

Размер выборки решает. На малых выборках сильная корреляция может оказаться случайной. На больших — слабая, но реальная, может оказаться незамеченной. Чем больше выборка, тем меньшего коэффициента достаточно для достоверности.

Хорошая практика: всегда указывайте не только значение r, но и размер выборки (n), p-value и доверительный интервал. Голый коэффициент без контекста — почти бесполезен.

Часто задаваемые вопросы

Чем корреляция отличается от причинно-следственной связи?

Корреляция показывает, что два показателя изменяются согласованно. Причинность означает, что один показатель вызывает изменение другого. Корреляция может возникать из-за скрытого третьего фактора, обратной причинности или случайного совпадения. Для доказательства причинности нужны контролируемые эксперименты.

Какой коэффициент корреляции выбрать?

Пирсона — для числовых данных с нормальным распределением и линейной зависимостью. Спирмена — для ранговых данных, данных с выбросами или ненормальным распределением. Кендалла — для малых выборок и данных с повторяющимися значениями. V Крамера — для категориальных переменных.

Что значит корреляция равна нулю?

Отсутствие линейной связи между переменными. Но нелинейная зависимость при этом может существовать. Например, связь между скоростью и расходом топлива нелинейна — коэффициент Пирсона может показать значение близкое к нулю, хотя связь очевидна. Всегда проверяйте визуально.

Может ли корреляция быть больше 1 или меньше −1?

Нет. Коэффициенты Пирсона, Спирмена и Кендалла всегда лежат в диапазоне от −1 до +1. Если при расчёте получилось значение за этими пределами — где-то ошибка в формуле или данных.

Как посчитать корреляцию в Excel?

Функция =КОРРЕЛ(массив1; массив2) — для коэффициента Пирсона. Для Спирмена в стандартном Excel встроенной функции нет, но можно ранжировать данные вручную (функция РАНГ) и применить КОРРЕЛ к рангам. Или использовать надстройку «Анализ данных».

Оцените статью
Добавить комментарий