Корреляция — это когда два показателя меняются согласованно. Один растёт, другой тоже. Или один растёт, а второй падает. Или вообще никакой связи. Всё, по сути, на этом можно было бы закончить. Но есть нюансы, из-за которых люди регулярно делают неправильные выводы из данных. И вот об этом стоит поговорить подробнее.
Слово пришло из латыни — correlatio, «соотношение». Ввёл его в оборот Фрэнсис Гальтон в 1877 году, когда изучал наследственность. С тех пор корреляция стала одним из базовых инструментов статистики. Простым, но коварным.
- Что такое корреляция простыми словами
- Три типа связи
- Корреляция — это не причинность
- Где применяется
- Виды коэффициентов корреляции
- Коэффициент Пирсона (r)
- Коэффициент Спирмена (ρ)
- Коэффициент Кендалла (τ)
- Фи, Крамера и корреляционное отношение
- Сравнительная таблица
- Как читать коэффициент корреляции
- Подводные камни
- Часто задаваемые вопросы
- Чем корреляция отличается от причинно-следственной связи?
- Какой коэффициент корреляции выбрать?
- Что значит корреляция равна нулю?
- Может ли корреляция быть больше 1 или меньше −1?
- Как посчитать корреляцию в Excel?
Что такое корреляция простыми словами
Корреляция отвечает на вопрос: если один показатель изменился, изменится ли другой? И если да — в какую сторону?
Измеряется коэффициентом от −1 до +1. Плюс — оба показателя движутся в одном направлении. Минус — в противоположных. Ноль — никакой связи нет. Чем ближе к единице (неважно, с каким знаком), тем связь сильнее.
Три типа связи
Прямая (положительная). Один растёт — второй тоже. Температура на улице и продажи мороженого. Рекламный бюджет и количество заявок. Рост человека и его вес — классика из учебников.
Обратная (отрицательная). Один растёт — второй падает. Цена товара и спрос на него. Скорость автомобиля и время в пути. Количество тренировок и процент жира в организме.
Нулевая. Показатели не связаны. Цвет глаз и зарплата. Длина фамилии и IQ. Ну вы поняли.
Корреляция — это не причинность
Самое важное, что нужно запомнить. Два показателя могут идеально коррелировать — и при этом вообще никак не влиять друг на друга.
Классика жанра: количество утоплений в бассейнах коррелирует с количеством фильмов Николаса Кейджа. Продажи мороженого — с числом солнечных ударов. Количество аистов в Швеции — с рождаемостью. Сайт Spurious Correlations собрал сотни таких примеров, и некоторые выглядят убедительнее настоящих научных работ.
Почему так происходит? Три причины:
- Скрытый третий фактор. Мороженое и солнечные удары не связаны напрямую. Связаны они через жару — она увеличивает и то, и другое
- Обратная причинность. Кажется, что A влияет на B, а на самом деле B влияет на A. Больше пожарных — больше разрушений? Нет. Больше пожар — больше и пожарных, и разрушений
- Случайное совпадение. При большом объёме данных случайные корреляции неизбежны. Статистика шутит, а люди принимают за чистую монету
Запомните раз и навсегда: корреляция показывает связь, но не причину. Чтобы доказать причинно-следственную связь, нужны эксперименты, контрольные группы и временная последовательность событий. Одной корреляции недостаточно.
Где применяется
Везде, где есть данные и нужно найти закономерности. Без длинных предисловий:
- Аналитика данных. Первый шаг при исследовании любого датасета — корреляционная матрица. Какие признаки связаны? Какие можно выкинуть? Без этого в ML никуда
- Маркетинг. Связь между временем показа рекламы и кликабельностью. Между ценой и конверсией. Между длиной текста на лендинге и процентом отказов
- Экономика. Инфляция и безработица (кривая Филлипса). ВВП и уровень жизни. Курс валюты и цена нефти
- Медицина. Связь образа жизни и заболеваемости. Дозировка препарата и эффект. Курение и рак лёгких — одна из самых известных корреляций в истории
- Социальные науки. Доход и продолжительность жизни. Образование и уровень преступности. Доступ к интернету и политическая активность
Корреляция — это всегда отправная точка. Нашли связь? Теперь надо понять, настоящая она или нет. И если настоящая — в какую сторону работает.
Виды коэффициентов корреляции
Не все данные одинаковые. И не все коэффициенты подходят для любых данных. Выбор зависит от типа переменных, распределения и задачи.
Коэффициент Пирсона (r)
Самый популярный. Измеряет линейную связь между двумя количественными переменными. Если данные нормально распределены и зависимость линейная — это ваш выбор.
Формула в упрощённом виде:
\[ r_{xy} = \frac{\sum(x_i — \bar{x})(y_i — \bar{y})}{\sqrt{\sum(x_i — \bar{x})^2 \cdot \sum(y_i — \bar{y})^2}} \]
Где \(x_i\) и \(y_i\) — значения переменных, \(\bar{x}\) и \(\bar{y}\) — их средние.
Когда использовать: рост и вес, температура и потребление энергии, рекламный бюджет и продажи — любые непрерывные числовые данные с приблизительно нормальным распределением.
Слабое место: очень чувствителен к выбросам. Одно экстремальное значение может перевернуть картину. И нелинейные зависимости он просто не видит — покажет ноль там, где связь есть, просто кривая.
Коэффициент Спирмена (ρ)
Ранговый коэффициент. Работает не с самими значениями, а с их порядком (рангами). Не требует нормального распределения, устойчив к выбросам, ловит монотонные зависимости — не обязательно линейные.
Когда использовать: рейтинги, результаты опросов, данные с выбросами. Позиция в поисковой выдаче и количество кликов. Оценки студентов и посещаемость. Любые данные, которые можно ранжировать.
Коэффициент Кендалла (τ)
Тоже ранговый, но считает иначе — через согласованные и несогласованные пары наблюдений. Более устойчив на малых выборках и при большом количестве совпадающих рангов.
Когда использовать: малые выборки, данные с повторяющимися значениями. В ML часто используют для оценки качества ранжирования.
Отличие от Спирмена: Кендалл более «содержательный» — детальнее анализирует связи. Спирмен точнее учитывает количественную степень связи. На практике часто дают схожие результаты, но Кендалл обычно показывает чуть меньшие значения.
Фи, Крамера и корреляционное отношение
Коэффициент фи (φ). Для двух бинарных переменных. Есть симптом / нет симптома — положительный тест / отрицательный. Мужчина / женщина — купил / не купил.
V Крамера. Расширение фи для номинальных переменных с несколькими категориями. Основан на хи-квадрате. Например, регион проживания и предпочитаемый бренд. Или пол водителя и цвет машины. Значения от 0 до 1: до 0.2 — слабая связь, 0.2–0.6 — умеренная, больше 0.6 — сильная.
Корреляционное отношение η (эта). Для нелинейных связей, когда одна переменная количественная, другая категориальная. Там, где Пирсон бессилен.
Сравнительная таблица
| Коэффициент | Тип данных | Шкала | Чувствительность к выбросам | Тип связи |
|---|---|---|---|---|
| Пирсона (r) | Количественные | −1 до +1 | Высокая | Линейная |
| Спирмена (ρ) | Порядковые / количественные | −1 до +1 | Низкая | Монотонная |
| Кендалла (τ) | Порядковые | −1 до +1 | Очень низкая | Монотонная |
| Фи (φ) | Бинарные | −1 до +1 | Средняя | Линейная |
| Крамера (V) | Номинальные | 0 до +1 | Низкая | Любая |
| η (эта) | Количественные + категориальные | 0 до +1 | Средняя | Нелинейная |
Как читать коэффициент корреляции
Знак показывает направление. Абсолютное значение — силу. Звучит просто, но дьявол в деталях.
Границы условные. В социологии r = 0.3 — уже неплохо. В физике с таким значением даже не посмотрят. Всё зависит от области и задачи.
Подводные камни
Нулевая корреляция ≠ нет связи. Пирсон ловит только линейную зависимость. Если зависимость параболическая, синусоидальная, любая нелинейная — Пирсон покажет ноль. Данные связаны, но коэффициент этого не видит. Всегда строите scatter plot перед выводами.
Статистическая значимость ≠ практическая значимость. На выборке в миллион записей даже корреляция 0.02 будет статистически значимой. Но что с ней делать на практике? Ничего. Смотрите не только на p-value, но и на сам коэффициент.
Размер выборки решает. На малых выборках сильная корреляция может оказаться случайной. На больших — слабая, но реальная, может оказаться незамеченной. Чем больше выборка, тем меньшего коэффициента достаточно для достоверности.
Хорошая практика: всегда указывайте не только значение r, но и размер выборки (n), p-value и доверительный интервал. Голый коэффициент без контекста — почти бесполезен.
Часто задаваемые вопросы
Чем корреляция отличается от причинно-следственной связи?
Корреляция показывает, что два показателя изменяются согласованно. Причинность означает, что один показатель вызывает изменение другого. Корреляция может возникать из-за скрытого третьего фактора, обратной причинности или случайного совпадения. Для доказательства причинности нужны контролируемые эксперименты.
Какой коэффициент корреляции выбрать?
Пирсона — для числовых данных с нормальным распределением и линейной зависимостью. Спирмена — для ранговых данных, данных с выбросами или ненормальным распределением. Кендалла — для малых выборок и данных с повторяющимися значениями. V Крамера — для категориальных переменных.
Что значит корреляция равна нулю?
Отсутствие линейной связи между переменными. Но нелинейная зависимость при этом может существовать. Например, связь между скоростью и расходом топлива нелинейна — коэффициент Пирсона может показать значение близкое к нулю, хотя связь очевидна. Всегда проверяйте визуально.
Может ли корреляция быть больше 1 или меньше −1?
Нет. Коэффициенты Пирсона, Спирмена и Кендалла всегда лежат в диапазоне от −1 до +1. Если при расчёте получилось значение за этими пределами — где-то ошибка в формуле или данных.
Как посчитать корреляцию в Excel?
Функция =КОРРЕЛ(массив1; массив2) — для коэффициента Пирсона. Для Спирмена в стандартном Excel встроенной функции нет, но можно ранжировать данные вручную (функция РАНГ) и применить КОРРЕЛ к рангам. Или использовать надстройку «Анализ данных».