КОРРЕЛЯ́ЦИЯ
-
Рубрика: Математика
-
Скопировать библиографическую ссылку:
КОРРЕЛЯ́ЦИЯ в математике, зависимость между случайными величинами, не имеющая, вообще говоря, строго функционального характера. В отличие от функциональной зависимости К., как правило, рассматривается тогда, когда одна из величин зависит не только от данной др. величины, но и от ряда иных случайных факторов. Зависимость между двумя случайными событиями проявляется в том, что условная вероятность одного из них при условии, что другое произошло, отличается от безусловной вероятности. Аналогично, влияние одной случайной величины на другую характеризуется условными распределениями одной из них при фиксированных значениях другой.
Пусть $X$ и $Y$ – случайные величины с заданным совместным распределением вероятностей, $a_X$ и $a_Y$ – математические ожидания, $σ^2_X$ и $σ^2_Y$ – дисперсии и $ρ$ – корреляции коэффициент случайных величин $X$ и $Y$. Если для каждого возможного значения $x$ случайной величины $X$ определено условное математич. ожидание $y(x)=\mathsf E(Y|X=x)$, то функция $y(x)$ называется регрессией величины $Y$ по $X$. Для оценки того, насколько точно регрессия передаёт изменение $Y$ при изменении $X$, используется условная дисперсия $Y$ при данном значении $X=x$ или её ср. величина (мера рассеяния $Y$ около линии регрессии), равная $$σ^2_{Y|X}=\mathsf E(Y-\mathsf E(Y|X))^2.$$
Если $X$ и $Y$ независимы, то условные математич. ожидания $Y$ не зависят от $x$ и совпадают с безусловным, т. е. $y(x)=a_Y$, при этом $σ^2_{Y|X}=σ^2_Y$. При функциональной связи между $Y$ и $X$ величина $Y$ при каждом данном $X=x$ принимает одно значение и $σ^2_{Y|X}=0$. Аналогично определяется $x(y)=\mathsf E(X|Y=y)$ – регрессия $X$ по $Y$. Показателем концентрации распределения вблизи линии регрессии $y(x)$ служит корреляционное отношение $$η^2_{Y|X}=(σ^2_Y-σ^2_{Y|X})/σ^2_Y=1-σ^2_{Y|X}/σ^2_Y.$$Величина $η^2_{Y|X}$ равна нулю тогда и только тогда, когда регрессия имеет вид $y(x)=a_Y$, в этом случае коэф. К. $ρ$ равен нулю и величина $Y$ не коррелирована с $X$. Если регрессия $Y$ по $X$ линейна, т. е. линия регрессии – прямая, имеющая вид $$y(x)=a_Y+\rho\frac{\sigma_Y}{\sigma_X}(x-a_X),$$ то $σ^2_{Y|X}=σ^2_Y(1-\rho^2)$ и $η^2_{Y|X}=\rho^2$. Если, кроме того, $|ρ|=1$, то $Y$ связана с $X$ точной линейной зависимостью, если же $η^2_{Y|X}=ρ^2 \lt 1$, то между $Y$ и $X$ нет точной функциональной зависимости. Точная функциональная зависимость $Y$ от $X$, отличная от линейной, имеет место тогда и только тогда, когда $ρ^2 \lt η^2_{Y|X}= 1$. Практич. использование коэф. К. в качестве меры отсутствия зависимости оправданно (за редким исключением) лишь тогда, когда совместное распределение $X$ и $Y$ нормально (или близко к нормальному распределению), т. к. в этом случае из равенства $ρ=0$ следует независимость $X$ и $Y$. Для произвольных случайных величин $X$ и $Y$ использование $ρ$ как меры зависимости часто приводит к ошибочным выводам, т. к. $ρ$ может равняться нулю даже при функциональной связи между величинами. Если совместное распределение $X$ и $Y$ нормально, то обе линии регрессии $y(x)$ и $x(y)$ суть прямые, при $|ρ|=1$ прямые регрессии сливаются в одну, что соответствует линейной зависимости между $X$ и $Y$, при $ρ=0$ величины $X$ и $Y$ независимы.
При изучении связи между несколькими случайными величинами $X_1,...,X_n$ с заданным совместным распределением используется корреляционная матрица, элементами которой являются обычные коэффициенты К. $ρ_{ij}$ между $X_i$ и $X_j, i, j=1,...,n$. Мерой линейной К. между $X_1$ и совокупностью остальных величин $X_2,...,X_n$ служит множественный коэф. К., который определяется как обычный коэф. К. между $X_1$ и наилучшим линейным приближением $X_1$ по $X_2,...,X_n$, т. е. между $X_1$ и $β_1+β_2X_2+...+β_nX_n$, где числа $β_1,...,β_n$ определяются так, чтобы дисперсия величины $X_1-(β_1+β_2X_2+...+β_nX_n)$ была минимальной. Множественный коэф. К. выражается через элементы корреляционной матрицы, напр. при $n=3$ он равен $$ρ_{1\cdot (23)}=\sqrt{\frac{ρ^2_{12}+ρ^2_{13}-2ρ_{12}ρ_{13}ρ_{23}}{1-ρ^2_{23}}}.$$
Если предполагается, что изменение величин $X_1$ и $X_2$ определяется в какой-то мере изменением остальных величин $X_3,\ldots,X_n$, то показателем линейной связи между $X_1$ и $X_2$ при исключении влияния $X_3,...,X_n$ является частный коэф. К. между $X_1$ и $X_2$ относительно $X_3,...,X_n$, который определяется как обычный коэф. К. между $X_1-X_1^*$ и $X_2-X_2^*$, где $X_1^*$, $X_2^*$ – соответственно наилучшие линейные приближения $X_1$ и $X_2$ по $X_3,...,X_n$. Напр., в случае $n=3$ этот коэф. равен $$ρ_{12\cdot3}=\frac{ρ_{12}-ρ_{12}ρ_{23}}{\sqrt{(1-ρ_{13}^2)(1-ρ_{23}^2)}}.$$ В математич. статистике разработаны методы оценки К. между случайными величинами и методы проверки гипотез о значениях К., использующие их выборочные аналоги. См. Корреляционный анализ.