КОРРЕЛЯЦИО́ННЫЙ АНА́ЛИЗ
-
Рубрика: Математика
-
-
Скопировать библиографическую ссылку:
Книжная версия:
Электронная версия:
КОРРЕЛЯЦИО́ННЫЙ АНА́ЛИЗ, раздел математической статистики, предназначенный для оценки корреляции между случайными величинами и проверки гипотез о значимости связи между ними. К. а. статистич. данных использует следующие осн. практич. приёмы: построение корреляционного поля и составление корреляционной таблицы; вычисление выборочных коэффициентов корреляции; проверку статистич. гипотез значимости связи. Дальнейшее исследование может заключаться в установлении конкретного вида зависимости между величинами (см. Регрессионный анализ).
Вспомогат. средствами при анализе выборочных двумерных данных являются корреляционное поле и корреляционная таблица. Корреляционное поле получают, нанося выборочные точки на координатную плоскость. По характеру расположения точек поля можно составить предварит. представление о форме зависимости случайных величин (напр., о том, что одна величина в ср. возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся численности nij тех пар (x,y), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Обычно длины интервалов группировки (по каждой из переменных) выбирают равными между собой, и центры xi (соответственно yj) этих интервалов, и числа nij используют в качестве основы для расчётов.
Корреляционная таблица позволяет, в частности, вычислить выборочный коэф. корреляции и выборочное корреляционное отношение. Выборочный коэф. корреляции определяется по формуле ˆρ=∑i∑j(xi−ˉx)(yj−ˉy)nij√∑ini⋅(xi−ˉx)2√∑jn⋅j(yj−ˉy)2,где ni⋅=∑jnij, n⋅j=∑inij и ˉx=∑ini⋅xi/n, ˉy=∑jn⋅jyj/n. При большом числе независимых наблюдений, подчинённых одному и тому же распределению, близкому к нормальному, \hat ρ близок к истинному корреляции коэффициенту ρ . В др. случаях в качестве характеристики связи между X и Y рекомендуется использовать корреляционное отношение η_{Y|X}^2, интерпретация которого не зависит от вида исследуемой зависимости. Выборочное значение \hat η^2_{Y|X} вычисляется по данным корреляционной таблицы: \hat η^2_{Y|X}=\frac{\sum_i n_{i \cdot}(\bar y_i- \bar y)^2/n}{\sum_j n_{\cdot j}(y_j- \bar y)^2/n},где числитель характеризует рассеяние условных средних значений \bar y_i около безусловного среднего \bar y (аналогично определяется выборочное значение \hat η^2_{X|Y}). Величина \hat η^2_{Y|X}-\hat\rho^2 используется в качестве индикатора отклонения регрессии от линейной.
Один из методов проверки гипотезы о значимости связи между X и Y основывается на распределении выборочного коэф. корреляции. В случае нормального распределения величина выборочного коэф. корреляции \hat\rho считается значимо отличной от нуля, если выполняется неравенство \hat\rho^2>(1+(n-2)/t^2_α)-1,где t_α есть квантиль порядка α Стьюдента распределения с n-2 степенями свободы, соответствующая выбранному значимости уровню α. В случае ρ≠0 часто используют т. н. z-преобразование Фишера, заменяя величину \hat\rho на z={1\over2}\ln\frac{1+\hat\rho}{1-\hat\rho}.Уже при сравнительно небольших n распределение величины z хорошо приближается нормальным распределением с математич. ожиданием, равным {1\over2}\ln\frac{1+\rho}{1-\rho}+\frac{\rho}{2(n-1)}, и дисперсией, равной 1/(n-3). Из этого можно определить интервалы (доверительные границы) для истинного коэф. корреляции ρ.