ГЛА́ВНЫЕ КОМПОНЕ́НТЫ
-
Рубрика: Экономика
-
Скопировать библиографическую ссылку:
ГЛА́ВНЫЕ КОМПОНЕ́НТЫ в статистике, обобщённые показатели, построенные на основе исходных признаков. Обычно исходные признаки весьма существенно коррелируют между собой (см. Коррелированные величины). Это затрудняет проведение исследований, т. к. большинство многомерных статистических методов предполагает (по крайней мере, неявно) некоррелированность признаков. Поэтому надо разрабатывать методы, учитывающие коррелированность признаков, или преобразовать исходное косоугольное пространство в ортогональное. Метод Г. к. реализует вторую идею.
Сначала на основе матрицы исходных признаков $X$ строят соответствующую матрицу стандартизованных признаков $Z$. Затем по $Z$ строят корреляционную матрицу: $R=(Z′·Z)/n$, которая и служит основой метода Г. к. Для однозначности полученного решения налагается дополнит. условие: упорядочение по убыванию дисперсий гл. компонент.
Метод множителей Лагранжа преобразует задачу поиска условного экстремума в задачу поиска безусловного экстремума. А она, в свою очередь, сводится к задаче ортогонализации пространства переходом к системе собственных векторов матрицы $R$.
В результате решения проблемы собственных чисел и собственных векторов строятся две матрицы: диагональная матрица собственных чисел ($Λ$) и ортогональная матрица собственных векторов ($U$).
Далее определяется матрица нагрузок: $А=U·Λ^{1/2}$ , элементы которой $[A=\{a_{jn}\}; j, ν=1, …, k]$ являются коэффициентами парной корреляции между исходными признаками (расположенными по строкам) и построенными Г. к. (расположенными по столбцам) $a_{jν}=r_{X_j}F_v$. Это позволяет содержательно интерпретировать первые наиболее весомые Г. к. Кроме того, можно объяснить связь между исходными признаками как следствие их связи с гл. компонентами.
Далее строится матрица индивидуальных значений Г. к. на объектах: $F=Z·U$. Обобщённые показатели (Г. к.) располагаются по столбцам этой матрицы. Они являются ортогональными (некоррелированными) центрированными величинами с дисперсиями, равными соответствующим собственным числам. Это позволяет успешно использовать Г. к. при классификации объектов или при построении уравнения регрессии (с дальнейшим пересчётом в исходные признаки). На практике используются неск. первых наиболее весомых гл. компонент.
Большинство совр. реальных статистич. исследований матрицы данных – «объект–признак» – выполняется с использованием метода Г. к., чему способствует наличие программ во всех статистич. пакетах прикладных программ (ППП). Надо учитывать, что при составлении программ разработчики могли внести модификации; напр., опираться не на корреляционную, а на ковариационную матрицу или включить атрибут факторный анализ: возможность вращения матрицы нагрузок для улучшения интерпретации или при построении матрицы $F$ использовать формулу $F=Z·А$ вместо указанной и т. д.