РЕГРЕССИО́ННЫЙ АНА́ЛИЗ
-
Рубрика: Математика
-
-
Скопировать библиографическую ссылку:
РЕГРЕССИО́ННЫЙ АНА́ЛИЗ, раздел математич. статистики, объединяющий практич. методы исследования регрессионной зависимости между величинами по статистич. данным. В отличие от функциональной зависимости $y=y(x)$, когда каждому значению независимой переменной $x$ соответствует одно определённое значение величины $y$, при регрессионной зависимости одному и тому же значению $x$ могут соответствовать в зависимости от случая разл. значения величины $y$. Примером такого рода зависимости служит, напр., зависимость средних диаметров сосен от их высот.
Изучение регрессии с точки зрения теории вероятностей основано на том, что случайные величины $X$ и $Y$ с заданным совместным распределением вероятностей связаны вероятностной зависимостью: при каждом фиксированном значении $X=x$ величина $Y$ является случайной величиной с определённым (зависящим от $x$) условным распределением вероятностей. Регрессия величины $Y$ по величине $X$ определяется условным математич. ожиданием $Y$, вычисленным при условии, что $X=x$: $$\sf E \it(Y∣x)=y(x).$$ График функции $y=y(x)$ называется линией или кривой регрессии величины $Y$ по $X$; переменная $x$ называется регрессионной переменной или регрессором. Точность, с которой уравнение регрессии $Y$ по $X$ отражает изменение $Y$ в среднем при изменении $x$, измеряется условной дисперсией величины $Y$, вычисленной для каждого значения $X=x$: $$\sf \it D(Y∣x)=σ^2(x).$$ Если $σ^2(x)=0$ при всех значениях $x$, то $Y$ и $X$ связаны строгой функциональной зависимостью. Если $σ^2(x)≠0$ ни при каком значении $x$ и $y(x)$ не зависит от $x$, то говорят, что регрессия $Y$ по $X$ отсутствует. Аналогичным образом определяется регрессия $X$ по $Y$.
Линии регрессии обладают следующим свойством: среди всех действительных функций $f(x)$ минимум математич. ожидания величины $\sf E \it (Y-f(X))^2$ достигается для функции $f(x)=\sf E\it (Y∣x)$, т. е. регрессия $Y$ по $X$ даёт наилучшее, в указанном смысле, представление величины $Y$ по величине $X$. Это свойство используется для прогноза $Y$ по $X$: если непосредственно наблюдается лишь компонента $X$ вектора $(X,Y)$, то в качестве прогнозируемого значения $Y$ используют величину $y(X)$.
Наиболее простым является случай, когда регрессия $Y$ по $X$ линейна: $$\sf E \it (Y∣x)=\rm β_0+β_1\it x.$$ Коэффициенты $β_0$ и $β_1$ называются коэффициентами регрессии, их можно вычислять по формулам $$β_0=m_Y-ρ\frac{σ_Y}{σ_X}m_x,\quad β_1=ρ\frac{σ_Y}{σ_X},$$где $m_X$, $m_Y$ – математич. ожидания, $σ^2_X$, $σ^2_Y$ – дисперсии $X$, $Y$, а $ρ$ – корреляции коэффициент между $X$ и $Y$. Кривая регрессии при этом имеет вид$$y=m_Y+ρ\frac{σ_Y}{σ_X}(x-m_X).$$
В общем случае кривая регрессии обычно выражается линейной комбинацией тех или иных заданных функций:$$y(x)=\\=β_0φ_0(x)+ β_1φ_1(x)+...+ β_mφ_m(x).$$ Наиболее важное значение имеет полиномиальная регрессия, при которой $$y(x)= β_0+β_1x+...+ β_mx^m.$$ Оценка неизвестных коэффициентов $β_0,...,β_m$ осуществляется наименьших квадратов методом. Оценки $\hat β_0,...,\hat β_m$ параметров $β_0,...,β_m$, полученные этим методом, называются выборочными коэффициентами регрессии, а многочлен $$\hat y(x)=\hat β_0+\hat β_1x+...+\hat β_mx_m$$определяет эмпирическую линию регрессии, которая служит статистич. оценкой неизвестной истинной линии регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам, совпадающим с оценками, полученными максимального правдоподобия методом. Оценки, полученные этим методом, оказываются, однако, в некотором смысле наилучшими и в случае отклонения от нормальной распределённости, если только объём выборки достаточно велик.