ВЕРОЯ́ТНОСТЕЙ ТЕО́РИЯ
-
Рубрика: Математика
-
Скопировать библиографическую ссылку:
ВЕРОЯ́ТНОСТЕЙ ТЕО́РИЯ, раздел математики, изучающий математич. модели случайных явлений. В. т. является основой мн. математич. дисциплин, напр. математической статистики, теории массового обслуживания, теории надёжности, финансовой и актуарной математики.
Экспериментальные основы теории вероятностей
Возможность изучения случайных событий основана на том, что массовые случайные явления в неизменных условиях обладают закономерностью, называемой статистич. устойчивостью частот, которая заключается в следующем. Пусть случайное событие $A$ может произойти или не произойти при осуществлении некоторого комплекса условий $S$. Если условия $S$ реализуются $N$ раз, то говорят, что произведено $N$ испытаний. Отношение $N(A)/N$, где $N(A)$ – число появлений события $A$ при $N$ испытаниях, называется относительной частотой события $A$. С ростом $N$ относительная частота $N(A)/N$ колеблется около некоторого числа, называемого вероятностью события $A$ и обычно обозначаемого $\mathsf P(A)$. Так, при большом числе бросаний монеты орёл появляется примерно в половине случаев, поэтому вероятность появления орла можно считать равной $^1/_2$. Статистика рождений показывает, что мальчиков рождается больше, чем девочек, причём наблюдаемая доля рождений мальчиков равна 0,51–0,52; поэтому вероятность рождения мальчика несколько больше $^1/_2$. См. также Вероятность.
Основные понятия теории вероятностей
Исходя из данных событий $A_1,..., A_r$, можно определить их объединение и пересечение. Объединением событий $A_1,..., A_r$ называют событие $B$, которое происходит тогда и только тогда, когда в данном испытании наступает хотя бы одно из событий $A_1,..., A_r$. Пересечением (или произведением, или совмещением) событий $A_1,..., A_r$ называется событие $C$, которое происходит тогда и только тогда, когда в данном испытании наступают все события $A_1,..., A_r$. Для каждого события $A$ вводится противоположное событие $\overline{A}$, которое происходит тогда и только тогда, когда $A$ не происходит.
Для объединения $B$ событий $A_1,..., A_r$ обычно используются обозначения$$B=A_1 \cup A_2 \cup ... \cup A_r =\bigcup\nolimits_{i=1}^{r}A_i,$$а для пересечения –$$C=A_1 \cap A_2 \cap ... \cap A_r =\bigcap\nolimits_{i=1}^{r}A_i.$$Иногда пишут $C=A_1…A_r$.
В т. н. урновой схеме предполагается, что в урне содержатся шары, которые обозначаются элементами $ω$ некоторого конечного множества $Ω$. Из урны случайным образом извлекается один шар $ω$. Если $ω∈A$, где $A$ – подмножество $Ω$, то говорят, что произошло событие $A$. Всё множество $Ω$ называется достоверным событием, т. к. всегда $ω∈Ω$, а пустое множество $∅$ – невозможным событием, т. к. всегда $ω∉∅$.
В В. т. вероятность $\mathsf {P}$ вводится аксиоматически. Предполагается, что события $A$ образуют класс подмножеств некоторого пространства элементарных исходов (элементарных событий) $Ω=\{ω\}$, этот класс $𝒜$ подмножеств является $σ$-алгеброй, т. е. $𝒜$ содержит невозможное $∅$ и достоверное $Ω$ события, а также замкнут относительно образования разностей двух событий и объединения и пересечения событий в конечном или счётном числе. Вероятность $\mathsf {P}$ определена на всех множествах $A∈𝒜$ и удовлетворяет следующим аксиомам:
А1. $\mathsf P(A)⩾ 0$ (неотрицательность),
А2. $\mathsf{P}(\Omega)= 1$ (нормированность),
А3. $\mathsf{P}\left ( \bigcup_{i=1}^{\infty }A_i \right )=\sum_{i=1}^{\infty }\mathsf{P}(A_i)$, если $A_i\cap A_j= ∅$ при $i\neq j$ (счётная аддитивность).
Тройка ($Ω, 𝒜, \mathbf{P}$), в которой $\mathbf{P}$ удовлетворяет аксиомам А1, А2, А3, называется вероятностным пространством.
Эта аксиоматика была предложена в 1933 А. Н. Колмогоровым и является наиболее распространённой логич. основой построения В. т. Свойствам неотрицательности, нормированности и конечной аддитивности удовлетворяют относит. частоты $N(A)/N$ реальных случайных событий, поэтому естественно было потребовать, чтобы этим же свойствам удовлетворяли и вероятности $\mathbf{P}(A)$, к которым близки относительные частоты. Требование счётной аддитивности вероятности $\mathbf{P}$ необходимо для создания полноценной математич. теории. При построении вероятностных пространств вероятность $\mathbf{P}$ может задаваться разными способами. Напр., если $Ω$ – конечное множество, вероятностное пространство называется конечным, и в этом случае вероятность $\mathbf{P}$ можно задать с помощью вероятностей $p(ω)$ элементарных исходов $ω∈Ω$, эти вероятности удовлетворяют условиям
$$p(\omega )⩾ 0,\: \omega \in \Omega ,\:\sum\nolimits_{\omega =\Omega }p(\omega )=1,$$а значение вероятности $\mathsf{P}(A)$ события $A$ задаётся формулой$$\mathsf{P}(A)=\sum\nolimits_{\omega =A }p(\omega ).\qquad (1)$$Часто элементарные исходы $ω∈A$ называются исходами, благоприятствующими событию $A$.
В том случае, когда есть основания считать элементарные исходы равновозможными, все $p(\omega )$ считают равными друг другу и получают в качестве частного случая (1) т. н. классич. определение вероятности$$\mathsf{P}(A)=∣A∣/∣Ω∣,$$где $|A|$ – число элементов множества $A$, т. е. вероятность события $A$ равна отношению числа исходов, благоприятствующих событию $A$, к общему числу элементарных исходов. Этот подход широко используется в вероятностной комбинаторике и вопросах защиты информации.
Другой важный случай, когда вероятность $\mathsf{P}$ задаётся исходя из обобщения понятия равновозможности, может быть описан следующим образом. Пусть $Ω$ – некоторое ограниченное множество евклидова пространства, имеющее объём $V(Ω)$ (соответственно длину или площадь в одномерном и двумерном случаях). Пусть $ω$ – случайно взятая в $Ω$ точка; полагая, что вероятность попасть точке $ω$ в множество $A⊂Ω$ пропорциональна его объёму $V(A)$, получают т. н. геометрич. определение вероятности$$\mathsf{P}(A)=V(A)/V(Ω).$$Это определение используется в интегральной геометрии.
Вероятность $\mathsf{P}$, удовлетворяющая аксиомам А1 – А3, является нормированной мерой на $σ$-алгебре $𝒜$ подмножеств $Ω$ (см. Мера множества). Таким образом, В. т. может с формальной точки зрения рассматриваться как часть теории меры. Однако осн. проблемы В. т. и теории меры различны, что во многом связано со специфическим для В. т. понятием независимости.
Условную вероятность $\mathsf{P}(A∣B)$ события $A$ при условии $B$ определяют формулой$$\mathsf{P}(A∣B)=\mathsf{P}(A∩B)/\mathsf{P}(B),\qquad (2)$$если вероятность $\mathsf{P}(B)$ не равна нулю. Событие $A$ называется независимым (стохастически независимым) от события $B$, если$$\mathsf{P}(A∣B)=\mathsf{P}(A).\qquad (3)$$Условие (3) можно записать в симметричной форме:$$\mathsf{P}(A\cap B)= \mathsf{P}(A)\mathsf{P}(B)\qquad (4)$$
В более общем случае $σ$-алгебры событий $𝒜_1, ..., 𝒜_r⊂𝒜$ называются независимыми, если для любых $A_i∈𝒜_i, i=1,…,r$, справедливо равенство$$\mathsf{P}(A_1\cap ... \cap A_r)= \mathsf{P}(A_1)\mathsf{P}(A_2)...\mathsf{P}(A_r).$$События из различных независимых $σ$-алгебр называются независимыми.
Понятие независимости и условные вероятности оказываются особенно полезными при рассмотрении составных испытаний. В простых случаях испытание – это осуществление некоторых условий, при которых происходит одно и только одно из событий $\{A_i\}$, называемых исходами испытания. В вероятностном пространстве $(Ω, 𝒜, \mathbf{P})$ испытанию соответствует разбиение ,где $A_i$ попарно несовместимы (несовместны), т. е. $A_i∩A_j=∅$ при $i≠j$. Говорят, что испытание $T$ составлено из испытаний $T_1, T_2, ..., T_{n–1}, T_n$, если каждый исход испытания $T$ есть совмещение некоторых исходов $A_i, B_j, ..., U_k, V_l$ соответствующих испытаний $T_1,T_2, ..., T_{n–1},T_n$. Из тех или иных соображений часто бывают известны вероятности$$\mathsf{P}(A_i),\mathsf{P}(B_j\mid A_i),...,\mathsf{P}(V_l\mid A_i\cap B_j \cap ... \cap U_k).\qquad (5)$$
По вероятностям (5) с помощью (2) могут быть определены вероятности $\mathsf{P}(E)$ для любого события вида $E=A_i \cap B_j \cap ... \cap U_k \cap V_l.$
Наиболее значительными с практич. точки зрения представляются два типа составных испытаний, в первом из которых испытания $T_1, T_2, ..., T_n$ независимы, т. е. вероятности (5) равны безусловным вероятностям $\mathsf{P}(A_i),\mathsf{P}(B_j), ..., \mathsf{P}(V_l)$, а во втором на вероятности исходов к.-л. испытания влияют результаты лишь непосредственно предшествующего испытания, т. е. вероятности (5) равны соответственно $\mathsf{P}(A_i),\mathsf{P}(B_j\mid A_i), ..., \mathsf{P}(V_l\mid U_k)$. В этом случае говорят об испытаниях, связанных в Маркова цепь; вероятности всех событий, связанных с составным испытанием, определяются здесь начальными вероятностями $\mathsf{P}(A_i)$ и т. н. переходными вероятностями $\mathsf{P}(B_j\mid A_i), ..., \mathsf{P}(V_l\mid U_k)$.
Исходам испытаний могут соответствовать к.-л. числовые значения, в этом случае говорят о случайных величинах. Если задано вероятностное пространство $(Ω, 𝒜, \mathsf{P})$, то случайная величина $X$ – это функция $X(ω)$ от элементарного исхода $ω$, для которой определена функция распределения$$F_X(x)=\mathsf{P}\{X < x\}, -\infty < x< \infty .$$
Важный класс распределений составляют абсолютно непрерывные распределения, для которых существуют т. н. плотности вероятности $p_X(x)$, для этих распределений $$F_X(x)=\int_{-\infty }^{x}p_x(u)du.$$
Другой класс распределений – дискретные распределения; они задаются конечным или счётным числом точек $x_k$ действительной прямой $\mathbf{R}$ и вероятностями $\mathsf{P}\{X=x_k\}$ так, что для любого $B⊆\mathbf{R}$$$\mathsf{P}_X(B)=\mathsf{P}\{X\subseteq B\}=\sum\nolimits_{x_k\in B}\mathsf{P}\{X=x_k\}.$$
Примерами абсолютно непрерывных распределений могут служить нормальное распределение, задаваемое плотностью
$$p_X(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-(x-a)^2/(2\sigma ^2)},\qquad (6)$$
где $a$ и $σ$ – параметры нормального распределения, $a∈\mathbf{R}$, $σ>0$, а также показательное распределение, задаваемое плотностью$$p_X(x)=\lambda e^{-\lambda x}, \:x\geqslant 0; \:p_X(x)=0,\:x< 0,$$
где $λ$ – параметр показательного распределения, $λ>0$.
Примером дискретного распределения служит биномиальное распределение, задаваемое вероятностями $$\mathsf{P}\{X=k\}=C_{n}^{k}p^k(1-p)^{n-k}, k=0,1,...,n,\qquad (7)$$где $X$ – число успехов в $n$ испытаниях в Бернулли схеме, $p$ – вероятность успеха, $0\leqslant p\leqslant 1$.
Часто вместо распределения вероятностей случайной величины можно ограничиться использованием небольшого количества числовых характеристик распределения. Из них наиболее употребительны математическое ожидание и дисперсия.
При одновременном изучении нескольких случайных величин вводится совместное распределение, которое для случайных величин $Х_1, ..., Х_n$ задаётся функцией совместного распределения$$F_{X_1,...,X_n}(x_1,...,x_n)=\mathbf{P}\{X_1< x_1,...,X_n< x_n\},$$где $-∞ < x_1, ..., x_n < ∞$. Случайные величины $Х_1, ..., Х_n$ называются независимыми, если$$F_{X_1,...,X_n}(x_1,...,x_n)=F_{X_1}(x_1)...F_{X_n}(x_n)$$для любых $x_1, …, x_n, -∞ < x_1, …, x_n < ∞$ .
Предельные теоремы
С помощью совместного распределения случайных величин можно вычислить вероятность любого события, определяемого этими величинами, напр. события $a < X_1+ …+X_n < b$. Вычисление точных вероятностей таких событий, как правило, связано со значит. трудностями, поэтому обычно используются т. н. предельные теоремы, которые позволяют получать приближённые значения таких вероятностей (с оценкой точности приближения).
Одним из примеров применения предельных теорем в В. т. может служить замена значения вероятности (7), трудно вычисляемой при больших $n$, приближённым значением$$\frac{1}{\sqrt{2\pi np(1-p)}}e^{-x^2/2},$$где $x=(k-np)/\sqrt{np(1-p)}$.
При формальном изложении В. т. предельные теоремы появляются в виде своего рода надстройки над её элементарными разделами, в которых все задачи имеют конечный, чисто арифметич. характер. Однако предельными теоремами раскрывается познавательная ценность В. т. Так, Бернулли теорема показывает, что при независимых испытаниях частота появления к.-л. события, как правило, мало отклоняется от его вероятности, а теорема Муавра – Лапласа указывает вероятности тех или иных отклонений. Смысл таких характеристик случайной величины, как её математич. ожидание и дисперсия, проявляется в больших чисел законе и центральной предельной теореме.
Пусть $X_1, X_2, ...$ – независимые случайные величины, имеющие одно и то же распределение вероятностей с математич. ожиданием $\mathsf{E}X_k=a$ и дисперсией $\mathsf{D}X_k=σ^2$, и $S_n=(X_1+…+X_n)/n$ – среднее арифметическое первых $n$ величин этой последовательности.
В соответствии с законом больших чисел, каково бы ни было число $ε > 0$, вероятность неравенства $\mid Sn-a\mid \leqslant \varepsilon$ при $n→∞$ имеет пределом 1 и, таким образом, $S_n$, как правило, мало отличается от $a$ (это – аналог устойчивости частот). Центральная предельная теорема уточняет этот результат, показывая, что отклонения $S_n$ от $a$ приближённо подчинены нормальному распределению со средним 0 и дисперсией $σ^2/n$. Т. о., для вычисления (в первом приближении) вероятностей тех или иных отклонений $S_n$ от $a$ при больших $n$ нет надобности знать во всех деталях распределение величин $X_n$; достаточно знать лишь их дисперсию. Для оценки точности этого приближения необходимо привлекать моменты порядка, большего 2. Использование таких моментов позволяет также строить более точные приближения.
Эти утверждения могут быть с надлежащими изменениями распространены на различно распределённые слагаемые (см. Ляпунова теорема) и на случайные векторы (из конечномерных и некоторых бесконечномерных пространств). Условия независимости могут быть заменены условиями слабой (в том или ином смысле) зависимости случайных величин $X_1, X_2, ....$
В 1920-х гг. было обнаружено, что даже в схеме последовательности одинаково распределённых и независимых случайных величин появляются предельные распределения, отличные от нормального.
Случайные процессы
Механизм возникновения большинства предельных закономерностей может быть понят лишь в связи с теорией случайных процессов. В ряде физич. и химич. исследований в сер. 20 в. возникла потребность наряду с одномерными и многомерными случайными величинами рассматривать случайные процессы. В В. т. случайный процесс рассматривают как параметрич. семейство случайных величин $X_t$. Примером случайного процесса может служить процесс $X_t$, где $X_t$ – координата в момент $t$ частицы, совершающей броуновское движение. Обычно в приложениях параметр $t$ является временем, но этим параметром может быть, напр., произвольная независимая переменная, и тогда говорят о случайной функции (если $t$ – точка пространства, то говорят о случайном поле). В том случае, когда параметр $t$ пробегает целочисленные значения, случайная функция называется случайной последовательностью (или временны́м рядом). Подобно тому как случайная величина характеризуется законом распределения, случайный процесс может быть характеризован т. н. конечномерными распределениями – совокупностью совместных законов распределения , где $t_1, ..., t_n$ – всевозможные моменты времени, $n=1, 2, … $. В теории случайных процессов наиболее изучены марковские процессы, стационарные случайные процессы, ветвящиеся процессы, а также мартингалы. Интенсивно развивается теория случайных процессов, происходящих в случайной среде.
Исторически первыми изучались марковские процессы. Случайный процесс $X_t$ называется марковским, если для любых моментов времени $t_0$ и $t_1, t_0 < t_1$ условное распределение вероятностей при условии, что заданы все значения $X_t$ при $t⩽t_0$, зависит только от (в силу этого марковские случайные процессы иногда называются процессами без последействия). Марковские процессы являются естественным обобщением детерминированных процессов, рассматриваемых в классич. физике. В детерминированных процессах состояние системы в момент $t_0$ однозначно определяет ход процесса в будущем; в марковских процессах состояние системы в момент времени $t_0$ однозначно определяет распределение вероятностей процесса при $t > t_0$, причём никакие сведения о поведении процесса до момента времени $t_0$ не изменяют это распределение. Подобно тому как изучение непрерывных детерминированных процессов сводится к дифференциальным уравнениям относительно функций, описывающих состояние системы, изучение непрерывных марковских процессов сводится к дифференциальным или интегродифференциальным уравнениям относительно распределений вероятностей процесса.
Другим крупным разделом в теории случайных процессов является теория стационарных случайных процессов. Стационарность процесса, т. е. неизменность во времени его вероятностных характеристик, налагает сильное ограничение на процесс и позволяет из одного этого допущения извлечь ряд важных следствий. Для б. ч. теории достаточно предположения о стационарности в широком смысле, т. е. требования независимости от $t$ математич. ожиданий $\mathsf{E}X_t$ и $\mathsf{E}X_{t+τ}$ для всех $τ$.
Теория случайных процессов тесно связана с классич. проблематикой предельных теорем для сумм случайных величин. Те законы распределения, которые выступают при изучении сумм случайных величин как предельные, в теории случайных процессов являются точными законами распределения соответствующих характеристик. Этот факт позволяет доказывать многие предельные теоремы с помощью соответствующих случайных процессов.
Исторический очерк
Первые работы по В. т., принадлежащие Б. Паскалю, П. Ферма и Х. Гюйгенсу, появились в сер. 17 в. и были связаны с подсчётом разл. вероятностей в азартных играх. Первый строго доказанный результат В. т. принадлежит Я. Бернулли, установившему закон больших чисел для схемы независимых испытаний с двумя исходами (опубл. в 1713).
Второй период истории В. т. (18 – 1-я пол. 19 вв.) связан с именами А. де Муавра, П. Лапласа, К. Гаусса и С. Пуассона. В этот период В. т. находит ряд актуальных применений в естествознании и технике, гл. обр. в теории ошибок, развившейся в связи с потребностями геодезии и астрономии, и в теории стрельбы. К этому периоду относятся доказательство первого варианта центральной предельной теоремы (А. де Муавр, 1733, П. Лаплас, 1812) и Пуассона теоремы. А. Лежандром (1806) и К. Гауссом (1808) был разработан метод наименьших квадратов. В 18 в. ряд трудов по В. т. был написан работавшими в России Л. Эйлером, Н. Бернулли и Д. Бернулли; появились работы М. В. Остроградского по вопросам В. т., связанным с математич. статистикой, и В. Я. Буняковского по применениям В. т. к страховому делу, статистике и демографии.
Третий период истории В. т. (2-я пол. 19 в.) связан в осн. с именами П. Л. Чебышева и его учеников А. М. Ляпунова и А. А. Маркова. Они поставили ряд общих задач, решение которых привело к обобщению теорем Бернулли и Муавра – Лапласа. Чебышев доказал (1867) закон больших чисел при весьма общих предположениях. Он же впервые сформулировал центральную предельную теорему для сумм независимых случайных величин и указал один из методов её доказательства (1887). Другим методом доказательство этой теоремы в условиях, близких к окончательным, получил А. М. Ляпунов (1901). А. А. Марков впервые рассмотрел (1907) один случай зависимых испытаний, который впоследствии получил название цепей Маркова. Со 2-й пол. 19 в. исследования по В. т. в России занимают ведущее место в мире. В Зап. Европе во 2-й пол. 19 в. получили большое развитие работы по математич. статистике (А. Кетле, Ф. Гальтон) и статистич. физике (Л. Больцман), которые наряду с основными теоретич. работами П. Л. Чебышева, А. М. Ляпунова и А. А. Маркова создали основу для существенного расширения проблематики В. т. в совр. период её развития.
Четвёртый (современный) период истории В. т., начавшийся в 20 в., характеризуется существенным расширением круга её применений, созданием нескольких систем строгого математич. обоснования В. т., появлением новых мощных методов, требующих применения, помимо классич. анализа, средств теории множеств, теории функций действительного переменного и функционального анализа; в области В. т. плодотворно работали во Франции – Э. Борель, П. Леви, М. Фреше, в Германии – Р. Мизес, в США – Н. Винер, У. Феллер, Дж. Дуб, в Швеции – Г. Крамер; отеч. наука продолжала занимать значительное, а в ряде направлений и ведущее положение. В нашей стране новый период развития В. т. открывается деятельностью С. Н. Бернштейна, обобщившего классич. предельные теоремы П. Л. Чебышева, А. М. Ляпунова и А. А. Маркова и указавшего на ряд применений В. т. в естествознании. А. Я. Хинчин и А. Н. Колмогоров успешно применяли методы теории функций действительного переменного к В. т. В 1930-х гг. ими и Е. Е. Слуцким были заложены основы теории случайных процессов. В. И. Романовский, Н. В. Смирнов, Ю. В. Линник и Л. Н. Большев внесли большой вклад в развитие математич. статистики, применяя методы В. т. к статистич. задачам.