ИНФОРМА́ЦИЯ
-
Рубрика: Математика
-
-
Скопировать библиографическую ссылку:
ИНФОРМА́ЦИЯ в математике, общее название понятий, играющих фундаментальную роль в информатике, информации теории, кибернетике, а также в математической статистике. В каждой из этих дисциплин интуитивное представление об И. относительно к.-л. величин или явлений требует своего уточнения и формализации.
Кибернетика изучает машины и живые организмы исключительно с точки зрения их способности воспринимать определённую И., сохранять эту И. в памяти, передавать её по каналам связи и перерабатывать её в сигналы, направляющие их деятельность. В некоторых случаях возможность сравнения разл. данных по содержащейся в них И. столь же естественна, как и возможность сравнения плоских фигур по площади: независимо от способа измерения площадей можно сказать, что фигура $A$ имеет не бóльшую площадь, чем $B$, если $A$ может быть целиком помещена в $B$. Более глубокий факт – возможность выразить площадь числом и на этой основе сравнивать между собой фигуры произвольной формы – является результатом развития геометрии. Подобно этому фундам. результатом теории И. является утверждение о том, что в определённых, весьма широких условиях можно пренебречь качественными особенностями И. и выразить её количество числом. Только этим числом определяются возможности передачи И. по каналам связи и её сохранения в запоминающих устройствах.
Пример 1. Результаты произведённых независимых измерений к.-л. физич. величины, хотя и содержат ошибки, дают И. о её точном значении. Увеличение числа измерений увеличивает эту И. Среднее арифметическое результатов наблюдений также содержит некоторую И. относительно рассматриваемой величины. В математич. статистике установлено, что в случае нормального распределения вероятностей ошибок с известной дисперсией среднее арифметическое содержит ту же И. о точном значении, что и все наблюдения.
Пример 2. Пусть на входе канала связи имеется некоторая случайная величина $X$, которая при передаче искажается, в результате чего на выходе получают величину $Y=X+Z$, где $Z$ не зависит от $X$ (в смысле теории вероятностей). Выход $Y$ даёт И. о входе $X$, причём естественно ожидать, что эта И. тем меньше, чем больше рассеяние значений $Z$.
В приведённых примерах данные можно сравнить по содержащейся в них И. Смысл этого сравнения требует уточнения. Это уточнение даётся соответственно математич. статистикой и теорией информации.
В основе теории И. лежит предложенный в 1948 К. Шенноном способ измерения количества И., содержащейся в одном случайном объекте (событии, величине, функции и т. п.) относительно др. случайного объекта. Этот способ приводит к выражению количества И. числом. Проще всего количество И. определяется в случае, когда случайные объекты являются случайными величинами, принимающими лишь конечное число значений. Пусть $X$ – случайная величина, принимающая значения $x_1,x_2,…,x_n$ с вероятностями $p_1,p_2,…,p_n$, а $Y$ – случайная величина, принимающая значения $y_1,y_2,…,y_m$ свероятностями $q_1,q_2,…,q_m$. Тогда количество И. $I(X,\,Y)$, содержащееся в $X$ относительно $Y$, определяется формулой $$I(X,\, Y)=\sum_{i,j} p_{ij} \log_2(p_{ij}/p_iq_j), \qquad (1)$$ где $p_{ij}$ – вероятность совмещения событий $\{X=x_i\}$ и $\{Y=y_j\}$. Величина $I(X,\,X)$ является энтропией случайной величины $X$. Справедливо равенство $I(X,\,Y) =I(Y,\,X)$. Величина $I(X,\,Y)$ обладает рядом свойств, которые естественно требовать от меры количества И. Так, всегда $I(X,\,Y)⩾0$, и равенство $I(X,\,Y)=0$ справедливо тогда и только тогда, когда $p_{ij}=p_iq_j$ при всех $i$ и $j$, т. е. когда случайные величины $X$ и $Y$ независимы. Всегда справедливо неравенство $I(X,\,Y) ⩽I(Y,\,Y)$, и равенство справедливо тогда и только тогда, когда $Y$ есть функция от $X$ (напр., $Y=X^2$).
Понятие энтропии $$H(X)=I(X,\,X)=\sum_i p_i \log_2 (1/p_i)$$ относится к числу осн. понятий теории И. Количество И. и энтропия связаны соотношением $$I(X, \,Y)=H(X)+H(Y)-H(X,\,Y), \quad (2)$$ где $H(X,\,Y)$ – энтропия пары $(X,\,Y)$, т. е. $$H(X,\,Y)=\sum_{i,j} \log_2(1/p_{ij}).$$ Величина энтропии оценивает сверху среднее число двоичных знаков 0 и 1, необходимое для различения (записи) возможных значений случайной величины при наиболее экономном кодировании, и отличается от него не более чем на 1. Это обстоятельство позволяет понять роль количества И. (1) при хранении И. в запоминающих устройствах. Если случайные величины $X$ и $Y$ независимы, то можно считать, что для записи значений $X$ требуется в среднем $H(X)$ двоичных знаков, для записи значений $Y$ требуется $H(Y)$ двоичных знаков, а для пары $(X,\,Y)$ требуется $H(X)+H(Y)$ двоичных знаков. Если же случайные величины $X$ и $Y$ зависимы, то среднее число двоичных знаков, необходимое для записи пары $(X,\,Y)$, оказывается меньше суммы $H(X)+H(Y)$, т. к. $H(X,\,Y)=H(X)+H(Y)-I(X,\,Y)$.
С помощью более глубоких утверждений выясняется роль количества И. (1) в вопросах передачи И. по каналам связи. Осн. информац. характеристика, т. н. пропускная способность канала связи, определяется через количество информации.
Если совместное распределение случайных величин $X$ и $Y$ имеет плотность вероятности, то $I(X,\,Y)$ определяется равенством $$I(X,\,Y)=\iint p(x,\,y)\log_2 \frac{p(x,\,y)}{p(x)q(y)}dxdy, \quad(3)$$ где $p(x,\,y),\, p(x)$ и $q(y)$ обозначают соответствующие плотности вероятности. Эта формула получается из (1) с помощью предельного перехода. При этом энтропии $H(X)$ и $H(Y)$ не существуют, но справедлива формула, аналогичная (2), $$I(X,\,Y)=h(X)+h(Y)-h(X,\,Y),\quad (4)$$ где $$h(X)=\int p(x)\log_2 \frac{1}{p(x)}dx$$ – дифференциальная энтропия случайной величины $X$, $h(Y)$ и $h(X,\,Y)$ определяются аналогично.
Пример 3. Пусть в условиях примера 2 независимые случайные величины $X$ и $Z$ имеют нормальные распределения вероятностей с нулевыми средними значениями и дисперсиями, равными соответственно $σ_X^2$ и $σ_Z^2$. Тогда формулы (3) или (4) приводят к равенству $$I(Y,\,X)=I(X,\,Y)=\frac{1}{2}\log_2 (1+σ_Z^2/σ_Z^2).$$ Т. о., количество И. в принятом сигнале $Y$ относительно переданного сигнала $X$ стремится к нулю при возрастании уровня помех $Z$ (т. е. при $σ_X^2 →∞$) и неограниченно возрастает при исчезающе малом влиянии помех (т. е. при $σ_Z^2→0$).
Особенный интерес для теории И. представляет случай, когда в обстановке примеров 2 и 3 случайные величины $X$ и $Y$ заменяются случайными функциями (или, как говорят, случайными процессами) $X(t)$ и $Y(t)$, которые описывают изменение во времени некоторой величины на входе и на выходе передающего устройства. Количество И. в $Y(t)$ относительно $X(t)$ при заданном уровне помех (шумов) $Z(t)$ может служить критерием качества передающего устройства.
В задачах математич. статистики также пользуются понятием И., введённым Р. Фишером (1921). Однако как по своему формальному определению, так и по своему назначению оно отличается от того, что используется в теории И. Математич. статистика имеет дело с большим числом результатов наблюдений и заменяет обычно их полное перечисление указанием некоторых сводных характеристик (см. пример 1). Иногда при такой замене происходит потеря И., но при некоторых условиях сводные характеристики содержат всю И., имеющуюся в полных данных.
Пример 4. Пусть $X1,\,X2,\,…,X_n$ – результаты $n$ независимых наблюдений некоторой величины, распределённые по нормальному закону с плотностью вероятности $$p(x;\,aσ^2)=\frac{1}{σ\sqrt{2π}} \exp \biggl(-\frac{(x-a)^2}{2σ^2}\biggl),$$ где параметры $a$ и $σ^2$ (среднее и дисперсия) неизвестны и должны быть оценены по результатам наблюдений. Достаточными статистиками (так называются функции от результатов наблюдений, содержащие всю И. о неизвестных параметрах) в этом примере являются среднее арифметическое $$\overline X =\frac{1}{n} \sum_{i=1}^n X_i$$ и эмпирич. дисперсия $$s^2=\frac{1}{n} \sum_{i=1}^n (X_i-\overline X)^2.$$
Если параметр $σ^2$ известен, то достаточной статистикой для параметра $a$ будет только $\overline X$ (ср. пример 1). Смысл выражения «вся И.» состоит в следующем. Пусть имеется к.-л. функция неизвестных параметров $φ=φ(a,\,s^2)$ и пусть $φ^*=φ^*(X_1,\,X2,\,...,\,X_n)$ – к.-л. её оценка, не имеющая систематич. ошибки, т. е. математич. ожидание $φ^*$ совпадает с $φ$. Пусть качество оценки, т. е. её точность, измеряется, как это обычно делается в задачах математич. статистики, дисперсией разности $φ^*-φ$. Тогда существует другая оценка $φ^{**}$, зависящая не от отд. величин $X_1,\,X2,\,...,\,X_n$, а только от сводных характеристик $\overline X$ и $s^2$, не имеющая систематич. ошибки и для которой дисперсия разности $φ^{**}-φ$ не превосходит дисперсии разности $φ^*-φ$.