ИНФОРМА́ЦИИ ТЕО́РИЯ
-
Рубрика: Математика
-
-
Скопировать библиографическую ссылку:
Книжная версия:
Электронная версия:
ИНФОРМА́ЦИИ ТЕО́РИЯ, раздел математики, исследующий процессы хранения, преобразования и передачи информации. И. т. – часть кибернетики. В основе И. т. лежит определённый способ измерения количества информации, содержащейся в к.-л. данных (сообщениях).
И. т. исходит из представления о том, что сообщения, предназначенные для сохранения в запоминающем устройстве или для передачи по каналу связи, не известны заранее с полной определённостью. Заранее известен лишь источник сообщений, т. е. множество x1,x2,…,xn, из которого могут быть выбраны эти сообщения, вероятности p1,p2,…,pn появления этих сообщений. В И. т. неопределённость, с которой сталкиваются в подобной обстановке, допускает количественное выражение, и именно это количество, а не конкретная природа самих сообщений, определяет возможность их хранения и передачи. Рассматриваются всевозможные способы записи сообщений цепочками символов 0 и 1, называемые двоичными кодами, удовлетворяющие условиям: а) разл. сообщениям соответствуют разл. цепочки; б) по записи любой последовательности сообщений в кодированной форме эта последовательность должна однозначно восстанавливаться. В качестве меры неопределённости источника сообщений принимают среднее значение длины кодовой цепочки, соответствующее самому экономному способу кодирования; единицей измерения служит один двоичный знак.
Пример. Пусть некоторые сообщения x1,x2,x3 появляются с вероятностями, равными соответственно 1/2, 3/8, 1/8. К.-л. короткий код, напр. x1=0,x2=1,x3=01, не пригоден, т. к. нарушается условие б), поскольку цепочка 01 может означать как x1x2, так и x3. Код x1=0,x2=10,x3=11 удовлетворяет условиям а) и б). Ему соответствует среднее значение длины кодовой цепочки, равное 1⋅12+2⋅38+2⋅18=1,5. Оказывается, что никакой другой код не может дать меньшего значения, т. е. указанный код – самый экономный, мера неопределённости данного источника сообщений равна 1,5 (двоичных знаков).
Не существует простой формулы, выражающей точный минимум H′ среднего числа двоичных знаков, необходимых для кодирования сообщений x1,x2,…,xn, через вероятности p1,p2,…,pn этих сообщений. Однако этот минимум не меньше величины H=n∑i=1pilog2(1/pi) и может превосходить её не более чем на единицу. Величина H называемая энтропией источника сообщений, обладает простыми свойствами, а для всех выводов И. т., которые носят асимптотич. характер, т. е. соответствуют случаю H′→∞, различие между H и H′ несущественно. Поэтому именно энтропия принимается в качестве меры неопредлённости данного источника. В приведенном выше примере энтропия равна H=12log2+38log283+18log28=1,40564.
Энтропия бесконечной совокупности сообщений x1,x2,…, появляющихся с вероятностями p1,p2,…, оказывается, как правило, бесконечной, поэтому в применении к источникам с бесконечным числом сообщений поступают иначе. Именно, задаются определённым уровнем точности и вводят понятие ε-энтропии как энтропии сообщения, записываемого с точностью до ε, если сообщение представляет собой непрерывную величину или функцию, напр., времени.
Так же, как и понятие энтропии, понятие количества информации, содержащейся в одном случайном объекте (случайной величине, случайном векторе, случайной функции и т. д.) относительно другого, вводится сначала для объектов с конечным числом n возможных значений. Затем общий случай изучается при помощи предельного перехода при n→∞. В отличие от энтропии количество информации, напр. в одной непрерывно распределённой случайной величине относительно другой непрерывно распределённой величины, часто оказывается конечным.
Понятие канала связи в И. т. носит весьма общий характер. Канал связи задаётся указанием множества допустимых сообщений на входе канала, множеством сообщений на выходе и набором условных вероятностей получения того или иного сообщения на выходе при данном входном сообщении. Эти условные вероятности описывают влияние помех, искажающих передаваемые сообщения. Присоединяя к каналу связи источник сообщений, можно рассчитать количество информации относительно сообщения на входе, содержащееся в сообщении на выходе. Верхняя грань таких количеств информации, взятая по всем допустимым источникам, называется пропускной способностью (ёмкостью) канала. Пропускная способность канала – его осн. информац. характеристика. Несмотря на влияние (быть может, сильное) помех в канале, при определённом соотношении между энтропией поступающих сообщений и пропускной способностью канала при надлежащем кодировании возможна почти безошибочная передача сообщений.
В И. т. изучаются оптимальные в смысле скорости и надёжности способы передачи информации и устанавливаются теоретич. пределы достижимого качества. И. т. носит существенно вероятностный характер и значительная часть её математич. методов заимствуется из теории вероятностей.
Основы И. т. были заложены в 1948–1949 К. Шенноном. Её теоретич. разделы разрабатывались А. Н. Колмогоровым и А. Я. Хинчиным, а разделы, связанные с применениями, – В. А. Котельниковым.