БЕ́ЛЛМАНА УРАВНЕ́НИЕ
-
Рубрика: Математика
-
Скопировать библиографическую ссылку:
БЕ́ЛЛМАНА УРАВНЕ́НИЕ, рекуррентное соотношение для решения задачи оптимального управления с аддитивной целевой функцией. Метод нахождения оптимального управления с помощью Б. у. получил название динамического программирования. Уравнение носит имя Р. Беллмана, сформулировавшего принципы динамич. программирования в кон. 1950-х гг.
Решением Б. у. являются оптимальные значения целевой функции и оптимального управления для всех возможных состояний системы на каждом шаге управления. Нахождение оптимального управления в многошаговой задаче с $n$ шагами начинается с последнего шага, для чего составляется и решается Б. у. в одношаговой задаче, затем с использованием решения первой задачи составляется и решается Б. у. с двумя шагами, и так до начального момента, на котором выбирается первый из $n$ шагов.
Напр., в задаче распределения ресурсов однородный ресурс $X$ должен быть распределён между $N$ производственными процессами. Если для $k$-го процесса выделяется ресурс $x_k$, то получается доход $φ_k(x_k),\, k=1,\, …,\, N$. Требуется распределить ресурс $X$ по процессам таким образом, чтобы суммарный доход был максимальным. Др. словами, требуется найти максимум $$f_N(X)=\max \sum^N_{k=1} φ_k (x_k)$$ аддитивной целевой функции $\sum^N_{k=1} φ_k (x_k)$ при условиях $x_k⩾0,\, k=1,\, …,\, N,\, x_1+…+x_N=X$.
Для применения подхода динамич. программирования к данной задаче рассматривается семейство задач с любым числом шагов $n⩽N$ и любым запасом ресурса $0⩽x⩽X$. Многошаговость принятия решения вводится искусственно, на 1-м шаге выделяется ресурс $x_n$ для $n$-го процесса, на 2-м шаге выделяется ресурс $x_{n–1}$ для ($n-1$)-го процесса и т. д. В силу аддитивности целевой функции справедливо рекуррентное соотношение $$f_n(x)=\max_{xn} (φ_n(x_n)+f_{n-1}(x-x_n)),\, n=2,\, ...,\, N,$$ где $f_1(x)=φ_1(x)$. Это рекуррентное соотношение представляет собой Б. у. в этой задаче. Оно позволяет при всех допустимых значениях $x⩽X$ последовательно находить функции $f_1(x),\, …, \,f_n(x)$, начиная с $f_1(x)$, и соответствующие оптимальные управления $x_1(x), \,…,\, x_n(x)$, где $x_k(x)$ – оптимальный выбор ресурса для $k$-го процесса в задаче $k$ шагами, $k=1,\, …,\, n$.
Оптимальный доход для исходной задачи равен $f_N(X)$. Тем самым решение исходной задачи максимизация функции от $N$ переменных сводится к решению $N$ задач, в каждой из которых максимизация проводится по одной переменной.
Наряду с задачами с конечным числом шагов рассматриваются задачи с бесконечным числом шагов, а также задачи с непрерывным временем. В задачах оптимального управления с непрерывным временем Б. у. представляют собой дифференциальные уравнения спец. вида.