Керований випадковий процес, випадковий процес, імовірнісні характеристики якого можна змінювати за допомогою дій, що управляють. Основна мета теорії В. с. п. – відшукання оптимальних (або близьких до них) управлінь, що доставляють екстремум заданому критерію якості. У простому випадку керованих марківських ланцюгів одна з математичних постановок завдання знаходження оптимального управління формулюється таким чином. Хай X d = ( x n , ) , n = 0, 1..., – сімейство однорідних марківських ланцюгів з кінцевим числом станів Е = {0, 1 ..., N} і матрицями перехідної вірогідності P xy ( d ) = { x 1 = в }, залежних від параметра d, що належить деякій безлічі дій D, що управляють. Набор функцій а = { а 0 ( x 0 ) , а 1 ( x 0 , x 1 ) ... } із значеннями в D називають стратегією, а кожну з функцій а n = а п ( х 0 ..., х п ) – управлінням у момент часу n. Кожної стратегії а відповідає керований марківський ланцюг X а = ( х п , ), n = 0, 1..., де
( x 0 , x 1 ..., х п ) = d( х 0 , х ) Рх 0 х 1 ( а 0 ( x 0 )) ... Px n-1 x n ( а n-1 ( x 0 , x 1 ..., x n-1 ))
Хай:
де функція f ( d, х ) ³ 0 і f ( d, 0) = 0 (якщо крапка {0} є поглинаючим станом і f ( d, x ) = I, d Î D, x = 1..., N, те V а ( x ) є матем.(математичний) чекання часу попадання з точки х в крапку 0). Функцію
називається ціною, а стратегію а * – оптимальною, якщо = V ( x ) для всіх х Î Е.
При досить загальних припущеннях про безліч D встановлюється, що ціна V ( x ) задовольняє наступному рівнянню оптимальності (рівнянню Беллмана):
,
де
.
В класі всіх стратегій найбільший інтерес представляють т.з. однорідні марківські стратегії, що характеризуються однією функцією а ( х ) такий, що а n ( x 0 ..., x n ) = а ( x n ) при всіх n = 0, 1...
Отже, критерій оптимальності (або достатня умова оптимальності) може бути використаний для перевірки того, що дана однорідна марківська стратегія є оптимальною: хай існують функції а * = а* ( х ) і V* = V* ( x ) такі, що для будь-якого d Î D
0 = f ( x, a* ( x )) + L а *V* £ f ( x, d ) + L d V* ( x )
( L d = T d – I, I – одиничний оператор), тоді V * є ціною ( V * = V ) і стратегія a* = a*( х ) є оптимальною.
Літ.: Ховард Р.-А., Динамічне програмування і марківські процеси, пер.(переведення) з англ.(англійський), М. 1964.