Керований випадковий процес
 
а б в г д е ж з и й к л м н о п р с т у ф х ц ч ш щ ъ ы ь э ю я
 

Керований випадковий процес

Керований випадковий процес, випадковий процес, імовірнісні характеристики якого можна змінювати за допомогою дій, що управляють. Основна мета теорії В. с. п. – відшукання оптимальних (або близьких до них) управлінь, що доставляють екстремум заданому критерію якості. У простому випадку керованих марківських ланцюгів одна з математичних постановок завдання знаходження оптимального управління формулюється таким чином. Хай X d = ( x n , ) , n = 0, 1..., – сімейство однорідних марківських ланцюгів з кінцевим числом станів Е = {0, 1 ..., N} і матрицями перехідної вірогідності P xy ( d ) =   { x 1 = в }, залежних від параметра d, що належить деякій безлічі дій D, що управляють. Набор функцій а = { а 0 ( x 0 ) , а 1 ( x 0 , x 1 ) ... } із значеннями в D називають стратегією, а кожну з функцій а n = а п ( х 0 ..., х п ) – управлінням у момент часу n. Кожної стратегії а відповідає керований марківський ланцюг X а = ( х п , ), n = 0,  1..., де

    ( x 0 , x 1 ..., х п ) = d( х 0 , х ) Рх 0 х 1 ( а 0 ( x 0 )) ... Px n-1 x n ( а n-1 ( x 0 , x 1 ..., x n-1 ))

  Хай:  

  де функція f ( d, х ) ³ 0 і f ( d, 0) = 0 (якщо крапка {0} є поглинаючим станом і f ( d, x ) = I, d Î D, x = 1..., N, те V а ( x ) є матем.(математичний) чекання часу попадання з точки х в крапку 0). Функцію

 

  називається ціною, а стратегію а * – оптимальною, якщо  = V ( x ) для всіх х Î Е.

  При досить загальних припущеннях про безліч D встановлюється, що ціна V ( x ) задовольняє наступному рівнянню оптимальності (рівнянню Беллмана):

  ,

  де

.

  В класі всіх стратегій найбільший інтерес представляють т.з. однорідні марківські стратегії, що характеризуються однією функцією а ( х ) такий, що а n ( x 0 ..., x n ) = а ( x n ) при всіх n = 0, 1...

  Отже, критерій оптимальності (або достатня умова оптимальності) може бути використаний для перевірки того, що дана однорідна марківська стратегія є оптимальною: хай існують функції а * = а* ( х ) і V* = V* ( x ) такі, що для будь-якого d Î D

  0 = f ( x, a* ( x )) + L а *V* £ f ( x, d ) + L d V* ( x )

  ( L d = T d – I, I – одиничний оператор), тоді V * є ціною ( V * = V ) і стратегія a* = a*( х ) є оптимальною.

  Літ.: Ховард Р.-А., Динамічне програмування і марківські процеси, пер.(переведення) з англ.(англійський), М. 1964.

  А. Н. Ширяєв.