у-уге	уги-удо	удр-ука	уке-уль	улэ-уол	уон-ург	урд-уси	уск-уст
усу-уша	ушб-уяр

Керований випадковий процес

Керований випадковий процес, випадковий процес, імовірнісні характеристики якого можна змінювати за допомогою дій, що управляють. Основна мета теорії В. с. п. – відшукання оптимальних (або близьких до них) управлінь, що доставляють екстремум заданому критерію якості. У простому випадку керованих марківських ланцюгів одна з математичних постановок завдання знаходження оптимального управління формулюється таким чином. Хай X ^d = ( x _n , ) , n = 0, 1..., – сімейство однорідних марківських ланцюгів з кінцевим числом станів Е = {0, 1 ..., N} і матрицями перехідної вірогідності P _xy ( d ) = { x ₁ = в }, залежних від параметра d, що належить деякій безлічі дій D, що управляють. Набор функцій а = { а ₀ ( x ₀ ) , а ₁ ( x ₀ , x ₁ ) ... } із значеннями в D називають стратегією, а кожну з функцій а _n = а _п ( х ₀ ..., х _п ) – управлінням у момент часу n. Кожної стратегії а відповідає керований марківський ланцюг X ^а = ( х _п , ), n = 0, 1..., де

( x ₀ , x ₁ ..., х _п ) = d( х ₀ , х ) Рх ₀ х ₁ ( а ₀ ( x ₀ )) ... Px _n-1 x _n ( а _n-1 ( x ₀ , x ₁ ..., x _n-1 ))

Хай:

де функція f ( d, х ) ³ 0 і f ( d, 0) = 0 (якщо крапка {0} є поглинаючим станом і f ( d, x ) = I, d Î D, x = 1..., N, те V ^а ( x ) є матем.(математичний) чекання часу попадання з точки х в крапку 0). Функцію

називається ціною, а стратегію а * – оптимальною, якщо = V ( x ) для всіх х Î Е.

При досить загальних припущеннях про безліч D встановлюється, що ціна V ( x ) задовольняє наступному рівнянню оптимальності (рівнянню Беллмана):

де

В класі всіх стратегій найбільший інтерес представляють т.з. однорідні марківські стратегії, що характеризуються однією функцією а ( х ) такий, що а _n ( x ₀..., x _n ) = а ( x _n ) при всіх n = 0, 1...

Отже, критерій оптимальності (або достатня умова оптимальності) може бути використаний для перевірки того, що дана однорідна марківська стратегія є оптимальною: хай існують функції а * = а* ( х ) і V* = V* ( x ) такі, що для будь-якого d Î D

0 = f ( x, a* ( x )) + L ^а *V* £ f ( x, d ) + L ^d V* ( x )

( L ^d = T ^d – I, I – одиничний оператор), тоді V * є ціною ( V * = V ) і стратегія a* = a*( х ) є оптимальною.

Літ.: Ховард Р.-А., Динамічне програмування і марківські процеси, пер.(переведення) з англ.(англійський), М. 1964.

А. Н. Ширяєв.

Керований випадковий процес

Наступні слова