- Марковский процесс принятия решений
-
Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честь Андрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используются во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.
Определение
Чтобы определить марковский процесс принятия решений нужно задать 4-кортеж
, где
конечное число состояний,
конечное число действий (часто представляется в виде,
конечное число действий доступных из состояния
),
вероятность, что действие
в состоянии
во время
перейдет в состояние
ко времени
,
вознаграждение получаемое после перехода в состояние
из состония
с вероятностью перехода
.
См. также
Категории:- Теория игр
- Искусственный интеллект
Wikimedia Foundation. 2010.