Марковский процесс принятия решений

Марковский процесс принятия решений

Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честь Андрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используются во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.

Определение

Пример MDP с 3 состояниями и 2 действиями

Чтобы определить марковский процесс принятия решений нужно задать 4-кортеж (S,A,P_\cdot(\cdot,\cdot),R_\cdot(\cdot,\cdot)), где

  • S конечное число состояний,
  • A конечное число действий (часто представляется в виде, A_s конечное число действий доступных из состояния s),
  • P_a(s,s') = \Pr(s_{t+1}=s' \mid s_t = s, a_t=a) вероятность, что действие a в состоянии s во время t перейдет в состояние s' ко времени t+1,
  • R_a(s,s') вознаграждение получаемое после перехода в состояние s' из состония s с вероятностью перехода P_a(s,s').

См. также



Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Марковский процесс принятия решений" в других словарях:

  • Теория игр — Эта статья о математической теории; другие значения: Психология игры. Джон Нэш  математик, нобелевский лауреат …   Википедия

  • Марков, Андрей Андреевич (старший) — В Википедии есть статьи о других людях с такой фамилией, см. Марков. Андрей Андреевич Марков Дата рождения …   Википедия

  • MDP — армянскaя метал группa (англ. Manic Depressive Psychosis) Megadrive Portable Марковский процесс принятия решений (англ. Markov decision process (MDP)) Мурамилдипептид (от англ. Muramyl dipeptide (MDP)) …   Википедия

  • Последовательная игра — в теории игр является игрой, где один игрок выбирает свое действие прежде, чем другие сделают свой ход. Важно, что у игроков ходивших позже появляется некоторая информация до выбора предыдущих игроков, иначе разница во времени не имела бы… …   Википедия

  • планирование (в экономике) — Процесс разработки планов развития экономических объектов разного уровня. В широком смысле слова включает также процессы организации осуществления планов, корректировки планов и контроля за их выполнением. В государствах централизованно… …   Справочник технического переводчика

  • М — Магистраль [turnpike] Мажоритарный акционер (Majority shareholder) Мажоритарная доля собственности (majority interest) Мажоритарный контроль (majority control) …   Экономико-математический словарь

  • Планирование — (в экономике) [planning] процесс разработки планов развития экономических объектов разного уровня. В широком смысле слова включает также процессы организации осуществления планов, корректировки планов и контроля за их выполнением. В государствах… …   Экономико-математический словарь

  • Скрытая марковская модель — Диаграмма переходов в скрытой Марковской модели (пример) x  скрытые состояния y  наблюдаемые результаты a  вероятности переходов b  вероятность результата Скрытая Марковская модель (СММ)  статистическая модель,… …   Википедия

  • Польша — (Polska)         Польская Народная Республика (Polska Rzeczpospolita Ludowa), ПНР.          I. Общие сведения          П. социалистическое государство в Центральной Европе, в бассейне рр. Висла и Одра, между Балтийским морем на С., Карпатами и… …   Большая советская энциклопедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»