Обучение с поощрением

Обучение с поощрением

Обучение с подкреплением (англ. reinforcement learning) — способ постановки эксперимента, в ходе которого испытуемая система (агент) обучается, при поведение и взаимодействии в некоторой среде. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления. Поэтому такое обучение является частным случаем обучения с учителем, где учителем является среда или ее модель. Но так же нужно иметь в виду, что некоторые правила подкрепления базируются на таких не явных учителях, например в случае ИНС только на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.

Содержание


Среда и агент

Агент воздействует на среду, а среда воздействует на агента. О такой системе говорят, что она имеет обратную связь. Такую систему нужно рассматривать как единое целое, и поэтому линия раздела между средой и агентом достаточно условна. Конечно, с анатомической или физической точек зрения между средой и агентом (организмом) существует вполне определенная граница, но если эту систему рассматривать с функциональной точки зрения, то разделение становится не четким. Например, резец в руке скульптора можно считать либо частью сложного биофизического механизма, придающего форму куску мрамора, либо частью материала, которым пытается управлять нервная система.

Система подкрепления и ее виды

Розенблатт пытался классифицировать различные алгоритмы обучения, называя их системами подкрепления.[1] Он даёт следующее определение:

Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Кроме классического метода обучения перцептрона - метода коррекции ошибки, которого можно отнести к обучению с учителем, Розенблатт также ввёл понятие об обучении без учителя, предложив несколько способов обучения:

  • Альфа-системой подкрепления называется система подкрепления, при которой веса всех активных связей cij, которые ведут к элементу uj, изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.
  • Гамма-системой подкрепления называется такое правило изменения весовых коэффициентов некоторого элемента, при котором веса всех активных связей сначала изменяются на равную величину, а затем из их всех весов связей вычитается другая величина, равная полному изменению весов всех активных связей, деленному на число всех связей. Эта система обладает свойством консервативности относительно весов, так как у нее полная сумма весов всех связей не может ни возрастать, ни убывать.

Примечания

  1. Розенблатт, Ф., с. 85—88.

Литература

См. также


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать курсовую

Полезное


Смотреть что такое "Обучение с поощрением" в других словарях:

  • Беллерс — Беллерс, Джон Джон Беллерс Дата рождения: 1654 год(1654) Место рождения: Англия Дата смерти: 8 февраля 1725(1725 02 08) Гражданство …   Википедия

  • Беллерс, Джон — Джон Беллерс Дата рождения: 1654 год(1654) Место рождения: Англия Дата смерти: 8 февраля 1725(1725 02 08) Страна …   Википедия

  • Александр II (часть 1, I-VI) — — Император Всероссийский, старший сын Великого Князя — впоследствии Императора — Николая Павловича и Великой Княгини Александры Феодоровны; родился в Москве 17 го апреля 1818 г.; объявлен Наследником престола 12 го декабря 1825 …   Большая биографическая энциклопедия

  • Дрессировка ( животных) — Дрессировка (от франц. dresser ‒ выправлять, обучать, дрессировать), методы воздействия на животное с целью выработать и закрепить у него определённые (нужные человеку) действия и навыки в результате образования условных рефлексов. Теоретическая… …   Большая советская энциклопедия

  • Дрессировка — I Дрессировка (от франц. dresser выправлять, обучать, дрессировать)         методы воздействия на животное с целью выработать и закрепить у него определённые (нужные человеку) действия и навыки в результате образования условных рефлексов.… …   Большая советская энциклопедия

  • ПСИХОЛОГИЯ — наука о психической реальности, о том, как индивид ощущает, воспринимает, чувствует, мыслит и действует. Для более глубокого понимания человеческой психики психологи исследуют психическую регуляцию поведения животных и функционирование таких… …   Энциклопедия Кольера

  • Международная академия бизнеса (Алма-Ата) — Международная академия бизнеса (МАБ) …   Википедия

  • НАУЧЕНИЕ — изменение поведения, происходящее в результате приобретения опыта. В том частном случае, когда приобретение опыта знаний, навыков, умений определяется познавательными мотивами и целями, говорят об учении (и соответственно об обучении как процессе …   Энциклопедия Кольера

  • Экваториальная Гвинея — (Equatorial Guinea)         Республика Экваториальная Гвинея (República de Guinea Ecuatorial), государство в центральной части Африки, на побережье Гвинейского залива В состав Э. Г. входит континентальная часть Рио Муни и острова Масиас Нгема… …   Большая советская энциклопедия

  • Классная динамика (classroom dynamics) — К. д. охватывает широкую область групповых процессов и взаимодействий «учитель ученик», влияющих на характер и степень научения учеников. Специфические компоненты динамики включают такие факторы, как способы коммуникации учеников друг с другом,… …   Психологическая энциклопедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»