Обучение с подкреплением

Толкование Перевод

Обучение с подкреплением: Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или ее модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае ИНС, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.

Содержание

1 Среда и агент

2 Система подкрепления и ее виды

3 См. также

4 Примечания

5 Литература

Среда и агент

Агент воздействует на среду, а среда воздействует на агента. О такой системе говорят, что она имеет обратную связь. Такую систему нужно рассматривать как единое целое, и поэтому линия раздела между средой и агентом достаточно условна. Конечно, с анатомической или физической точек зрения между средой и агентом (организмом) существует вполне определенная граница, но если эту систему рассматривать с функциональной точки зрения, то разделение становится не четким. Например, резец в руке скульптора можно считать либо частью сложного биофизического механизма, придающего форму куску мрамора, либо частью материала, которым пытается управлять нервная система.

Система подкрепления и ее виды

Розенблатт пытался классифицировать различные алгоритмы обучения, называя их системами подкрепления.^[1] Он даёт следующее определение:

Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Кроме классического метода обучения перцептрона — метода коррекции ошибки, которого можно отнести к обучению с учителем, Розенблатт также ввёл понятие об обучении без учителя, предложив несколько способов обучения:

Альфа-системой подкрепления называется система подкрепления, при которой веса всех активных связей $c_{ij}$ , которые ведут к элементу $u_j$ , изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.

Гамма-системой подкрепления называется такое правило изменения весовых коэффициентов некоторого элемента, при котором веса всех активных связей сначала изменяются на равную величину, а затем из их всех весов связей вычитается другая величина, равная полному изменению весов всех активных связей, деленному на число всех связей. Эта система обладает свойством консервативности относительно весов, так как у нее полная сумма весов всех связей не может ни возрастать, ни убывать.

См. также

Q-learning

Обучение с учителем

Обучение без учителя

Обратная связь

Перцептрон

Примечания

↑ Розенблатт, Ф., с. 85—88.

Литература

Эшби У. Р. Конструкция мозга. Происхождение адаптивного поведения = Design for a Brain. The origin of adptive behavior. — М.: ИЛ, 1962. — 397 с.

Розенблатт, Ф. Принципы нейродинамики: Перцептроны и теория механизмов мозга = Principles of Neurodynamic: Perceptrons and the Theory of Brain Mechanisms. — М.: Мир, 1965. — 480 с.

Категории:
Машинное обучение
Виды кибернетических экспериментов

Игры ⚽ Поможем сделать НИР

Полезное

Смотреть что такое "Обучение с подкреплением" в других словарях:

Обучение с поощрением — Обучение с подкреплением (англ. reinforcement learning) способ постановки эксперимента, в ходе которого испытуемая система (агент) обучается, при поведение и взаимодействии в некоторой среде. Откликом среды (а не специальной системы управления… … Википедия
Обучение машин — Машинное обучение (англ. Machine Learning) обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на… … Википедия
Обучение по прецедентам — Машинное обучение (англ. Machine Learning) обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на… … Википедия
ОБУЧЕНИЕ — ОБУЧЕНИЕ. Процесс передачи и усвоения знаний, навыков, умений и способов познавательной деятельности человека; двусторонний процесс, в котором участвуют как обучающий (преподавание), так и обучаемый (учение) в их совместной деятельности. В… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)
Обучение с учителем — (англ. Supervised learning) один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул реакция». С точки зрения кибернетики, является одним из видов кибернетического… … Википедия
Машинное обучение — (англ. Machine Learning) обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении… … Википедия
ПРОГРАММИРОВАННОЕ ОБУЧЕНИЕ — (от греч. πρόγραμμα – публичное объявление) – различные психолого педагогич. концепции, для которых общим является: 1) трактовка процесса усвоения знаний как процесса выработки определ. навыков (практических или умственных) на основе… … Философская энциклопедия
Q-обучение — Q learning (Q обучение) метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что… … Википедия
Искусственная нейронная сеть — У этого термина существуют и другие значения, см. Нейронная сеть (значения). Схема простой нейросети. Зелёным цветом обозначены входные нейроны, голубым скрытые нейроны, жёлтым выходной нейрон … Википедия
Искусственная нейросеть — Запрос «Нейронная сеть» перенаправляется сюда. Cм. также другие значения. Схема простой нейросети. Зелёным обозначены входные элементы, жёлтым выходной элемент Искусственные нейронные сети (ИНС) математические модели, а также их программные или… … Википедия

Словари и энциклопедии на Академике

Обучение с подкреплением

Содержание

Среда и агент

Система подкрепления и ее виды

См. также

Примечания

Литература

Полезное

Смотреть что такое "Обучение с подкреплением" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Обучение с подкреплением

Содержание

Среда и агент

Система подкрепления и ее виды

См. также

Примечания

Литература

Полезное

Смотреть что такое "Обучение с подкреплением" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: