- Переобучение
-
В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена.
Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники.
Эта отметка установлена 14 мая 2011.Эта статья или раздел нуждается в переработке. Пожалуйста, улучшите статью в соответствии с правилами написания статей.В машинном обучении, переобучение (или оверфиттинг, переподгонка) — это явление, когда при построении алгоритма обучения получается такой алгоритм, который слишком хорошо работает на примерах, участвовавших в обучении (т.е. на примерах из обучающей выборки), но достаточно плохо работает на примерах, не участвовавших в обучении (т.е. на примерах из тестовой выборки). Это связано с тем, что при построении такого алгоритма (или как принято говорить в машинном обучении 'в процессе обучения') в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности. Даже тогда, когда оборудованная модель не имеет чрезмерное количество параметров, то можно ожидать, что отношения оборудованная появится выполнять менее на новый набор данных, чем на набор данных, используемый для установки. [1] В частности, значение коэффициента детерминации будет сокращаться по сравнению с исходными данными обучения. Способы борьбы с переобучением зависят от метода построения алгоритма классификации. Например, если строится дерево принятия решений, то можно обрезать некоторые его ветки в процессе построения.
См. также
Методы предотвращения переобучения
Для того чтобы избежать чрезмерной подгонки, необходимо использовать дополнительные методы, например:
- Перекрёстная проверка
- Регуляризация (математика)
- ранней остановки
- Вербализация_нейронных_сетей
- Априорная_вероятность
- модель сравнения Bayesian_model_comparison
которые могут указать, когда дальнейшее обучение не больше не ведет к улучшению оценок параметров. В основе этих методов лежит либо
- явное наказание за слишком сложные модели, или
- проверка способности модели по оценке своей деятельности на множестве данных не используется для обучения, которая считается приближенным невидимых Данные о том, с чем модели придется столкнуться.
Категории:- Машинное обучение
- Математическая статистика
Wikimedia Foundation. 2010.