Random forest

Толкование

Random forest: Random forest (англ. случайный лес) — алгоритм машинного обучения, предложенный Лео Брейманом^[1]^[2] и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга Бреймана, и метод случайных подпространств, предложенный Tin Kam Ho. Алгоритм применяется для задач классификации, регрессии и кластеризации.

Содержание

1 Алгоритм обучения классификатора

2 Достоинства

3 Недостатки

4 Реализации

5 Примечания

6 Литература

Алгоритм обучения классификатора

Пусть обучающая выборка состоит из N примеров, размерность пространства признаков равна M, и задан параметр m (в задачах классификации обычно $m \approx \sqrt{M}$ ).

Все деревья комитета строятся независимо друг от друга по следующей процедуре:

Сгенерируем случайную подвыборку с повторением размером N из обучающей выборки. (Таким образом, некоторые примеры попадут в неё несколько раз, а примерно N/3 примеров не войдут в неё вообще)

Построим решающее дерево, классифицирующее примеры данной подвыборки, причём в ходе создания очередного узла дерева будем выбирать признак, на основе которого производится разбиение, не из всех M признаков, а лишь из m случайно выбранных. Выбор наилучшего из этих m признаков может осуществляться различными способами. В оригинальном коде Бреймана используется критерий Гини, применяющийся также в алгоритме построения решающих деревьев CART. В некоторых реализациях алгоритма вместо него используется критерий прироста информации.^[3]

Дерево строится до полного исчерпания подвыборки и не подвергается процедуре прунинга (в отличие от решающих деревьев, построенных по таким алгоритмам, как CART или C4.5).

Классификация объектов проводится путём голосования: каждое дерево комитета относит классифицируемый объект к одному из классов, и побеждает класс, за который проголосовало наибольшее число деревьев.

Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке. В случае её отсутствия, минимизируется оценка ошибки out-of-bag: доля примеров обучающей выборки, неправильно классифицируемых комитетом, если не учитывать голоса деревьев на примерах, входящих в их собственную обучающую подвыборку.

Достоинства

Высокое качество получаемых моделей, сравнимое с SVM и бустингом, и лучшее, чем у нейронных сетей.^[4]

Способность эффективно обрабатывать данные с большим числом признаков и классов.

Нечувствительность к масштабированию (и вообще к любым монотонным преобразованиям) значений признаков.

Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки. Существуют методы построения деревьев по данным с пропущенными значениями признаков.

Существует методы оценивания значимости отдельных признаков в модели.

Внутренняя оценка способности модели к обобщению (тест out-of-bag).

Высокая параллелизуемость и масштабируемость.

Недостатки

Алгоритм склонен к переобучению на некоторых задачах, особенно на зашумленных задачах.^[5]

Большой размер получающихся моделей. Требуется $O(NK)$ памяти для хранения модели, где $K$ — число деревьев.

Реализации

Авторская реализация Бреймана и Катлер на языке Fortran 77

Пакет randomForest для R — портированная версия оригинального авторского кода в R

Пакет party для R, содержит модификацию алгоритма

Существуют реализации алгоритма в системах Weka и RapidMiner

Реализация модификации алгоритма на alglib.sources.ru

FastRandomForest

Планируется реализовать алгоритм в Apache Mahout в ходе Summer of Code 2009.

Примечания

↑ Breiman, Leo (2001). «Random Forests». Machine Learning 45 (1): 5–32. DOI:10.1023/A:1010933404324. (англ.) (Проверено 7 июня 2009)

↑ Описание алгоритма на сайте Лео Бреймана (англ.) (Проверено 7 июня 2009)

↑ Описание процедуры построения деревьев, применяющейся в Apache Mahout (англ.) (Проверено 7 июня 2009)

↑ Caruana R., Niculescu-Mizil A., An Empirical Comparison of Supervised Learning Algorithms Using Different Performance Metrics (англ.) (Проверено 7 июня 2009)

↑ Segal, Mark R. (2004), «Machine Learning Benchmarks and Random Forest Regression», Center for Bioinformatics & Molecular Biostatistics, <http://repositories.cdlib.org/cbmb/bench_rf_regn/> (англ.) (Проверено 7 июня 2009)

Литература

Hastie, T., Tibshirani R., Friedman J. Chapter 15. Random Forests // The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p. — ISBN 978-0-387-84857-0.

Категория:
Деревья принятия решений

Игры ⚽ Нужна курсовая?

Полезное

Смотреть что такое "Random forest" в других словарях:

Random forest — In machine learning, a random forest is a classifier that consists of many decision trees and outputs the class that is the mode of the classes output by individual trees. The algorithm for inducing a random forest was developed by Leo Breiman… … Wikipedia
Random Forest — Ein Random Forest ist ein Klassifikationsverfahren, welches aus mehreren verschiedenen, unkorrelierten Entscheidungsbäumen besteht. Alle Entscheidungsbäume sind unter einer bestimmten Art von Randomisierung während des Lernprozesses gewachsen.… … Deutsch Wikipedia
Random Forest — … Википедия
Random naive Bayes — extends the Naive Bayes classifier by adopting the random forest principles: random input selection (bagging, i.e. bootstrap aggregating) and random feature selection ( [Breiman, 2001] ). Naive Bayes classifier Naive Bayes is a probabilistic… … Wikipedia
Random multinomial logit — In statistics and machine learning, random multinomial logit (RMNL) is a technique for (multi class) statistical classification using repeated multinomial logit analyses via Leo Breiman s random forests. Rationale for the new methodSeveral… … Wikipedia
Forest inventory — is the systematic collection of data and forest information for assessment or analysis. It is also commonly known as timber cruising. It is important for owners to cruise the timber to get an estimate of the value and possible uses of the timber … Wikipedia
Random encounter — A random encounter is a feature commonly used in hack and slash role playing games and computer and video games whereby encounters with non player character (NPC) enemies or other dangers occur sporadically and at random. In general, random… … Wikipedia
Forest City Stockade — The Forest City Stockade was built to defend the area settlers from Indian attacks. It became famous during the Dakota War of 1862. The following account is taken from Terry Tales 2, a book by Terry R. Shaw: It had been Jesse Branham, Sr.’s son… … Wikipedia
Allegheny National Forest — Infobox protected area | name = Allegheny National Forest iucn category = VI caption = locator x = 230 locator y = 64 location = Warren, McKean, Forest, and Elk counties, Pennsylvania, USA nearest city = Warren, PA lat degrees = 41 lat minutes =… … Wikipedia
Lake Forest College — Infobox University name = Lake Forest College native name = latin name = motto = Natura et Scientia Amore established = 1857 type = Liberal Arts School endowment = $76,700,000 staff = faculty = 117 president = Stephen D. Schutt provost = Janet… … Wikipedia

Словари и энциклопедии на Академике

Random forest

Содержание

Алгоритм обучения классификатора

Достоинства

Недостатки

Реализации

Примечания

Литература

Полезное

Смотреть что такое "Random forest" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Random forest

Содержание

Алгоритм обучения классификатора

Достоинства

Недостатки

Реализации

Примечания

Литература

Полезное

Смотреть что такое "Random forest" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: