k-means

k-means (метод k-средних) — наиболее популярный метод кластеризации. Был изобретён в 1950-х годах математиком Гуго Штейнгаузом^[1] и почти одновременно Стюартом Ллойдом^[2]. Особую популярность приобрёл после работы Маккуина^[3].

Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров:

$V = \sum_{i=1}^{k} \sum_{x_j \in S_i} (x_j - \mu_i)^2$

где $k$ — число кластеров, $S_i$ — полученные кластеры, $i = 1, 2, \dots, k$ и $\mu_i$ — центры масс векторов $x_j \in S_i$ .

По аналогии с методом главных компонент центры кластеров называются также главными точками, а сам метод называется методом главных точек^[4] и включается в общую теорию главных объектов, обеспечивающих наилучшую аппроксимацию данных^[5].

Алгоритм

Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k.

Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике.

Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множества конечно, а на каждом шаге суммарное квадратичное уклонение V уменьшается, поэтому зацикливание невозможно.

Как показали Дэвид Артур и Сергей Васильвицкий на некоторых классах множеств сложность алгоритма по времени, нужному для сходимости, равна $2^{\Omega(\sqrt{n})}$ .^[6]

Демонстрация алгоритма

Действие алгоритма в двумерном случае. Начальные точки выбраны случайно.

Исходные точки и случайно выбранные начальные точки.	Точки, отнесённые к начальным центрам. Разбиение на плоскости — диаграмма Вороного относительно начальных центров.	Вычисление новых центров кластеров (Ищется центр масс).	Предыдущие шаги повторяются, пока алгоритм не сойдётся.

Проблемы k-means

Типичный пример сходимости метода k средних к локальному минимуму. В этом примере результат "кластеризации" методом k средних противоречит очевидной кластерной структуре множества данных. Маленькими кружками обозначены точки даных, четырехлучевые звезды - центроиды. Принадлежащие им точки данных окрашены в тот же цвет. Иллюстрация подготовлена с помощью апплета Миркеса^[7].

Не гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов.
Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
Число кластеров надо знать заранее.

Расширения и вариации

Широко известна и используется нейросетевая реализация K-means — сети векторного квантования сигналов (одна из версий нейронных сетей Кохонена).

Существует расширение k-means++, которое направлено на оптимальный выбор начальных значений центров кластеров.

Ссылки

↑ Steinhaus H. (1956). Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. III vol IV: 801—804.
↑ Lloyd S. (1957). Least square quantization in PCM’s. Bell Telephone Laboratories Paper.
↑ MacQueen J. (1967). Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symp. on Math. Statistics and Probability, pages 281—297.
↑ Flury B. (1990). Principal points. Biometrika, 77, 33-41.
↑ Gorban A.N., Zinovyev A.Y. (2009). Principal Graphs and Manifolds, Ch. 2 in: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Emilio Soria Olivas et al. (eds), IGI Global, Hershey, PA, USA, pp. 28-59.
↑ David Arthur & Sergei Vassilvitskii (2006). "How Slow is the k-means Method?". Proceedings of the 2006 Symposium on Computational Geometry (SoCG).
↑ E.M. Mirkes, K-means and K-medoids applet. University of Leicester, 2011.

Демонстрация и визуализация

K-means and K-medoids (апплет, демонстрирующий работу алгоритма и позволяющий исследовать и сравнивать два метода), Е. Миркес и University of Leicester
Интерактивный апплет, демонстрирующий работу алгоритма

Категории:

Машинное обучение
Кластерный анализ

Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное

Смотреть что такое "k-means" в других словарях:

means — W2S2 [mi:nz] n plural means ▬▬▬▬▬▬▬ 1¦(method)¦ 2¦(money)¦ 3 by all means! 4 by no means/not by any means 5 by means of something 6 a means to an end 7 the means of production ▬▬▬▬▬▬▬ 1.) … Dictionary of contemporary English
means — [ minz ] (plural means) noun *** 1. ) count a method for doing or achieving something: WAY: Information is not easily obtained by any other means. an effective means for finding qualified job applicants means of: What means of transportation is… … Usage of the words and phrases in modern English
means — [miːnz] noun [plural] the money and resources that a person or organization has available: means to do something • Large corporations have the means to pay large fines without suffering hardship. • The group has limited means. • young families… … Financial and business terms
Means (band) — Means Also known as Means 2 An End Origin Regina, Saskatchewan, Canada Genres Christian Hardcore Post hardcore Metalcore Melodic Hardcore Pop Punk (early … Wikipedia
Means (surname) — Means is a surname, and may refer to Carey Means, an American voice actor David Means, an American writer Gardiner Means (1896–1988), an American economist Gaston Means (1879–1938), an American private detective, bootlegger, and con artist Jimmy… … Wikipedia
means — 1. When the meaning is ‘financial resources’, means is treated as plural: Their means are somewhat limited. When the meaning is ‘a way or method’ it can operate as a singular noun (when preceded by a determiner such as a, any, or every) or as a… … Modern English usage
Means Racing — Owner(s) Jimmy Means Base Forest City, North Carolina Series Nationwide Series Race drivers 52. Bobby Santos III/Tim Schendel/Daryl Harr/Kevin Lepage Sponsors … Wikipedia
Means Street Historic District — U.S. National Register of Historic Places U.S. Historic district … Wikipedia
means-test — ˈmeans test noun [countable] an official check in order to find out if someone is poor enough to receive welfare benefit S (= payments from the state when you are ill, without work etc): • He has made proposals for means tests for Social Security … Financial and business terms
means-testing — means test ˈmeans test noun [countable] an official check in order to find out if someone is poor enough to receive welfare benefit S (= payments from the state when you are ill, without work etc): • He has made proposals for means tests for… … Financial and business terms
means — [mēnz] pl.n. 〚/span> MEAN3, n.〛 1. [with sing. or pl. v.] that by which something is done or obtained; agency [the fastest means of travel] 2. resources or available wealth; often, specif., great wealth; riches [a person of … Universalium

Словари и энциклопедии на Академике

k-means

Содержание

Алгоритм

Демонстрация алгоритма

Проблемы k-means

Расширения и вариации

Ссылки

Демонстрация и визуализация

Полезное

Смотреть что такое "k-means" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

k-means

Содержание

Алгоритм

Демонстрация алгоритма

Проблемы k-means

Расширения и вариации

Ссылки

Демонстрация и визуализация

Полезное

Смотреть что такое "k-means" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: