Data mining

Толкование Перевод

Data mining: Не следует путать с Извлечение информации.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году^[1]^[2]^[3].

Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания^[4]: просев информации, добыча данных, извлечение данных, а, также, интеллектуальный анализ данных^[5]^[6]^[7]. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (knowledge discovering in databases, KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Содержание

1 Введение

1.1 Исторический экскурс

1.2 Постановка задачи

1.2.1 Data mining и базы данных

1.2.2 Data mining и статистика

1.2.3 Data mining и искусственный интеллект

2 Задачи

3 Алгоритмы обучения

4 Этапы обучения

5 Подготовка данных

6 См. также

7 Примечания

8 Литература

9 Ссылки

Введение

Методы Data Mining (или, что то же самое, Knowledge Discovery In Data, сокращённо, KDD) лежат на стыке баз данных, статистики и искусственного интеллекта ^[8].

Исторический экскурс

Область Data Mining началась с семинара (англ. workshop), проведёного Григорием Пятецким-Шапиро в 1989 году.^[1]

Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining («добыча данных»^[9]) и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).

В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.

Постановка задачи

Первоначально задача ставится следующим образом:

имеется достаточно крупная база данных;

предполагается, что в базе данных находятся некие «скрытые знания».

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Что означает «скрытые знания»? Это должны быть обязательно знания:

ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);

практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;

доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

Data mining и базы данных

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.

Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.

Data mining и статистика

В этом разделе не хватает ссылок на источники информации.
Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена.
Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники.
Эта отметка установлена 11 апреля 2012.

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что часто исследователи для упрощения необоснованно используют параметрические тесты вместо непараметрических, и во вторых, результаты анализа трудно интерпретируемы^{[источник не указан 233 дня]} , что полностью расходится с целями и задачами Data mining^{[источник не указан 233 дня]}. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Data mining и искусственный интеллект

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

ассоциативные правила;

деревья решений;

кластеры;

математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».

Задачи

Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

поиск ассоциативных правил или паттернов (образцов);

группировка объектов, кластерный анализ;

построение регрессионной модели.

К предсказательным задачам относятся:

классификация объектов (для заранее заданных классов);

регрессионный анализ, анализ временны́х рядов.

Алгоритмы обучения

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

Этапы обучения

Выделяется типичный ряд этапов решения задач методами Data Mining:

Формирование гипотезы;

Сбор данных;

Подготовка данных (фильтрация);

Выбор модели;

Подбор параметров модели и алгоритма обучения;

Обучение модели (автоматический поиск остальных параметров модели);

Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Подготовка данных

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.

Очищенные данные сводятся к наборам признаков (или векторам, если алгоритм может работать только с векторами фиксированной размерности), один набор признаков на наблюдение. Набор признаков формируется в соответствии с гипотезами о том, какие признаки сырых данных имеют высокую прогнозную силу в расчете на требуемую вычислительную мощность для обработки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа.

Ряд алгоритмов умеют обрабатывать пропущенные данные, имеющие прогностическую силу (например, отсутствие у клиента покупок определенного вида). Скажем, при использовании метода ассоциативных правил (англ.)русск. обрабатываются не векторы признаков, а наборы переменной размерности.

Выбор целевой функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.

Наблюдения делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.

См. также

Анализ формальных понятий

Очистка данных

Прикладная статистика

Искусственная нейронная сеть

Нейронная сеть Кохонена

Метод опорных векторов

Netflix Prize

Вертикальный поиск

ДСМ-метод

Нечёткая логика

Вероятностная нейронная сеть Решетова

Примечания

↑ ¹ ² См. его интервью, данное им журналу «Компьютерра» в 2007 году.

↑ В. А. Дюк, А. В. Флегонтов, И. К. Фомина, Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях

↑ О. С. Коваленко, Обзор проблем и перспектив анализа данных

↑ А. А. Ежов, С. А. Шумский, Лекция: Извлечение знаний с помощью нейронных сетей

↑ Microsoft SQL Server 2008 R2: новый подход к управлению информацией

↑ Data Mining от Oracle: настоящее и будущее

↑ Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных

↑ Григорий Пятецкий-Шапиро, Data Mining и перегрузка информацией // Вступительная статья к книге: Анализ данных и процессов / А.А.Барсегян, М.С.Куприянов, И.И.Холод, М.Д.Тесс, С.И.Елизаров. З-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. 512 с. С.13.

↑ Обсуждаем термин: data mining / Школа технического перевода.

Литература

Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ СD). — СПб.: Изд. Питер, 2009. — 624 с.

Дюк В., Самойленко А. Data Mining: учебный курс (+CD). — СПб.: Изд. Питер, 2001. — 368 с.

Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Практические применения. — М.: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0108-8

Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.

Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7

Ian H. Witten, Eibe Frank and Mark A. Hall Data Mining: Practical Machine Learning Tools and Techniques. — 3rd Edition. — Morgan Kaufmann, 2011. — P. 664. — ISBN 9780123748560

Ссылки

Data Mining Software в каталоге ссылок Open Directory Project (dmoz).

Для улучшения этой статьи желательно^?:

Добавить иллюстрации.

Проставив сноски, внести более точные указания на источники.

Переработать оформление в соответствии с правилами написания статей.

Data Mining and Machine Learning

Open source Weka • GNU R • KNIME • Rapid Miner • Gretl • PSPP

Proprietary Deductor • Statistica • SPSS

Библиоинформация: SWD in the DNB: 4428654-5

Категории:
Математическая статистика
Хранилище данных
Инженерия знаний
Анализ данных

Игры ⚽ Поможем написать реферат

Полезное

Смотреть что такое "Data mining" в других словарях:

Data Mining — [engl.], Datenfilterung … Universal-Lexikon
data mining — data .mining n [U] the process of using a computer to examine large amounts of information about customers, in order to discover things about them that are not easily seen or noticed … Dictionary of contemporary English
data mining — data ,mining noun uncount COMPUTING the process of searching a DATABASE using special software in order to find out information, for example what type of people buy a product . It is often used by companies as a way of trying to increase sales … Usage of the words and phrases in modern English
Data mining — Not to be confused with analytics, information extraction, or data analysis. Data mining (the analysis step of the knowledge discovery in databases process,[1] or KDD), a relatively young and interdisciplinary field of computer science[2][3] is… … Wikipedia
Data Mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… … Deutsch Wikipedia
Data mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… … Deutsch Wikipedia
Data-Mining — Unter Data Mining (der englische Begriff bedeutet etwa „aus einem Datenberg etwas Wertvolles extrahieren“, eine adäquate deutsche Übersetzung existiert nicht.[1] Der Duden empfiehlt die Schreibweise „Data Mining“[2]) versteht man die… … Deutsch Wikipedia
Data Mining — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction … Wikipédia en Français
Data mining — Exploration de données L’exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l’extraction … Wikipédia en Français
Data Mining — von Professor Dr. Richard Lackes I. Begriff und Motivation Unter Data Mining versteht man die Anwendung von Methoden und Algorithmen zur möglichst automatischen Extraktion empirischer Zusammenhängen zwischen Planungsobjekten, deren Daten in einer … Lexikon der Economics

Словари и энциклопедии на Академике

Data mining

Содержание

Введение

Исторический экскурс

Постановка задачи

Data mining и базы данных

Data mining и статистика

Data mining и искусственный интеллект

Задачи

Алгоритмы обучения

Этапы обучения

Подготовка данных

См. также

Примечания

Литература

Ссылки

Полезное

Смотреть что такое "Data mining" в других словарях:

Поделиться ссылкой на выделенное

Data Mining and Machine Learning
Open source	Weka • GNU R • KNIME • Rapid Miner • Gretl • PSPP
Proprietary	Deductor • Statistica • SPSS

Словари и энциклопедии на Академике

Википедия

Data mining

Содержание

Введение

Исторический экскурс

Постановка задачи

Data mining и базы данных

Data mining и статистика

Data mining и искусственный интеллект

Задачи

Алгоритмы обучения

Этапы обучения

Подготовка данных

См. также

Примечания

Литература

Ссылки

Полезное

Смотреть что такое "Data mining" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: