Добыча данных

Добыча данных

Интеллектуальный анализ данных (англ. Data Mining) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Подразделяется на задачи классификации, моделирования и прогнозирования и другие. Термин «Data Mining» введен Григорием Пятецким-Шапиро в 1989 году.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД).

ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Содержание

Задачи, решаемые ИАД

  1. Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
  4. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis) — вместе с пивом часто покупают орешки.
  5. Прогнозирование
  6. Анализ отклонений — Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
  7. Визуализация

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.

Алгоритмы обучения

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание здесь уделяется аппроксимации данных.

Этапы обучения

Можно выделить типичный ряд этапов решения задач методами ИАД:

  1. Формирование гипотезы;
  2. Сбор данных;
  3. Подготовка данных (фильтрация);
  4. Выбор модели;
  5. Подбор параметров модели и алгоритма обучения;
  6. Обучение модели (автоматический поиск остальных параметров модели);
  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

См. также

Литература

  • Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.
  • Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Добыча данных" в других словарях:

  • добыча данных — Технология анализа хранилищ данных, базирующаяся на методах и инструментах поддержки принятия решений (например, нахождение трендов и коммерчески полезных зависимостей). [аутсорсингаhttp://www.outsourcing.ru/content/glossary/A/page 1.asp]… …   Справочник технического переводчика

  • Добыча нефти — (Extraction of oil) Понятие нефтедобыча, методы и технологии добычи нефти Добыча нефти, описание методов и технологий добычи нефти Содержание Термин «» в современном мировом лексиконе стал синонимом общепринятого словосочетания «черное золото». И …   Энциклопедия инвестора

  • Интеллектуальный анализ данных — (англ. Data Mining) выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Подразделяется на задачи классификации, моделирования и прогнозирования и другие. Термин «Data Mining» введен… …   Википедия

  • Data mining — Не следует путать с Извлечение информации. Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных)  собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее… …   Википедия

  • Машинное обучение — (англ. Machine Learning)  обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении… …   Википедия

  • Обучение машин — Машинное обучение (англ. Machine Learning) обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на… …   Википедия

  • Обучение по прецедентам — Машинное обучение (англ. Machine Learning) обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на… …   Википедия

  • Управление данными — (англ. data management) процесс, связанный с накоплением, организацией, запоминанием, обновлением, хранением данных и поиском информации. К управлению данными относятся Анализ данных Моделирование данных Управление базами данных Работа с… …   Википедия

  • Информационная технология — Информационные технологии (ИТ, от англ. information technology, IT) широкий класс дисциплин и областей деятельности, относящихся к технологиям управления и обработки данных, в том числе, с применением вычислительной техники. В последнее время под …   Википедия

  • Информационные Технологии — (ИТ, от англ. information technology, IT) широкий класс дисциплин и областей деятельности, относящихся к технологиям управления и обработки данных, в том числе, с применением вычислительной техники. В последнее время под информационными… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»