Хранилище Данных

Хранилище Данных

Хранилище данных (англ. Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.

Содержание

Принципы организации хранилища

  1. Проблемно-предметная ориентация: данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  2. Интегрированность: объединяет данные т.о., чтобы они удовлетворяли всем требованиям всего предприятия, а не единственной функции бизнеса.
  3. Некорректируемость: данные в хранилище данных не создаются, т.е. поступают из внешних источников, не корректируются, не удаляются.
  4. Зависимость от времени: данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Дизайн хранилищ данных

Существуют два архитектурных направления - нормализованные хранилища данных и размерностные хранилища.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы - витрины данных. Нормализованые хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ - высокая избыточность информации, проблемы с интегрированностью данных из нескольких таблиц одновременно.

Размерностные хранилища используют схему "звезда" или "снежинка". При этом в центре звезды находятся данные (таблица фактов) а размерности образуют лучи звезды. Различные таблицы фактов совместно используют таблицы размерностей, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример - факты продаж и поставок товара). Таблицы данных и соответствующие размерности образуют архитектуру "ШИНА". Размерности часто создаются в третьей нормальной форме (медленно изменяющиеся размерности), для протоколирования изменения в размеростях. Основым достоинством размерностных хранилищ является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным размерностям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных а также управление и изменение размерностей данных.

Процессы работы с данными

Источниками данных могут быть:

  1. Традиционные системы регистрации операций (БД)
  2. Отдельные документы
  3. Наборы данных

Источники данных классифицируются:

  1. Территориальное и административное размещение.
  2. Степень достоверности.
  3. Частота обновляемости.
  4. Система хранения и управления данными.

Операции с данными:

  1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
  2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.
  3. Загрузка - помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.
  4. Анализ - OLAP, Data Mining, Reporting итд.
  5. Представление результатов анализа.

Вся эта информация используется в словаре метаданных. В словарь метаданных автоматически включаются словари источников данных. Здесь же форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени.

Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандартизировать источники данных.

Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации.

Специальные компоненты словарей должны обеспечивать своевременное извлечение из словарей и обеспечить преобразование к единому формату на основе словаря метаданных.

Логическая структура данных хранилища данных отличается от структуры данных источников данных.

Для разработки эффективного процесса преобразования необходима хорошо проработанная модель корпоративных данных и модель технологии принятия решений.

Данные для пользователя удобно представлять в многоразмерных БД, где в качестве размерности могут выступать время, цена или географический регион.

Кроме извлечения данных из БД, принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя.

С точки зрения пользователя в процессе извлечения знаний из БД должны решаться след. преобразования: данные -> информация -> знания -> полученные решения.



Ссылки

См. также


Wikimedia Foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Полезное


Смотреть что такое "Хранилище Данных" в других словарях:

  • Хранилище данных — (англ. Data Warehouse) предметно ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес анализа с целью поддержки принятия решений в организации. Строится на базе систем… …   Википедия

  • Хранилище данных — предметно ориентированная информационная корпоративная база данных, предназначенная для подготовки отчетов, анализа бизнес процессов и поддержки принятия решений. Хранилище данных опирается на большое число баз данных и представляет пользователям …   Финансовый словарь

  • хранилище данных — Очень большая предметно ориентированная информационная корпоративная база данных, предназначенная для подготовки отчетов, анализа бизнес процессов и поддержки принятия решений. "Предметно ориентированные, интегрированные, стабильные,… …   Справочник технического переводчика

  • хранилище данных — 3.1.3 хранилище данных: Совокупность баз данных, доступных пользователям корпоративной информационно справочной системы. 3.2 В настоящем стандарте применены следующие сокращения: АРМ автоматизированное рабочее место; ИПР индивидуальная программа… …   Словарь-справочник терминов нормативно-технической документации

  • Хранилище данных (Datawarehouse) — Хранилище данных (англ. Data Warehouse) очень большая предметно ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес процессов с целью поддержки принятия… …   Википедия

  • Хранилище данных (значения) — Это слово имеет следующие значения: Content repository программная система, сочетающая в себе СУБД, систему контроля версий и поисковую машину; Data Warehouse предметно ориентированная корпоративная база данных.     …   Википедия

  • Хранилище данных (Content repository) — Хранилище данных (англ. Content Repository) программная подсистема, сочетающая в себе функции системы управления версиями, поисковой машины и СУБД. Примером хранилища данных может служить система Apache Jackrabbit. В функции хранилища данных… …   Википедия

  • хранилище (данных, объектов) — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN warehouse …   Справочник технического переводчика

  • хранилище данных в области экологически чистых энергетических технологий в штате Остин (США) — — [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN Austin clean energy incubator …   Справочник технического переводчика

  • Облачное хранилище данных — Облачное хранилище данных  модель онлайн хранилища, в котором данные хранятся на многочисленных распределённых в сети серверах, предоставляемых в пользование клиентам, в основном, третьей стороной. В противовес модели хранения данных на… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»