Logo ru.artbmxmagazine.com

Хранилища данных и информационные системы в Microsoft SQL Server 2008

Оглавление:

Anonim

Информационные системы делятся на две категории (Casares, 2003):

  • Операционные системы: это те, которые имеют целью отразить состояние и работу компании, регистрирующей ежедневные транзакции или операции, поэтому они известны как системы оперативной обработки транзакций (OLTP). Системы для поддержки решений: Это те, чьи цели состоят в том, чтобы измерять и контролировать развитие важных бизнес-переменных, пытаясь определить, спроектировать и предсказать тенденции на основе накопленных данных.

С начала компьютерного века организации использовали данные из своих операционных систем для удовлетворения своих информационных потребностей. Некоторые обеспечивают прямой доступ к информации, содержащейся в операционных приложениях. Другие извлекли данные из своих операционных баз данных, чтобы объединить их различными неструктурированными способами, пытаясь обслуживать пользователей с их информационными потребностями (Casares, 2003).

Билл Инмон был одним из первых авторов, который писал на тему хранилищ данных, он определяет хранилище данных с точки зрения характеристик хранилища данных (Inmon, 2007):

Ориентированный на тему: данные в базе данных организованы так, что все элементы данных, относящиеся к одному и тому же событию или реальному объекту, связаны друг с другом.

Изменения во времени: изменения в данных со временем записываются таким образом, чтобы отчеты, которые могут быть созданы, отражали эти изменения.

Энергонезависимая: информация не изменяется и не удаляется, после сохранения данных она становится доступной только для чтения и сохраняется для последующего использования.

Интегрированный: база данных содержит данные всех операционных систем организации, и указанные данные должны быть согласованными.

Рынки данных - это подмножества данных из хранилища данных для конкретных областей. С точки зрения дизайна все, что применимо к хранилищу данных, применяется на рынке данных (Inmon, 2007).

Пространственная модель является наиболее используемой в системах хранилищ данных, она отличается от реляционной модели, используемой в системах OLTP. Эта модель основана на измерениях, которые представляют категории информации, атрибуты, которые представляют один уровень в измерении, могут быть иерархии атрибутов, которые выражают отношения между различными атрибутами, и, наконец, таблицы фактов, которые содержат данные, представляющие интерес, которые имеют уровень детализации. Гранулярность - это самый низкий уровень информации, которая будет храниться в таблице фактов. Первым шагом в разработке таблицы фактов является определение степени детализации.

Габаритные проектные схемы:

  • Схема «звезда»: таблица фактов в центре, соединенная с набором таблиц измерений Схема «Снежинка»: уточнение предыдущего, в котором некоторые измерения нормализованы в меньшие таблицы. Совокупность фактов: несколько таблиц фактов имеют общие таблицы измерений. они визуализируются как совокупность фактов.

Административное управление признает, что одним из способов повышения его эффективности является наилучшее использование информационных ресурсов, которые уже существуют в организации. В настоящее время хранилище данных находится в центре внимания крупных учреждений, поскольку оно предоставляет организациям среду для более эффективного использования информации, которой управляют различные операционные приложения (Casares, 2003).

Архитектура хранилища данных состоит из трех уровней (Casares, 2003):

  • Исходные базы данных (производственные и исторические). База данных со сводными данными, извлеченными из производственных баз (хранилище данных). Пользовательские интерфейсы, которые извлекают информацию для принятия решений. Классическими являются: запросы и отчеты, многомерный анализ и Data Mining.

Исходная база данных: состоит из производственных баз данных, а также исторических баз данных. Эти базы данных могут быть реализованы в различных типах систем: BD-Relational, BD-geographic, BD-тексты, файлы и т. Д. Общей особенностью является то, что они хранят элементы атомарных данных, которые относятся к производственным данным, но могут быть слишком хороши, чтобы служить основой для принятия решений. Кроме того, понятие качества данных в этих базах данных основано на согласованности этих записей, независимо от их актуальности для проблемы.

Важным компонентом в хранилище данных является словарь данных (метаданные), в котором описываются хранимые данные для облегчения доступа к ним с помощью инструментов эксплуатации хранилища данных. Словарь данных устанавливает соответствия между хранимыми данными и концепциями, которые они представляют, чтобы облегчить извлечение информации конечным пользователем.

Пользовательские интерфейсы, которые извлекают информацию для принятия решений:

  • Интерфейсы для сложных запросов и отчетов. Они позволяют пользователю строить графики и отчеты на основе информации, содержащейся в хранилище данных и описанной в Словаре данных. Некоторые типичные функции этих инструментов: динамическая группировка и разгруппировка данных в отчетах, изменения в порядке полей отчета, визуализация результатов консультаций в графической форме (столбики, торт, точки и т. Д.). Эти инструменты генерируют выражения на языке запросов, которые извлекают запрошенные данные (обычно SQL), подключаются к хранилищу данных, извлекают результат и форматируют его в соответствии с заданной спецификацией.
  • Продукты для анализа данных (OLAP): они позволяют представлять проблемные данные в терминах измерений. Например, если речь идет о продажах продуктов в разных зонах, одно измерение проблемы - это зоны, другое - продукты, а другое - время. Таким образом, запросы на анализ данных из одного измерения на основе другого выполняются немедленно.
  • Инструменты интеллектуального анализа данных: они позволяют исследовать хранилище данных в поисках неизвестных или неожиданных связей между данными.

Основными мотивами для создания хранилища данных являются следующие (Casares, 2003):

  • Иметь информационные системы для поддержки принятия решения. Иметь базы данных, которые позволяют извлекать знания из исторической информации, хранящейся в организации. Разработать базу данных, которая позволяет выполнять неизвестные запросы.

Microsoft SQL Server 2008 предоставляет платформу для создания и обслуживания хранилищ данных, ниже приведены некоторые из его новых функций и рекомендаций, связанных с ними:

- Сжатие данных

Сжатие данных уменьшает пространство, необходимое для хранения таблиц и индексов, что позволяет более эффективно использовать емкость хранилища.

Существует возможность сжатия на статью или на страницу. Сжатие по статье хранит все поля в формате переменной ширины, сжатие по странице делает то же самое, но выполняется между статьями на одной странице. Словарь уровня страницы используется для хранения общих значений, плюс префиксы общих значений столбцов хранятся на странице только один раз. Обе формы сжатия могут применяться к таблицам и индексам.

- прозрачное шифрование данных

Прозрачное шифрование данных позволяет надежно хранить данные путем шифрования файлов базы данных. SQL Server выполняет шифрование и дешифрование напрямую, делая процесс прозрачным для подключенного приложения. Если сжатие данных и шифрование используются одновременно, операции должны выполняться в этом порядке.

- губернатор ресурсов

Регулятор ресурсов позволяет администраторам контролировать и назначать такие ресурсы, как процессоры и память, приложениям с самым высоким приоритетом.

- Горячее добавление процессоров и памяти

64-разрядная версия SQL Server Enterprise обеспечивает горячее добавление процессоров и памяти без необходимости выключать сервер или ограничивать существующие подключения.

- оператор MERGE

Новый оператор MERGE упрощает процесс загрузки хранилища данных из его источника. Этот новый оператор различает новые и обновленные статьи в исходной базе данных и выполняет соответствующие действия в хранилище данных.

- Новые типы пространственных данных

Новые типы пространственных данных GEOGRAPHY и GEOMETRY позволяют хранить пространственные данные непосредственно в SQL Server 2008. GEOGRAPHY позволяет представлять геодезические данные в трех измерениях, которые используются приложениями GPS, а GEOMETRY позволяет представлять точки в двухмерных плоскостях. Существует также интеграция с Virtual Earth, которая позволяет графически представлять физические местоположения.

Все эти новые функции делают Microsoft SQL Server 2008 передовым инструментом для создания и обслуживания хранилищ данных.

Библиография

CASARES, C. (2003) Хранилище данных.

ИНМОН, Б. (2007). Инмон Консалтинг Сервис.

MICROSOFT (2008) Лучшие практики для хранилищ данных с SQL Server 2008.

MICROSOFT (2008) Что нового в SQL Server 2008

Хранилища данных и информационные системы в Microsoft SQL Server 2008