Автор работы: Пользователь скрыл имя, 15 Ноября 2013 в 16:44, реферат
Длительное время такие понятия как хранилища данных, системы поддержки принятия решений, OLAP считались слишком новыми и неапробированными технологиями для применения в банках. Некоторыми рассматривались как просто дорогие игрушки. Однако сегоднешнее развитие информационных технологий говорит совсем о другом. Цель этой статьи – познакомить широкий круг банковских специалистов с инструментами, позволяющими значительно сократить время и средства при выполнении широкого круга задач. В некоторых случаях без подобных инструментов просто невозможно обойтись.
Введение
2. Основные понятия. Сравнение оперативных и аналитических ИС с точки зрения обеспечения данными
3. Понятие, структура и свойства информационных хранилищ
4. Проблемы интеграции данных
5.Реализация хранилищ и витрин данных
6. Заключение
7. Список литературы
Содержание
1. Введение
2. Основные понятия. Сравнение оперативных и аналитических ИС с точки зрения обеспечения данными
3. Понятие, структура и
свойства информационных
4. Проблемы интеграции данных
5.Реализация хранилищ и витрин данных
6. Заключение
7. Список литературы
Введение
Длительное
время такие понятия как
Существование и развитие любой финансовой организации предполагает постоянный анализ собственной деятельности, состояния рынка, а также оценку предпринимаемых решений и их последствий. Информационные системы должны позволять быстро решать подобные задачи в любой момент времени, что сильно осложняется такими факторами как использование разнородных источников данных, неприемлемая продолжительность выполнения запроса, неготовность данных, сложности в работе с ПО, возникающими у конечных пользователей.
Адекватным
средством решения подобных задач
служат аналитические информационные
системы. Основное назначение подобных
систем — динамическое представление
информации и многомерный анализ
агрегированных исторических и текущих
данных, анализ тенденций, моделирование
и прогнозирование результатов
различных действий. Результатом
применения средств OLAP являются с одной
стороны — аналитические
2. Основные понятия
Сравнение оперативных и аналитических
ИС с точки зрения обеспечения данными
3. Концепция хранилища данных
Хранилище данных - предметно-ориентированный,
интегрированный, неизменчивый, поддерживающий
хронологию набор данных, организованный
для целей поддержки
Подход построения хранилища данных для интеграции неоднородных источников данных принципиально отличается от подхода динамической интеграции разнородных БД. Реально строится новое крупномасштабное хранилище, управление данными в котором происходит по другим правилам, чем в исходных оперативных БД.
В основе концепции хранилища данных лежат две основные идеи:
(1) Интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище. В процессе интеграции должно выполняться согласование рассогласованных детализированных данных и, возможно, их агрегация. Данные могут поступать из исторических архивов корпорации, оперативных баз данных, внешних источников.
(2) Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.
Общая архитектура аналитических ИС
Потоки данных в информационном хранилище
Свойства информационных хранилищ
Уильям Инмон, считающийся основателем нового направления развития технологии БД, дал классическое определение информационного хранилища в 1990 г. Он охарактеризовал его как специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства:
Предметная ориентация
В отличие от БД в традиционных OLTP-системах, где данные подобраны в соответствии с конкретными приложениями, информация в DW ориентирована на задачи поддержки принятия решений.. Для системы поддержки принятия решений требуются "исторические" данные - факты продаж за определенные интервалы времени. Хорошо спроектированные структуры данных DW отражают развитие всех направлений бизнеса компании во времени.
Поскольку в DW-технологии объекты данных выходят на первый план, то особые требования предъявляются к структурам БД, используемым для создания информационных хранилищ.. Принципиально отличаются и структуры баз данных для OLTP- и DW-систем. Во втором случае в них помещается только та информация, которая может быть полезной для работы систем поддержки принятия решений (DSS).
Интегрированность данных
Данные в информационное
хранилище поступают из различных
источников, где они могут иметь
разные имена, атрибуты, единицы измерения
и способы кодировки. После загрузки
в DW данные очищаются от индивидуальных
признаков, т. е. как бы приводятся к
общему знаменателю. С этого момента
они представляются пользователю в
виде единого информационного
Если в четырех разных
приложениях пол клиента
Инвариантность во времени
В OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием DW от OLTP-систем является то, что данные в них сохраняют свою истинность в любой момент процесса чтения.
В OLTP-системах информация часто модифицируется как результат выполнения каких-либо транзакций. Временная инвариантность данных в DW достигается за счет введения полей с атрибутом "время" (день, неделя, месяц) в ключи таблиц. В результате записи в таблицах DW никогда не изменяются, представляя собой снимки данных, сделанные в определенные отрезки времени. В DW содержатся как бы моментальные снимки данных. Каждый элемент в своем ключе явно или косвенно хранит временной параметр, например день, месяц или год.
Неразрушаемость - cтабильность информации
В OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В DW-системах, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ). Это и определяет специфику проектирования структуры базы данных для DW. Если при создании OLTP-систем разработчики должны учитывать такие моменты, как откаты транзакций после сбоя сервера, борьба с взаимными блокировками процессов (deadlocks), сохранение целостности данных, то для DW данные проблемы не столь актуальны - перед разработчиками стоят другие задачи, связанные, например, с обеспечением высокой скорости доступа к данным.
Минимизация избыточности информации
Поскольку информация в DW загружается из OLTP-систем, возникает вопрос, не ведет ли это к чрезмерной избыточности данных? Нет, утверждает Билл Инмон. На самом деле избыточность минимальна (около 1%!), что объясняется следующими причинами:
Основные компоненты информационного хранилища
ПО промежуточного слоя
Обеспечивает сетевой
доступ и доступ к базам данных.
Сюда относятся сетевые и
Транзакционные БД и внешние источники информации
Базы данных OLTP-систем исторически
предназначались для
Уровень доступа к данным
Относящееся сюда ПО обеспечивает общение конечных пользователей с информационным хранилищем и загрузку требуемых данных из транзакционных систем. В настоящее время универсальным языком общения служит язык структурированных запросов (SQL).
Загрузка и предварительная обработка
Этот уровень включает в себя набор средств для загрузки данных из OLTP-систем и внешних источников. Выполняется, как правило, в сочетании с дополнительной обработкой: проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.
Информационное хранилище
Представляет собой ядро всей системы - один или несколько серверов БД.
Метаданные
Метаданные (репозиторий, "данные о данных"). Играют роль справочника, содержащего сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты, и т. д.
Уровень информационного доступа
Обеспечивает непосредственное общение пользователя с данным DW посредством стандартных систем манипулирования, анализа и предоставления данных типа MS Excel, MS Access, Lotus 1-2-3 и др.
Уровень управления (администрирования)
Отслеживает выполнение процедур, необходимых для обновления информационного хранилища или поддержания его состояния. Здесь программируются процедуры подкачки данных, перестройки индексов, выполнения итоговых (суммирующих) расчетов, репликации данных, построения отчетов, формирования сообщений пользователям, контроля целостности и др.
4. Проблемы интеграции данных
Остановимся на некоторых проблемах реализации хранилища данных:
Неоднородность программной среды
Хранилище данных практически
никогда не создается на пустом месте.
Почти всегда конечное решение будет
разнородным, т.е. в нем будут использоваться
автономно разработанные
Распределенный характер организации
В концепции хранилища данных предопределено то, что операционная аналитическая обработка может выполняться в любом узле сети независимо от места расположения основного хранилища. Хотя при аналитической обработке данные только читаются, и потребность в синхронизации отсутствует, для достижения эффективности необходимо поддерживать репликацию данных в разных узлах сети. (На самом деле, все не так просто. Одним из требований к хранилищам данных является то, чтобы свежая информация поступала в хранилище как можно быстрее. Т.е. потенциально любая модификация оперативной БД может инициировать добавление данных к хранилищу данных, а тогда потребуется обновить и все реплики, для чего синхронизация все-таки нужна.)
Повышение требований к безопасности данных
Собранная вместе согласованная информация об истории развития корпорации, ее успехах и неудачах, о взаимоотношениях с поставщиками и заказчиками, об истории и состоянии рынка дает возможность анализа прошлой и текущей деятельности корпорации и построения прогнозов для будущего. Эта информация настолько ценна для корпорации, что нельзя допустить возможности ее утечки (на самом деле, если хранилище данных одной корпорации попадет в руки аналитиков другой корпорации, то все аналитические прогнозы первой корпорации сразу станут неверными). В системах, основанных на хранилищах данных, оказывается недостаточной защита данных в стиле языка SQL, которую обеспечивают обычные коммерческие СУБД (этот уровень защиты соответствует классу C2 в соответствии с классификацией Оранжевой Книги Министерства обороны США). Для обеспечения должного уровня защиты доступ к данным должен контролироваться не только на уровне таблиц и их столбцов, но и на уровне отдельных строк (это уже соответствует классу B1 Оранжевой Книги). Приходится также решать вопросы аутентификации пользователей, защиты данных при их перемещении в хранилище данных из оперативных баз данных и внешних источников, защиты данных при их передаче по сети.