Классификация информационных систем

Автор работы: Пользователь скрыл имя, 15 Ноября 2013 в 16:44, реферат

Краткое описание

Длительное время такие понятия как хранилища данных, системы поддержки принятия решений, OLAP считались слишком новыми и неапробированными технологиями для применения в банках. Некоторыми рассматривались как просто дорогие игрушки. Однако сегоднешнее развитие информационных технологий говорит совсем о другом. Цель этой статьи – познакомить широкий круг банковских специалистов с инструментами, позволяющими значительно сократить время и средства при выполнении широкого круга задач. В некоторых случаях без подобных инструментов просто невозможно обойтись.

Содержание

Введение
2. Основные понятия. Сравнение оперативных и аналитических ИС с точки зрения обеспечения данными
3. Понятие, структура и свойства информационных хранилищ
4. Проблемы интеграции данных
5.Реализация хранилищ и витрин данных
6. Заключение
7. Список литературы

Вложенные файлы: 1 файл

Реферат Ларин.docx

— 50.51 Кб (Скачать файл)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Содержание

1. Введение

2. Основные понятия. Сравнение  оперативных и аналитических  ИС с точки зрения обеспечения  данными

3. Понятие, структура и  свойства информационных хранилищ

4. Проблемы интеграции  данных

5.Реализация хранилищ  и витрин данных

6. Заключение

7. Список литературы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Длительное  время такие понятия как хранилища  данных, системы поддержки принятия решений, OLAP считались слишком новыми и неапробированными технологиями для применения в банках. Некоторыми рассматривались как просто дорогие игрушки. Однако сегоднешнее развитие информационных технологий говорит совсем о другом. Цель этой статьи – познакомить широкий круг банковских специалистов с инструментами, позволяющими значительно сократить время и средства при выполнении широкого круга задач. В некоторых случаях без подобных инструментов просто невозможно обойтись.

Существование и развитие любой финансовой организации  предполагает постоянный анализ собственной  деятельности, состояния рынка, а  также оценку предпринимаемых решений  и их последствий. Информационные системы  должны позволять быстро решать подобные задачи в любой момент времени, что  сильно осложняется такими факторами  как использование разнородных  источников данных, неприемлемая продолжительность  выполнения запроса, неготовность данных, сложности в работе с ПО, возникающими у конечных пользователей.

Адекватным  средством решения подобных задач  служат аналитические информационные системы. Основное назначение подобных систем — динамическое представление  информации и многомерный анализ агрегированных исторических и текущих  данных, анализ тенденций, моделирование  и прогнозирование результатов  различных действий. Результатом  применения средств OLAP являются с одной  стороны — аналитические отчеты, ориентированные на нужды пользователей  различных категорий, с другой —  средства анализа данных и быстрого построения отчетов пользователем-непрограммистом  с использованием понятий предметной области.

2. Основные понятия 
Сравнение оперативных и аналитических ИС с точки зрения обеспечения данными

  1. Основным источником информации, поступающей в оперативную БД является деятельность корпорации. Для проведения анализа данных требуется привлечение внешних источников информации (например, статистических отчетов). Хранилище данных должно включать как внутренние корпоративные данные, так и внешние данные.
  2. Для оперативной обработки требуются свежие данные за несколько последних месяцев, для проведения достоверных анализа и прогнозирования в хранилище данных нужно иметь информацию о деятельности корпорации и состоянии рынка на протяжении нескольких лет. Объем аналитических БД как минимум на порядок больше объема оперативных.
  3. Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД (по историческим причинам). Оперативные БД могут содержать семантически эквивалентную информацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую. Хранилище данных должно содержать единообразно представленную и согласованную информацию, максимально соответствующую содержанию оперативных БД. Необходима компонента для извлечения и "очистки" информации из разных источников.
  4. Оперативные ИС создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании. Набор запросов к аналитической базе данных предсказать невозможно. Хранилища данных существуют, чтобы отвечать на нерегламентированные (ad hoc) запросы аналитиков. Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т.д.).
  5. Оперативные БД по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД (нормализованная структура БД, строки хранятся неупорядоченно, B-деревья для индексации, транзакционность). При малой изменчивости аналитических БД (только при загрузке данных) оказываются разумными упорядоченность массивов, более быстрые методы индексации при массовой выборке, хранение заранее агрегированных данных.
  6. Для оперативных ИС обычно хватает защиты информации на уровне таблиц. Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты(индивидуальные права доступа к определенным строкам и/или столбцам таблицы).

 

 

 

 

 

 

 

 

 

3. Концепция хранилища данных

Хранилище данных - предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.

Подход построения хранилища  данных для интеграции неоднородных источников данных принципиально отличается от подхода динамической интеграции разнородных БД. Реально строится новое крупномасштабное хранилище, управление данными в котором  происходит по другим правилам, чем  в исходных оперативных БД.

В основе концепции хранилища  данных лежат две основные идеи:

(1) Интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище. В процессе интеграции должно выполняться согласование рассогласованных детализированных данных и, возможно, их агрегация. Данные могут поступать из исторических архивов корпорации, оперативных баз данных, внешних источников.

(2) Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.

Общая архитектура  аналитических ИС

Потоки данных в информационном хранилище 

Свойства информационных хранилищ

Уильям Инмон, считающийся основателем нового направления развития технологии БД, дал классическое определение информационного хранилища в 1990 г. Он охарактеризовал его как специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства:

  • Предметная ориентация
  • Интегрированность данных
  • Инвариантность во времени
  • Неразрушаемость - cтабильность информации
  • Минимизация избыточности информации

Предметная ориентация

В отличие от БД в традиционных OLTP-системах, где данные подобраны  в соответствии с конкретными  приложениями, информация в DW ориентирована  на задачи поддержки принятия решений.. Для системы поддержки принятия решений требуются "исторические" данные - факты продаж за определенные интервалы времени. Хорошо спроектированные структуры данных DW отражают развитие всех направлений бизнеса компании во времени.

Поскольку в DW-технологии объекты  данных выходят на первый план, то особые требования предъявляются к структурам БД, используемым для создания информационных хранилищ.. Принципиально отличаются и структуры баз данных для OLTP- и DW-систем. Во втором случае в них помещается только та информация, которая может быть полезной для работы систем поддержки принятия решений (DSS).

Интегрированность данных

Данные в информационное хранилище поступают из различных  источников, где они могут иметь  разные имена, атрибуты, единицы измерения  и способы кодировки. После загрузки в DW данные очищаются от индивидуальных признаков, т. е. как бы приводятся к  общему знаменателю. С этого момента  они представляются пользователю в  виде единого информационного пространства.

Если в четырех разных приложениях пол клиента кодировался  четырьмя различными способами, то в  информационном хранилище будет  использована единая для всех данных схема кодировки (например, f,m).

Инвариантность  во времени 

В OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее  мгновение они могут измениться в результате очередной транзакции. Важным отличием DW от OLTP-систем является то, что данные в них сохраняют свою истинность в любой момент процесса чтения.

В OLTP-системах информация часто  модифицируется как результат выполнения каких-либо транзакций. Временная инвариантность данных в DW достигается за счет введения полей с атрибутом "время" (день, неделя, месяц) в ключи таблиц. В  результате записи в таблицах DW никогда  не изменяются, представляя собой  снимки данных, сделанные в определенные отрезки времени. В DW содержатся как  бы моментальные снимки данных. Каждый элемент в своем ключе явно или косвенно хранит временной параметр, например день, месяц или год.

Неразрушаемость - cтабильность информации

В OLTP-системах записи могут  регулярно добавляться, удаляться  и редактироваться. В DW-системах, как  следует из требования временной  инвариантности, однажды загруженные  данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ). Это и определяет специфику проектирования структуры  базы данных для DW. Если при создании OLTP-систем разработчики должны учитывать  такие моменты, как откаты транзакций после сбоя сервера, борьба с взаимными  блокировками процессов (deadlocks), сохранение целостности данных, то для DW данные проблемы не столь актуальны - перед разработчиками стоят другие задачи, связанные, например, с обеспечением высокой скорости доступа к данным.

Минимизация избыточности информации

Поскольку информация в DW загружается  из OLTP-систем, возникает вопрос, не ведет  ли это к чрезмерной избыточности данных? Нет, утверждает Билл Инмон. На самом деле избыточность минимальна (около 1%!), что объясняется следующими причинами:

  • при загрузке информации из OLTP-cистем в DW данные фильтруются. Многие из них вообще не попадают в DW, поскольку лишены смысла с точки зрения использования в системах поддержки принятия решений;
  • информация в OLTP-системах носит, как правило, оперативный характер, и данные, потеряв актуальность, удаляются. В DW, напротив, хранится историческая информация, и с этой точки зрения перекрытие содержимого DW данными OLTP- систем оказывается весьма незначительным;
  • в DW хранится некая итоговая информация, которая в базах данных OLTP-систем вообще отсутствует;
  • во время загрузки в DW записи сортируются, очищаются от ненужной информации и приводят к единому формату. После такой обработки это уже совсем другие данные.

Основные компоненты информационного хранилища 

ПО промежуточного слоя

Обеспечивает сетевой  доступ и доступ к базам данных. Сюда относятся сетевые и коммуникационные протоколы, драйверы, системы обмена сообщениями и пр.

Транзакционные  БД и внешние источники информации

Базы данных OLTP-систем исторически  предназначались для эффективной  обработки структур данных в относительно небольшом числе четко определенных транзакций. Из-за ограниченной целевой  направленности "учетных" систем применяемые в них структуры  данных плохо подходят для систем поддержки принятия решений. Кроме  того, возраст многих установленных OLTP-систем достигает 10 - 15 лет.

Уровень доступа  к данным

Относящееся сюда ПО обеспечивает общение конечных пользователей  с информационным хранилищем и загрузку требуемых данных из транзакционных систем. В настоящее время универсальным языком общения служит язык структурированных запросов (SQL).

Загрузка и  предварительная обработка 

Этот уровень включает в себя набор средств для загрузки данных из OLTP-систем и внешних источников. Выполняется, как правило, в сочетании с дополнительной обработкой: проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.

Информационное  хранилище 

Представляет собой ядро всей системы - один или несколько  серверов БД.

Метаданные 

Метаданные (репозиторий, "данные о данных"). Играют роль справочника, содержащего сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты, и т. д.

Уровень информационного  доступа 

Обеспечивает непосредственное общение пользователя с данным DW посредством стандартных систем манипулирования, анализа и предоставления данных типа MS Excel, MS Access, Lotus 1-2-3 и др.

Уровень управления (администрирования)

Отслеживает выполнение процедур, необходимых для обновления информационного  хранилища или поддержания его  состояния. Здесь программируются  процедуры подкачки данных, перестройки  индексов, выполнения итоговых (суммирующих) расчетов, репликации данных, построения отчетов, формирования сообщений пользователям, контроля целостности и др.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Проблемы интеграции данных

Остановимся на некоторых  проблемах реализации хранилища  данных:

  • Неоднородность программной среды
  • Распределенный характер организации
  • Повышенные требования к безопасности данных
  • Необходимость наличия многоуровневых справочников метаданных
  • Потребность в эффективном хранении и обработке очень больших объемов информации

Неоднородность  программной среды 

Хранилище данных практически  никогда не создается на пустом месте. Почти всегда конечное решение будет  разнородным, т.е. в нем будут использоваться автономно разработанные программные  средства. Прежде всего это касается формирования интегрированного согласованного набора данных, которые могут поступать из разнородных баз данных, электронных архивов, публичных и коммерческих электронных каталогов, справочников, статистических сборников. При построении хранилища данных приходится решать задачу построения единой, согласованно функционирующей информационной системы на основе неоднородных программных средств и решений. При выборе средств реализации хранилища данных приходится учитывать множество факторов, включающих уровень совместимости различных программных компонентов, легкость их освоения и использования, эффективность функционирования и т.д.

Распределенный  характер организации 

В концепции хранилища  данных предопределено то, что операционная аналитическая обработка может  выполняться в любом узле сети независимо от места расположения основного  хранилища. Хотя при аналитической  обработке данные только читаются, и потребность в синхронизации  отсутствует, для достижения эффективности необходимо поддерживать репликацию данных в разных узлах сети. (На самом деле, все не так просто. Одним из требований к хранилищам данных является то, чтобы свежая информация поступала в хранилище как можно быстрее. Т.е. потенциально любая модификация оперативной БД может инициировать добавление данных к хранилищу данных, а тогда потребуется обновить и все реплики, для чего синхронизация все-таки нужна.)

Повышение требований к безопасности данных

Собранная вместе согласованная  информация об истории развития корпорации, ее успехах и неудачах, о взаимоотношениях с поставщиками и заказчиками, об истории и состоянии рынка  дает возможность анализа прошлой  и текущей деятельности корпорации и построения прогнозов для будущего. Эта информация настолько ценна  для корпорации, что нельзя допустить  возможности ее утечки (на самом  деле, если хранилище данных одной  корпорации попадет в руки аналитиков другой корпорации, то все аналитические  прогнозы первой корпорации сразу станут неверными). В системах, основанных на хранилищах данных, оказывается недостаточной защита данных в стиле языка SQL, которую обеспечивают обычные коммерческие СУБД (этот уровень защиты соответствует классу C2 в соответствии с классификацией Оранжевой Книги Министерства обороны США). Для обеспечения должного уровня защиты доступ к данным должен контролироваться не только на уровне таблиц и их столбцов, но и на уровне отдельных строк (это уже соответствует классу B1 Оранжевой Книги). Приходится также решать вопросы аутентификации пользователей, защиты данных при их перемещении в хранилище данных из оперативных баз данных и внешних источников, защиты данных при их передаче по сети.

Информация о работе Классификация информационных систем