Автор работы: Пользователь скрыл имя, 15 Мая 2012 в 15:45, контрольная работа
Для успешного ведения бизнеса в наше время требуется информация. То, как успешно компания использует и управляет информацией, говорит о том, какого успеха эта компания может достигнуть. Невозможно принять верное управленческое решение не подвергая информацию обработке. Обработка данных - это процесс преобразования информации из первоначального вида к определенному результату. Сбор, накопление, хранение информации часто не являются конечной целью информационного процесса. Чаще всего первичные данные привлекаются для решения какой-либо проблемы, затем они преобразуются шаг за шагом в соответствии с алгоритмом решения задачи до получения выходных данных, которые после анализа пользователем предоставляют необходимую информацию.
Введение…………………………………………………………………………………...3
1.Понятие системы поддержки принятия решений……………………………5
2.Характеристика и назначение………………………………………………………6
3.Основные компоненты СППР……………………………………………….….…7
4.Корпоративные информационные системы и базы данных………………....11
5.OLTP-системы……………………………………………………………………...…15
6.Хранилища данных (Data Warehouse)……………………………………….....16
7. Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP)……………………………………………………………………………………...20
8 .Интеллектуальный анализ данных (Data Mining……………………………23
9.Интеграция OLAP и Data Mining…………………………………………………27
Заключение……………………………………………………………………………….28
Список использованных источников…………………………………………….30
Основными понятиями многомерной модели данных являются: гиперкуб данных (Data Hypercube), измерение (Dimension), метки (Memders), ячейка (Cell) и мера (Measure).
Гиперкуб данных содержит одно или более измерений и представляет собой упорядоченный набор ячеек. Каждая ячейка определяется одним и только одним набором значений измерений - меток. Ячейка может содержать данные - меру или быть пустой.
Измерением называется множество меток, образующих одну из граней гиперкуба. Примером временного измерения является список дней, месяцев, кварталов. Примером географического измерения может быть перечень территориальных объектов: населенных пунктов, районов, регионов, стран и т.д.
Для
получения доступа к данным пользователю
необходимо указать одну или несколько
ячеек путем выбора значений измерений,
которым соответствуют
Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением.
1. Многомерное представление данных - средства конечного пользователя, обеспечивающие многомерную визуализацию и манипулирование данными; слой многомерного представления абстрагирован от физической структуры данных и воспринимает данные как многомерные.
2. Многомерная обработка - средство (язык) формулирования многомерных запросов (традиционный реляционный язык SQL здесь оказывается непригодным) и процессор, умеющий обработать и выполнить такой запрос.
3. Многомерное хранение - средства физической организации данных, обеспечивающие эффективное выполнение многомерных запросов.
Первые два уровня в обязательном порядке присутствуют во всех OLAP-средствах. Третий уровень, хотя и является широко распространенным, не обязателен, так как данные для многомерного представления могут извлекаться и из обычных реляционных структур.
В любом хранилище данных - и в обычном, и в многомерном - наряду с детальными данными, извлекаемыми из оперативных систем, хранятся и агрегированные показатели (суммарные показатели), такие, как суммы объемов продаж по месяцам, по категориям товаров и т.д.
Основными недостатками являются увеличение объема хранимой информации (при добавлении новых измерений объем данных, составляющих куб, растет экспоненциально) и времени на их загрузку.
Степень увеличения объема данных при вычислении агрегатов зависит от количества измерений куба и структуры этих измерений, т.е. соотношения количества "родителей" и "потомков" на разных уровнях измерения. Для решения проблемы хранения агрегатов применяются сложные схемы, позволяющие при вычислении далеко не всех возможных агрегатов достигать значительного повышения производительности выполнения запросов.
Как исходные, так и агрегатные данные могут храниться либо в реляционных, либо в многомерных структурах. В связи с этим в настоящее время применяются три способа хранения многомерных данных:
MOLAP
(Multidimensional OLAP) - исходные и агрегатные
данные хранятся в многомерной
базе данных. Хранение данных
в многомерных структурах
Эти системы обеспечивают полный цикл OLAP-обработки. Они либо включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс, либо используют для связи с пользователем внешние программы работы с электронными таблицами.
ROLAP (Relational OLAP) - исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегатные же данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных.
HOLAP (Hybrid OLAP) - исходные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
Некоторые
OLAP-средства поддерживают хранение данных
только в реляционных структурах,
некоторые - только в многомерных. Однако
большинство современных серверных OLAP-средств
поддерживают все три способа хранения
данных. Выбор способа хранения зависит
от объема и структуры исходных данных,
требований к скорости выполнения запросов
и частоты обновления OLAP-кубов.
8 .Интеллектуальный анализ данных (Data Mining)
Термин Data Mining обозначает процесс поиска корреляций, тенденций и взаимосвязей посредством различных математических и статистических алгоритмов: кластеризации, регрессионного и корреляционного анализа и т.д. для систем поддержки принятия решений.
При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.
В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных и
Поиск
шаблонов производится методами, не использующими
никаких априорных
В общем случае процесс интеллектуального анализа данных (Data Mining) состоит из трёх стадий:
1.
Выявление закономерностей (
2.
Использование выявленных
3.
Анализ исключений, предназначенный
для выявления и толкования
аномалий в найденных
Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).
Выделяют
пять стандартных типов
1.
Ассоциация позволяет выделить
устойчивые группы объектов, между
которыми существуют неявно
2. Последовательность - это метод выявления ассоциаций во времени. В данном случае определяются правила, которые описывают последовательное появление определенных групп событий. Такие правила необходимы для построения сценариев. Кроме того, их можно использовать, например, для формирования типичного набора предшествующих продаж, которые могут повлечь за собой последующие продажи конкретного товара.
3.
Классификация - инструмент обобщения.
Она позволяет перейти от
4.
Кластеризация - это распределение
информации (записей) из БД по
группам (кластерам) или
5.
Прогнозирование временных
Для
решения таких задач
Из многообразия существующих методов исследования данных можно выделить следующие:
1
Регрессионный, дисперсионный
2. Методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях (часто применяются, например, в недорогих средствах финансового анализа);
3.
Нейросетевые алгоритмы - метод
имитации процессов и явлений,
позволяющий воспроизводить
4.
Нечеткая логика применяется
для обработки данных с
5. Индуктивные выводы позволяют получить обобщения фактов, хранящихся в БД. В процессе индуктивного обучения может участвовать специалист, поставляющий гипотезы. Такой способ называют обучением с учителем. Поиск правил обобщения может осуществляться без учителя путем автоматической генерации гипотез. В современных программных средствах, как правило, сочетаются оба способа, а для проверки гипотез используются статистические методы. Примером системы с применением индуктивных выводов является XpertRule Miner, разработанная фирмой Attar Software Ltd. (Великобритания);
6.
Рассуждения на основе
7.
Принцип аналогии позволяет
8.
Деревья решений - метод структурирования
задачи в виде древовидного
графа, вершины которого
9.
Эволюционное программирование - поиск
и генерация алгоритма,
Информация о работе Автоматизированные системы обработки данных системы поддержки принятия решений