Автор работы: Пользователь скрыл имя, 20 Ноября 2013 в 12:19, реферат
Информационной системой называется комплекс, включающий в себя вычислительное и коммуникационное оборудование, программное обеспечение, лингвистические средства, информационные ресурсы, а также системный персонал, обеспечивающий поддержку динамической информационной модели некоторой части реального мира для удовлетворения информационных потребностей пользователя.
Часть реального мира, которая моделируется информационной системой, называется её предметной областью.
Формальное представление предметной области является двухуровневым, интенсионал представляет собой набор аксиом, описывающий соотношение между его элементами – типами сущностей и связей. Экстенсионал обычно представляется в виде набора фактов.
Применение формальных моделей позволяет осуществлять системе логический вывод и предоставлять пользователю новые факты, которые непосредственно в явном виде в ней не были представлены.
Данный подход используется в системах, основанных на знаниях или экспертных системах.
Неструктурированные модели
К данной категории относятся вербальные модели, то есть модели описывающие реальность в виде текстов на естественном языке. В таких моделях явным образом не представляется структура предметной области – множества сущностей и их свойств, различного рода связей между этими видами сущностей, интересующих пользователей системы. Однако эта структура может быть реконструирована на основе анализа содержания данных текстов и при этом не всегда однозначным образом.
Автоматизация такого анализа является достаточно сложной задачей, связанной с обработкой естественного языка (NLP – Natural Language Processing).
Существует широкий спектр информационных систем, поддерживающие неструктурированные модели предметной области. В простейших из них задача анализа и понимания естественного языка возлагается на пользователя. В продвинутых системах большая часть нагрузки, связанная с решением этих задач возлагается на систему. В таких моделях интенсионал предметной области может быть материализован в форме тезауруса, описания онтологии в предметной области и других инструментов, которые можно отнести к лингвистическим ресурсам системы.
Таким образом, в простейших системах интенсионал явным образом не представлен и ей недоступен. Он существует только в интеллектуальном багаже пользователя.
В продвинутых системах их
возможности по обработке в системе
естественного языка
Представление предметной области
в вербальных моделях можно назвать неструкт
Число систем, использующих вербальные модели предметной области, относят различные системы текстового поиска.
Модели данных
Принимаемый разработчиком подход к моделированию предметной области системы существенным образом влияет на используемые в ней информационные технологии и инструменты разработки.
Для создания структурированных и слабоструктурированных моделей предметной области и выполнения операций в терминах таких представлений используются разнообразные, реализованные в программных средствах, инструменты моделирования.
В современном понимании, модель данных – это не результат, а инструмент моделирования, то есть совокупность правил структурирования правил, допустимых операций над ними и видов ограничений целостности, которым они должны удовлетворять.
При этом процедура верификации не может быть в полной мере формализована.
В связи с этим она в значительной мере возлагается на системный персонал и привлекаемых к этой работе экспертов.
Проверка логической целостности
данных может осуществляться на
стадии предварительной обработки,
а также непосредственно
Проверка целостности в документах XML может выполняться интерпритатором на основе описания типа документа. Выбор конкретных методов обеспечения верификации данных зависит от характера их источника, качества данных, видов ограничения целостности и т.д.
В некоторых ИС информационные ресурсы могут храниться в сжатом виде. Сжатие осуществляется с целью минимизации ресурсов памяти, необходимых для хранения, а также для снижения затрат на передачу данных по коммуникационным каналам. Например, механизмы хранения в некоторых СУБД включают в себя средства, обеспечивающие сжатие отдельных значений данных, кортежей, доменов, атрибутов и т.д. Также, при вводе данных в систему, может применяться конвертирование данных, т.е. преобразование данных из одного формата в другой, реализующий или облегчающий автоматизированный ввод данных. Также конвертирование применяется в случае, если источником данных является иная система.
Организация хранения информационных ресурсов
При организации хранения информационных ресурсов, необходимо управлять двумя видами ресурсов:
Рассмотрим способы
В системах текстового поиска каждый документ хранится обычно в отдельном файле. Доступ к документам обычно осуществляется с помощью структур данных, называемых индексами. Индексы в системах текстового поиска позволяют определять адрес файла по индексирующим свойствам, хранящимуся в нем документа. По значениям каких либо атрибутов, ассоциированных с документом, по содержащимся в нем словах или сочетаниям, при этом единицы доступа является полных документ. Управление памятью осуществляется в таких системах средствами компонента ОС компьютера, называемой файловой системой или системой управления файлами. Индексы документов в системах текстового поиска организуются в виде в виде инвертированных списков. В таких списках для каждого значения индексирующего свойства поддерживаются адреса или идентификаторы файлов их содержащих. Файловая организация такде используется для хранения ИР в действующей версии технологии WEB. В данной архитектуре каждая страница в общем случае представляется в виде совокупности файлов. Основным из них является слабоструктурированный документ, содержащий текст, размеченный с помощью языка разметки HTML. В отдельных файлах представлены встроенные изображения и другие компоненты страницы, на которые имеются ссылки в основном файле. Доступ к страницам WEB осуществляется по уникальным адресам – URL – Уникальному Указателю Ресурсов. Также имеется возможность получить доступ путем навигации по гиперссылкам.
Единицей доступа здесь также является документ, но при этом возможна адресация на часть страницы. Функцию управления ресурсами памяти служащими для хранения ресурсов в WEB возлагаются на ОС тех компьютеров, которые содержат эти страницы.
Следует отметить, что в настоящее время в связи с интенсивным ростом объема информационных ресурсов, навигационный доступ к требуемых ресурсам стал не эффективен. Пользователь WEB лишь знает ограниченное количество URL’ов . В связи с этим был создан класс WEB приложений, называемых поисковыми машинами. *какая-то хрень*
При этом в технологии поисковых машин применяются средства и методы, используемые в текстах полного поиска (или доступа – не расслышал).
Более тонкую организацию механизмы управления имеют в информационных системах, основанных на СУБД. Причиной этого является использование более сложных структур данных, необходимость более мелкой гранулярности доступа к ресурсам, более динамичным характером хранимых данных. Управление хранимыми данными в СУБД включают в себя поддержку структуры хранимых данных, их размещение в пространстве памяти, поддержку физической целостности и обеспечение эффективного доступа к ним. При этом могут использоваться как прямой, так и последовательный доступ единицам ИР. Прямой доступ осуществляется по известным значениям некоторых свойств (ключей) единиц ИР. Для этой цели используются вспомогательные хранимые структуры данных, обеспечивающие отражение ключей в адреса размещения соответствующих единиц ИР. Чаще всего в качестве таких средств используются эффективно организованные индексы и cash-таблицы.
Индексные структуры организуются в виде деревьев специальных видов, обеспечивают быстрый поиск с помощью навигации в этих деревьях по коротким цепочкам указателей и, возможно, ограниченного перебора.
В настоящее время существует большое многообразие способов построения индексов. Cash-таблицы, в отличии от индексов, обеспечивает определение адресов размещения искомой или размещаемой единицы информационных ресурсов не путем навигации в индексной структуре, а с помощью вычислений некоторых функций отображения ключа в адрес. Значение этой функции представляют собой случайные числа, равномерно распределенные в заданном интервале, которые используются как номера участков во внешней памяти или строк таблицы хеширвоания, содержащие соответствующие единицы ИР или их адреса. Индексные структуры поддерживают доступ к хранимым единицам ИР в порядке соответствующих им ключей. В простом хэширвоании такой возможности нет – для это применяются последовательный доступ к хранимым единицам ИР осуществляется в порядке их физического размещения либо по значениям некоторых содержащихся в них или ассоциированными с ними идентификаторов. В последнем случае для поддержки необходимой упорядоченности обычно используют индексы по заданным ключам.
Управление ресурсами памяти в СУБД включает такие операции, как учет свободного пространства памяти, выделение пространства для ввода новых ресурсов и сборка мусора – т.е. возвращение освободившегося пространства памяти в pool для повторного использования.
Хеширование – преобразование произвольной длины байт в выходной поток фиксированной длины (md5() – 128бит). Также здесь необходимо предустотреть итерацию реорганизации среды хранения, т.е. изменения размещения хранимых даных в пространстве памяти для организации более эффективного использования ресурсов свободной памяти, а также для сокращения времени доступа к наиболее часто используемых данным. Среда хранения в СУБД также базируется на файловой организации, но при этом над файловой системой надстроены механизмы, реализующие более тонкие методы управления данными в терминах элементов содержания файлов.
Актуализация ИР
В соответствии с определением,
назначения информационной системы
состоит в поддержке
Для этой цели необходимо произвести актуализацию информационных ресурсов системы.
Актуализация ИР заключается в приведении их в соответствие текущему состоянию предметной области системы. В системах, основанных на СУБД, эта задача сводится к включению и/или удалению строк в таблицах данных, обновлению значений столбцов в некоторых строках.
При изменении структуры в предметной области, актуализация ИР заключается в изменении схемы БД – добавлении и/или удаления столбцов в существующих таблицах, создания и удаления таблиц в БД.
В системах, использующих неструктурированное представление предметной области, актуализация ИР чаще всего осуществляется путем ввода в систему новых или удаления существующих документов.
При актуализации систем, основанных на WEB, в состав ресурсов могут включаться или исключаться существующие WEB-страницы, модифицироваться гиперссылки, может редактироваться содержание существующих страниц.
При актуализации характер изменений, происходящих в предметной области и моделируемой ИС, может быть различным.
В одних случаях изменяются значения свойств, принадлежащих ей сущностей и связей. В более сложных случаях изменяются структура предметной области и/или ее поведенческие свойства.
Соответственно, разную природу имеют и процессы актуализации ИР. Так, в системах, основанных на СУБД, в случае изменения состояния предметной области в части ее характеристик – изменяется значение данных. Если изменяется структура, изменяется схема БД.
Таким образом, можно сказать, что актуализация модели предметной области поддерживаемой ИС может касаться как интенсионального, так и экстенсионального представления предметной области в системе.
Чаще всего актуализация ИР в ИС производится дискретно через определенных интервал времени. Поэтому адекватность состояния модели предметной области и ее состояние в реальности обеспечивается с временным лагом, величина которого равна продолжительности указанных интервалов.
Величина лага может изменяться для разных систем в довольно широком диапазоне интервалов времени и зависит от назначения системы и особенностей ее предметной области.
Например, в ИС, входящих в состав системы управления сложными техническими объектами (система управления космическими полетами), величина лага составляет мили- и микро- секунды. В системах, используемых для автоматизации деятельности предприятия, лаг может составлять минуты, часы, сутки. В некоторых системах лаг может достигать месяцев, лет, столетий.
Лаг – это временной интервал.
Для того, чтобы система соответствовала своему значению, необходимо соблюдать установленные для нее регламент актуализации ИР.
Обработка ИР
Существующие ИС можно разделить на 2 больших класса:
Также в реляционных СУБД существуют развитые средства – представления (View). Также пример продуцированных данных может служить динамическая генерация WEB-страниц, а также иного содержания, являющегося частью WEB-страницы. Также существуют системы, работающие с текстом на естественном языке, способные генерировать авторефераты исходя из существующих текстов.
Возможность обработки ИР, поддерживаемых в ИС, предусматривается определением ИС, при этом характер содержания, обеспечиваемой ИС обработки, не уточняется и не регламентируется для того, чтобы была возможность охватить максимально возможное число систем.