Автор работы: Пользователь скрыл имя, 22 Мая 2012 в 19:44, курсовая работа
Целью данной работы является изучение организации хранения и поиска информации в сети Internet, для чего будут последовательно рассмотрены следующие задачи: дать определение гипертекстовым документам, определить виды файлов и их особенности, изучить поисковые системы и правила поиска информации; а также указать некоторые виды современных поисковых систем сети Internet.
Введение
1. классификация информационных ресурсов
1.1. Гипертекстовые документы, виды файлов
1.2. Графические файлы, их виды и особенности
1.3. Поисковые системы и правила поиска информации
2. поисковые системы интернета
2.1. Rambler
2.2. Yandex
2.3. Yahoo
2.4. AltaVista
Выводы и предложения
список использованной литературы
Также во многих системах используются средства расширенного поиска: оператор «И» или «+» - одновременный поиск всех слов, соединённых оператором; оператор «ИЛИ» - поиск по любому из слов; логические скобки – управление порядком действия логических операторов, оператор «НЕ» - исключение ключевого слова (пример: млекопитающие НЕ хищники); поиск с указанием расстояния (пример: СЛ5(оптика линза) – слова оптика и линза должны быть расположены в тексте не далее, чем на пять слов), а также средства специального поиска: поиск по датам; поиск по заголовкам и фрагментам заголовков Web-документов.
Полное представление о синтаксисе языка запросов и правилах для каждой из поисковых систем можно получить в разделе Помощь на сайтах этих систем.[3]
Интернет постоянно растёт, а также растёт и число пользователей, которые обращаются с запросами к поисковым системам. Увеличение объёма информации и количества запросов, в свою очередь, приводит к повышению требований к скорости работы поисковых систем, качеству поиска и наглядности представления результатов. На сегодняшний день поисковой системе для отработки запроса нужно собрать, обработать, обновить, найти и отсортировать в два раза больше документов, чем год назад. Пользователь, обращаясь с запросом к поисковой системе, хочет найти то, что ему нужно, максимально быстро и просто. Получив результат, он оценивает работу системы: Нашёл ли он то, что искал? Если не нашёл, то сколько раз ему пришлось переформулировать вопрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Сможет ли он, вернувшись завтра и дав тот же запрос, получить те же результаты? Для того чтобы пользователь, ответив на эти вопросы, в будущем вновь воспользовался услугами той же поисковой системы, разработчики этих систем постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции, ускоряют работу системы.
Как
работает поисковая система? На первом
этапе поисковая система
Таким образом, поисковая система не будет искать информацию по запросу в огромной сети Интернет, а всего лишь поищет в своём заранее подготовленном поисковом индексе, что займет гораздо меньше времени.
На втором этапе поисковая система выдаёт накопленную, отобранную, отсортированную и классифицированную информацию по запросу пользователя.
Как
правило, поисковые системы
Для поиска информации в Интернет чаще всего используются три типа поисковых систем:
- каталоги (www.stars.ru, www.altrus.ru, www.list.ru и др.);
- индексы (www.altavista.com, www.aport.ru, www.yandex.ru и др.);
-
рейтинговые системы (www.
Также широко используются метапоисковые системы, которые позволяют с помощью одного запроса обратиться сразу к нескольким средствам поиска и получить список документов сразу из нескольких источников.
Результаты поиска чаще всего характеризуются полнотой, точностью и скоростью получения информации. Соответствие найденного по запросу документа тому, что хотел получить пользователь, называется релевантностью. Крайне редко бывает точное совпадение, поисковая система выдаёт вначале документы с максимальным соответствием (релевантностью), и далее, по убыванию. Большую релевантность получает документ, у которого слова запроса входят в документ в большем количестве, с большей частотой вхождений слов запроса в текст, ключевые слова, текст, расположенный в начале, ссылки, заголовок страницы, тему страницы. Всё это необходимо учитывать при подготовке сайта для регистрации в поисковой системе, т.к. если не провести необходимую оптимизацию, поисковая система постоянно будет считать сайт менее релевантным запросу и, соответственно, выводить его адрес в последних строках списка, даже если сайт полностью соответствует теме, указанной в запросе.
Рассмотрим подробнее характеристики результатов поиска.
Полнота представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Таким образом, если в сети Интернет имеется 1000 страниц, соответствующих данному запросу, а найдено было всего 750 из них, то полнота поиска будет 0,75. Чем полнее поиск, тем больше вероятность того, что пользователь найдёт нужный ему документ, конечно, если он вообще существует в Интернете. Полнота поиска зависит от работы системы сбора и обработки информации. Из-за постоянного роста количества документов в сети Интернет эта система должна быть масштабируемой.
Точность определяется как степень соответствия найденных документов запросу пользователя. Если слова запроса находятся в 1500 найденных документах, в 1000 из них содержится словосочетание, указанное в запросе, а в остальных просто присутствуют эти слова, то точность поиска считается равной 1000/1500 (~0,66). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше «мусора» среди них встречается и тем реже найденные документы не соответствуют запросу.
Очень большую роль в повышении точности поиска играет правильное ранжирование (порядок выдачи найденных документов). Пользователь редко просматривает больше трёх страниц с результатами поиска и субъективно оценивает точность по «верхним» документам. Даже если нужный документ найден поисковой системой, но расположен на двухсотой позиции, вероятнее всего, он никогда не будет найден пользователем. В большинстве поисковых систем применяется по умолчанию ранжирование по релевантности найденных документов запросу, но некоторые поисковики также предоставляют возможность сортировки, например, по дате документов.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, в рабочие часы к поисковой системе Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Интересы пользователя и поисковой системы при этом совпадают: посетитель хочет получить результат как можно быстрее, а поисковая машина должна обрабатывать запрос максимально быстро, чтобы успеть обслужить максимальное количество клиентов.
Для повышения скорости поиска применяются такие технологии, как «кэширование» (сохранение информации о запросах и результатах поиска в буфере), разделение индексной базы на несколько частей, лингвистическая обработка запроса.
Рассмотрим подробнее принципы работы поисковых систем на примере Рамблер.
Масштабируемость поисковой системы Рамблер достигается за счёт параллельного выполнения задачи произвольным количеством машин. Сбором информации занимается робот-паук. Он обходит страницы с заданным URL-адресами и скачивает их, в базу данных, затем архивирует и перекладывает в хранилище суточными порциями. Робот размещается на нескольких машинах, и каждая из них параллельно выполняет своё задание. На одних машинах робот может качать новые страницы, на других – страницы, которые уже ранее были скачаны, но требуют обновления. При этом хранилище у всех машин едино. Также работу можно распределить и другим способом, например, разбив список URL на 10 частей и раздав их 10 машинам. Параллельная работа позволяет легко выдерживать дополнительную нагрузку, так как её легко можно распределить на большее число машин.
В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб, эти части постепенно распределяются между 70 машинами, которые занимаются индексированием. Как только одна из машин заканчивает обработку очередной части страниц, она обращается за следующей порцией. В результате формируется много маленьких индексных баз, которые содержат информацию о некоторой части Интернета. Ускорение процесса индексации также достигается простым добавлением машин в систему.
После обработки всех частей информации необходимо объединить результаты. Частичные индексные базы и основная база, к которой обращается поисковая система, имеют одинаковый формат, поэтому процедура объединения осуществляется достаточно просто и быстро, так как не требуется никаких дополнительных модификаций частичных индексов. Основная база предыдущей редакции при этом участвует в анализе наравне с новыми индексами. Т.о. при объединении 70 новых частей в анализе участвует 71 фрагмент. Кроме того, единый формат позволяет тестировать частичные базы ещё до объединения их с основной и заранее обнаруживать ошибки.
Объединением содержимого всех частей индекса занимается специальная программа («сливатор»), которая составляет таблицы перенумерации документов базы. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия. Если при скачивании URL последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы. Страницы, которые имеют одинаковое содержимое, но различные URL-адреса, объединяются в один документ.
Сопоставление страниц не требует никакой дополнительной интеллектуальной обработки и происходит со скоростью чтения данных с диска. При слишком больших объёмах информации процедура «сливания» частей происходит в несколько этапов, при этом частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы и основная база предыдущей редакции пересекаются. Таких этапов может быть несколько. Тем не менее, работа в несколько этапов почти не замедляет формирование единого индекса и фактически не отражается на качестве результатов.
В
поисковой системе Рамблер
Распознавание грамматических омонимов (слов с одинаковым написанием, но различным смыслом) – одна из наиболее интересных технологий. Различают лексические и грамматические омонимы. Лексические омонимы относятся к одной части речи (батарея – радиатор отопления, несколько пушек, элемент электропитания). Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них, как правило, совпадают только отдельные формы (сегодняшние данные о погоде; вещи, данные в пользование). Омонимы значительно увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), а также отрицательно сказываются на точности поиска. Для уточнения результатов поиска модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установить их наиболее вероятные значения, и, таким образом, отсеять лишнее. Например, если рядом со словом «печь» стоит существительное («пирожки», «картошка»), то с высокой вероятностью «печь» в данном контексте является глаголом. Тем не менее, пока разработан анализатор только для грамматических омонимов. Также синтаксический анализ позволяет распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Василий Иванович, Воронежский Государственный Аграрный Университет). Такие конструкции учитываются при индексации и обработке запроса.
Также повышению точности значительно способствует выделение устойчивых обозначений и поиск их как отдельных лексических единиц. Например, С++, б/у, Ф.И.О., Windows XP). Если по запросу поднимать все тексты, в которых присутствует слово Windows, а также буквы XP, то получится огромное количество документов, большая часть из которых не соответствует запросу, при этом значительно увеличится время поиска.
Ранжирование результатов в Рамблере по умолчанию производится по степени соответствия запросу (релевантности), дополнительно страницы группируются по сайтам. При ранжировании оцениваются такие характеристики текстов как:
- количество вхождений слов (словосочетаний) в документ (чем больше, тем лучше);
- расположение слов запроса в документе (если в заголовке, то вероятность того, что документ посвящён данной теме больше);