Автор работы: Пользователь скрыл имя, 22 Мая 2012 в 19:44, курсовая работа
Целью данной работы является изучение организации хранения и поиска информации в сети Internet, для чего будут последовательно рассмотрены следующие задачи: дать определение гипертекстовым документам, определить виды файлов и их особенности, изучить поисковые системы и правила поиска информации; а также указать некоторые виды современных поисковых систем сети Internet.
Введение
1. классификация информационных ресурсов
1.1. Гипертекстовые документы, виды файлов
1.2. Графические файлы, их виды и особенности
1.3. Поисковые системы и правила поиска информации
2. поисковые системы интернета
2.1. Rambler
2.2. Yandex
2.3. Yahoo
2.4. AltaVista
Выводы и предложения
список использованной литературы
-
формы слов запроса –
-
относительная частота (
-
расстояние между словами
-
посещаемость документа (
- ссылочный вес документа (учитывается ссылочный вес страницы, рассчитанный на основе учёта гиперссылок, содержащих слова запроса, т.е. если на документ со словами запроса ссылается большее количество авторитетных страниц, то ему отдаётся приоритет по данному запросу).
Пользователь сам также может уточнить поиск по отдельным запросам, например, применив специальный язык поискового запроса, с помощью которого можно значительно ограничить количество найденных документов.
Запрос или его часть, взятые в кавычки, обрабатываются буквально, с учётом всех стоп-слов, форм, порядка, знаков препинания. Это повышает точность поиска, но уменьшает его полноту: при неточном запросе, заключённом в кавычки, нужный документ найден не будет.
Использовав, логический оператор OR (ИЛИ) можно расширить сферу поиска и увеличить его полноту. Оператор NOT (И-НЕ), наоборот, повышает точность поиска за счёт нахождения документов, которые содержат одни слова запроса и не содержат другие.
Также для повышения точности можно также задавать расстояние между словами, указав его в скобках через запятую, например: 2, Красная площадь. Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту, а, следовательно, могут не иметь друг к другу никакого отношения.
Также
поисковая система Рамблер
Индексная база поисковой системы Рамблер состоит из 8 частей, каждая из которых независима от остальных. Весь Интернет условно разделён на 7 секторов и называется своим цветом: красный, оранжевый, жёлтый, зелёный, голубой, синий, фиолетовый. Информация о Web-ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть, так называемая «быстрая база», включает в себя страницы, на которых размещён счётчик Top100 и которые ещё не успели попасть в основную индексную базу. Каждая из этих частей собирается и обновляется по отдельности. Полный цикл обновления занимает около недели. При этом сбор информации по всем частям происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов, что при необходимости позволяет обновлять индексную базу чаще.
При необходимости таких частей может быть 10, 20, 40, каждая из которых будет обрабатываться автономно. В такой системе будущее, так как с ростом объёма информации в сети Интернет растёт и индексная база поисковой системы. Постепенно сборка и переиндексация базы занимает всё больше времени, а процесс обновления индекса становится всё более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Но возможность разделить Интернет на большее число секторов позволяет удерживать размер каждой части индексной базы в оптимальном диапазоне, тем самым контролировать время её сборки и обновления.
«Быстрая база» отличается от остальных частей индекса меньшим объёмом и очень оперативным обновлением: время её построения занимает всего около двух часов, Рамблер проводит обновление этой части каждые 12 часов. В базе содержится информация о страницах, на которых был установлен счётчик Top100. Участниками рейтинга Top100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети. При установке счётчика на новую страницу сайта, зарегистрированного в Top100, информация сразу передаётся в поисковую систему, страница ищется во всех цветах основной базы и, если она ещё отсутствует в индексе, то она после фильтрации и отбора по посещаемости отправляется в очередь на обработку.
«Быстрая база» представляет собой разумное решение проблемы актуальности (свежести) данных в поиске. Информационное агентство может выложить новость через 10 минут после её появления, потому что тратит время только на вёрстку страницы. Поисковая система должна сначала заиндексировать текст, а на это требуется гораздо больше времени.
В поисковой системе Рамблер каждый из этапов обработки запроса многократно продублирован и защищён системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования. Если одна из их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня.
В Рамблер для повышения скорости поиска используется «кэширование», т.к. часто запросы повторяются, и вычислять их каждый раз заново – неразумная трата времени, а также лингвистический анализ текста документов и запроса также позволяет ускорить обработку информации путём уменьшения количества нерелевантных запросу документов, которые нужно ранжировать и цитировать.
Большое
внимание в поисковой системе
Рамблер также уделяется
Есть также возможность восстановить текст, так как ресурс бывает, недоступен по разным причинам. Документ может быть удалён, изменён, перенесён, но его текстовое содержание некоторое время сохраняется в индексной базе. [6]
Поисковая система Яндекс в настоящее время является самой популярной в русской части Интернета. Поисковый робот Яндекса работает очень быстро, можно даже сказать, что это самый быстрый поисковый робот в русском Интернете (Рунете). Первичная индексация только что зарегистрированного сайта происходит в течении всего нескольких часов после регистрации. Полная индексация сайта происходит в течении примерно 1 месяца. В мета-тэгах желательно использовать ключевые слова, которые имеются в тексте страницы. Достаточно большое значение для Яндекса имеет прописывание ключевых слов в Alt-тэгах. Яндекс отлично индексирует динамические сайты и это, являясь одним из важных факторов, выводит Яндекс на первые позиции, ну и, конечно же, быстрота поискового робота этой поисковой системы. Поисковая система "Яндекс" является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,892 млрд., статистика за декабрь 2009 г.) и первым крупнейшим неанглоязычным поисковым сервером. Ежедневная посещаемость этой поисковой системы – более 9 миллионов человек в сутки (январь 2010). В поисковой системе представлено более 5,4 миллиона сайтов с количеством страниц более 2,5 миллиарда, что составляет более 62 терабайта информации.
Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания "Яндекс" образовался в 2000 году.
"Яндекс"
постоянно совершенствует свои
поисковые алгоритмы, что
Сканирующие роботы поисковой системы бывают 2 видов:
1) основной сканирующий робот; 2) быстрый робот, который регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы.
Обновления (апдейты) поисковой системы бывают 2 видов:
1)
Обновления поисковой базы. Происходят
несколько раз в месяц. В поиске начинают
выдаваться обновлённые страницы сайтов,
собранные основным сканирующим роботом.
2) Обновления
программной части (движка) поисковой
системы. Сутью данных обновлений является
изменение алгоритмов ранжирования документов
в поисковой системе. Обычно подобные
обновления анонсируются и им даются определённые
названия.
"Яндекс"
учитывает морфологию русского
языка (мощная система
Совсем недавно (с 2009 года) с вводом нового алгоритма "Снежинск" поисковая система "Яндекс" научилась определять региональную принадлежность сайтов и формировать результаты поиска по географическому расположению пользователя.
В "Яндекс" можно подать заявку на индексацию сайта и написать письмо разработчикам о проблемах с индексацией, также имеется форум поисковой системы http://forum.yandex.ru и блог http://webmaster.ya.ru, что уже неплохо соответствует минимальным правилам юзабилити.
К тому же функционирует панель управления собственным сайтом в поисковой системе "Яндекс" - http://webmaster.yandex.ru, на котором можно настраивать индексацию собственного сайта, отслеживать нежелательные изменения кода, следить за качественностью индексации сайта в этой поисковой системе, выявлять возможные ошибки индексации сайта и даже исправлять орфографические ошибки.[7]
Данная система появилась в сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска. На различных её серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND или OR. При выдаче не указывается степень соответствия документа запросу, а только подчёркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не производится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска. На сегодняшний день Yahoo.com одна из основных поисковых систем в Интернет. Предоставляющая услуги 200 миллионам человек в месяц. Нынешнее развитие Яху можно определить как движение в он-лайн, интерактивность. Яху быстро осваивает эту область интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "он-лайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.
Одно из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Яху, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.
1
сентября 2005 года поисковик Yahoo, которому
принадлежит более 200 миллионов
адресов электронной почты по
всему миру, анонсировал запуск
новой системы поиска текстов,
фотографий и других
Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом Gmail, Яху для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.