Информационные ресурсы сети Интернет

Автор работы: Пользователь скрыл имя, 22 Мая 2012 в 19:44, курсовая работа

Краткое описание

Целью данной работы является изучение организации хранения и поиска информации в сети Internet, для чего будут последовательно рассмотрены следующие задачи: дать определение гипертекстовым документам, определить виды файлов и их особенности, изучить поисковые системы и правила поиска информации; а также указать некоторые виды современных поисковых систем сети Internet.

Содержание

Введение

1. классификация информационных ресурсов

1.1. Гипертекстовые документы, виды файлов

1.2. Графические файлы, их виды и особенности

1.3. Поисковые системы и правила поиска информации

2. поисковые системы интернета

2.1. Rambler

2.2. Yandex

2.3. Yahoo

2.4. AltaVista

Выводы и предложения

список использованной литературы

Вложенные файлы: 1 файл

Новая курсовая по инф.doc

— 208.00 Кб (Скачать файл)

     - формы слов запроса – преимущество  отдаётся вхождениям, в которых  слова имеют тот же падеж,  число, склонение и т.д., что  и в запросе пользователя. Также выделяются две группы форм – близкие (падежи, склонения, спряжения и т.д.) и далёкие (причастия, деепричастия и т.д.). При ранжировании преимущество отдаётся более близким формам слов запроса;

     - относительная частота (отношение  количества вхождений слов запроса в документ к общему количеству слов в документе);

     - расстояние между словами запроса  (оценивается, насколько близко  расположены в документе слова запроса);

     - посещаемость документа (преимущество  отдаётся более посещаемым ресурсам);

     - ссылочный вес документа (учитывается ссылочный вес страницы, рассчитанный на основе учёта гиперссылок, содержащих слова запроса, т.е. если на документ со словами запроса ссылается большее количество авторитетных страниц, то ему отдаётся приоритет по данному запросу).

     Пользователь  сам также может уточнить поиск  по отдельным запросам, например, применив специальный язык поискового запроса, с помощью которого можно значительно  ограничить количество найденных документов.

     Запрос  или его часть, взятые в кавычки, обрабатываются буквально, с учётом всех стоп-слов, форм, порядка, знаков препинания. Это повышает точность поиска, но уменьшает его полноту: при неточном запросе, заключённом в кавычки, нужный документ найден не будет.

     Использовав, логический оператор OR (ИЛИ) можно расширить сферу поиска и увеличить его полноту. Оператор NOT (И-НЕ), наоборот, повышает точность поиска за счёт нахождения документов, которые содержат одни слова запроса и не содержат другие.

     Также для повышения точности можно  также задавать расстояние между словами, указав его в скобках через запятую, например: 2, Красная площадь. Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту, а, следовательно, могут не иметь друг к другу никакого отношения.

     Также поисковая система Рамблер предоставляет  возможность поиска в найденном. При этом каждый следующий, уточняющий поиск, производится уже не по всей индексной базе, а только по результатам  предыдущего поиска, что значительно сужает круг найденных документов.

     Индексная база поисковой системы Рамблер  состоит из 8 частей, каждая из которых  независима от остальных. Весь Интернет условно разделён на 7 секторов и  называется своим цветом: красный, оранжевый, жёлтый, зелёный, голубой, синий, фиолетовый. Информация о Web-ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть, так называемая «быстрая база», включает в себя страницы, на которых размещён счётчик Top100 и которые ещё не успели попасть в основную индексную базу. Каждая из этих частей собирается и обновляется по отдельности. Полный цикл обновления занимает около недели. При этом сбор информации по всем частям происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов, что при необходимости позволяет обновлять индексную базу чаще.

     При необходимости таких частей может  быть 10, 20, 40, каждая из которых будет  обрабатываться автономно. В такой  системе будущее, так как с  ростом объёма информации в сети Интернет растёт и индексная база поисковой системы. Постепенно сборка и переиндексация базы занимает всё больше времени, а процесс обновления индекса становится всё более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Но возможность разделить Интернет на большее число секторов позволяет удерживать размер каждой части индексной базы в оптимальном диапазоне, тем самым контролировать время её сборки и обновления.

     «Быстрая  база» отличается от остальных частей индекса меньшим объёмом и очень оперативным обновлением: время её построения занимает всего около двух часов, Рамблер проводит обновление этой части каждые 12 часов. В базе содержится информация о страницах, на которых был установлен счётчик Top100. Участниками рейтинга Top100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети. При установке счётчика на новую страницу сайта, зарегистрированного в Top100, информация сразу передаётся в поисковую систему, страница ищется во всех цветах основной базы и, если она ещё отсутствует в индексе, то она после фильтрации и отбора по посещаемости отправляется в очередь на обработку.

     «Быстрая  база» представляет собой разумное решение проблемы актуальности (свежести) данных в поиске. Информационное агентство может выложить новость через 10 минут после её появления, потому что тратит время только на вёрстку страницы. Поисковая система должна сначала заиндексировать текст, а на это требуется гораздо больше времени.

     В поисковой системе Рамблер каждый из этапов обработки запроса многократно продублирован и защищён системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования. Если одна из их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня.

     В Рамблер для повышения скорости поиска используется «кэширование», т.к. часто запросы повторяются, и вычислять их каждый раз заново – неразумная трата времени, а также лингвистический анализ текста документов и запроса также позволяет ускорить обработку информации путём уменьшения количества нерелевантных запросу документов, которые нужно ранжировать и цитировать.

     Большое внимание в поисковой системе  Рамблер также уделяется наглядности  представления результатов, так  как по большинству запросов поисковая система находит сотни, а то и тысячи документов. Из-за неточности запросов даже первые страницы не всегда могут содержать только нужную информацию. Поэтому пользователю часто приходится проводить свой собственный поиск внутри списка найденного. В результатах поиска помогают ориентироваться такие элементы ответной страницы, как группировка по сайтам (чтобы на странице можно было вывести как можно больше Интернет-ресурсов, релевантных запросу пользователя, при этом предъявляется наиболее релевантная страница сайта, а ниже располагается частичный список остальных), дата обновления или релевантность отдельных документов, название сайта, заголовок страницы, цитата из документа и т.д. Также существует возможность сортировки по этим параметрам.

     Есть  также возможность восстановить текст, так как ресурс бывает, недоступен по разным причинам. Документ может быть удалён, изменён, перенесён, но его текстовое содержание некоторое время сохраняется в индексной базе. [6]

    1. Yandex

     Поисковая система Яндекс в настоящее время является самой популярной в русской части Интернета. Поисковый робот Яндекса работает очень быстро, можно даже сказать, что это самый быстрый поисковый робот в русском Интернете (Рунете). Первичная индексация только что зарегистрированного сайта происходит в течении всего нескольких часов после регистрации. Полная индексация сайта происходит в течении примерно 1 месяца. В мета-тэгах желательно использовать ключевые слова, которые имеются в тексте страницы. Достаточно большое значение для Яндекса имеет прописывание ключевых слов в Alt-тэгах. Яндекс отлично индексирует динамические сайты и это, являясь одним из важных факторов, выводит Яндекс на первые позиции, ну и, конечно же, быстрота поискового робота этой поисковой системы. Поисковая система "Яндекс" является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,892 млрд., статистика за декабрь 2009 г.) и первым крупнейшим неанглоязычным поисковым сервером. Ежедневная посещаемость этой поисковой системы – более 9 миллионов человек в сутки (январь 2010). В поисковой системе представлено более 5,4 миллиона сайтов с количеством страниц более 2,5 миллиарда, что составляет более 62 терабайта информации.

     Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания "Яндекс" образовался в 2000 году.

     "Яндекс" постоянно совершенствует свои  поисковые алгоритмы, что позволяет  ему соответствовать современным критериям поиска и становиться на уровень Google хотя бы в России. "Яндекс", как и Google, работает на кластерной системе организации компьютерных вычислительных сетей. Каждый кластер отвечает за определённый сегмент сохранённой информации.

     Сканирующие роботы поисковой системы бывают 2 видов:

     1) основной сканирующий робот; 2) быстрый робот, который  регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы.

     Обновления (апдейты) поисковой системы бывают 2 видов:

     1) Обновления поисковой базы. Происходят  несколько раз в месяц. В поиске начинают выдаваться обновлённые страницы сайтов, собранные основным сканирующим роботом. 
          2) Обновления программной части (движка) поисковой системы. Сутью данных обновлений является изменение алгоритмов ранжирования документов в поисковой системе. Обычно подобные обновления анонсируются и им даются определённые названия.

     "Яндекс" учитывает морфологию русского  языка (мощная система определения  словоформ), имеет возможность сузить  запрос до максимально точного  при помощи специальных поисковых  формул и геотаргетинга, имеет качественно разработанный алгоритм оценки релевантности документов (точность отношения текста документа к поисковому запросу), обладает высокой скоростью реакции на запросы и практическим отсутствием перегрузок серверов.

     Совсем  недавно (с 2009 года) с вводом нового алгоритма "Снежинск" поисковая система "Яндекс" научилась определять региональную принадлежность сайтов и формировать результаты поиска по географическому расположению пользователя.

     В "Яндекс" можно подать заявку на индексацию сайта и написать письмо разработчикам о проблемах с индексацией, также имеется форум поисковой системы http://forum.yandex.ru  и блог http://webmaster.ya.ru, что уже неплохо соответствует минимальным правилам юзабилити.

     К тому же функционирует панель управления собственным сайтом в поисковой  системе "Яндекс" - http://webmaster.yandex.ru, на котором можно настраивать индексацию собственного сайта, отслеживать нежелательные изменения кода, следить за качественностью индексации сайта в этой поисковой системе, выявлять возможные ошибки индексации сайта и даже исправлять орфографические ошибки.[7]

    1. Yahoo

       Данная система появилась в сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска. На различных её серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND или OR. При выдаче не указывается степень соответствия документа запросу, а только подчёркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не производится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска. На сегодняшний день Yahoo.com одна из основных поисковых систем в Интернет. Предоставляющая услуги 200 миллионам человек в месяц. Нынешнее развитие Яху можно определить как движение в он-лайн, интерактивность. Яху быстро осваивает эту область интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "он-лайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

     Одно  из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Яху, не заходя на официальный  сайт, а лишь используя функциональные кнопки панели.

     1 сентября 2005 года поисковик Yahoo, которому  принадлежит более 200 миллионов  адресов электронной почты по  всему миру, анонсировал запуск  новой системы поиска текстов,  фотографий и других документов, содержащихся в письмах.

     Необходимость такого нововведения возникла вслед  за увеличением объёма хранимых данных, ведь некоторые пользователи создают  целые почтовые архивы. Подгоняемый  конкурентом Google и его почтовым сервисом Gmail, Яху для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Информация о работе Информационные ресурсы сети Интернет