Автор работы: Пользователь скрыл имя, 03 Ноября 2013 в 10:02, курсовая работа
Рассмотрим принцип работы поисковика, который довольно прост. Пользователю, пришедшему на сайт системы необходимо ввести в форму, располагающуюся на сайте ключевую фразу, по которой он ищет информацию, и послать запрос, нажав кнопку поиск. После чего он получит результат в виде списка текстовых ссылок на сайты соответствующие данному запросу. Это принцип работы поисковика со стороны пользователя. Ниже рассмотрим процесс работы (который не заметен пользователю) и внутреннее устройство.
Введение. 3
Что такое поисковая система? 3
Немного из истории. 3
Задачи поисковых систем. 4
Состав и принципы работы поисковой системы. 4
Модуль индексирования. 5
База данных. 6
Поисковый сервер. 6
Поисковые системы в настоящее время. 7
Google. 7
Yahoo! 9
Bing. 9
Яндекс. 10
Рамблер. 11
Нигма. 12
Mail.ru и GoGo.ru 13
Заключение. 15
Список информационных ресурсов. 16
Алгоритм PageRank зависит от нескольких факторов:
Систему Google практически невозможно обхитрить, потому что все ссылки на веб-страницы она воспринимает как «голоса». Самый лучший способ обеспечить своему сайту первые места, это напичкать его самой разнообразной информацией, которая будет привлекать больше людей. Чем больше ссылок на веб-странице, тем выше будет оценка поискового агента PageRank.
Для некоторых результатов поиска Google ранее предоставлял повторное поле для поиска, которое позволяет пользователю найти то, что он ищет внутри конкретного веб-сайта. С 2011 года эта опция недоступна, что весьма отрицательно сказалось на удобстве, популярности, и востребованности Google.
«Википоиск» – поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией «Google» весной 2009 года и проработала до осени.
Google предоставляет не только возможность эффективного поиска, но и ряд бесплатных сервисов, большинство из которых не требует установки дополнительного ПО на компьютер пользователя. Наиболее популярными веб-приложениями от Google являются «Gmail» и«Gtalk». Оба проекта прекрасно дополняют друг друга, но могут работать и по-отдельности. «Gmail» представляет собой почтовый сервис с автоматической фильтрацией спама, мобильным доступом и большим объемом почтового ящика (на апрель 2009 г. он составляет более 7 Гб, и это значение неуклонно растет). «Gtalk» – сервис, позволяющий обмениваться голосовыми и текстовыми сообщениями, как в окне браузера, так и с помощью специального ПО.
Для владельцев популярных сайтов Google предлагает несколько программ контекстной рекламы. Сервисы «AdSense» и «AdWords» позволяют заработать на посещаемости своих Интернет-страниц и привлечь новых посетителей.
Обычным пользователям «Google» предлагает доступ к справочной информации, новостям, обмену фотографиями, и многим другим ресурсам.
Yahoo!
Yahoo! (произносится как яху!) — американская компания, владеющая второй по популярности (6.35 % ) в мире поисковой системой и предоставляющая ряд сервисов, объединённых интернет-порталом «Yahoo! Directory»; портал включает в себя популярный сервис электронной почты «Yahoo! Mail», один из старейших и наиболее популярных в Интернете. Не так давно была запущена новая версия почтового интерфейса, основанная на AJAX (русскоязычный обзор нового интерфейса).
В январе 1994 года аспиранты Стэнфордского университета Дэвид Файло и Джерри Янг создали веб-сайт, который назывался «Путеводитель Джерри по Всемирной Паутине». «Путеводитель» представлял собой каталог других сайтов.
В апреле 1994 года сайт был переименован в Yahoo!. Существует две версии происхождения названия. Согласно первой, слово было взято из книги Джонатана Свифта «Путешествия Гулливера» (в русском переводе Йеху, еху), где обозначает расу грубых и тупых человекообразных существ. Именно на этой версии настаивают основатели компании. Согласно второй, Yahoo! — акроним, образованный от фразы «Еще один иерархический неотесанный (неофициальный) прорицатель» (англ.Yet Another Hierarchical Officious Oracle). Но есть и третья версия происхождения названия. Вполне возможно, Yahoo произошло от японского Yahhoo, что в переводе означает «Привет» (неформальный вариант). Однако к тому времени Yahoo уже был зарегистрированной торговой маркой соуса для барбекю, поэтому к названию был добавлен восклицательный знак. Янг и Файло быстро оценили коммерческий потенциал проекта и 2 марта 1995 года основали корпорацию Yahoo!
Согласно статистике Alexa Internet, на сегодняшний день Yahoo! — четвертый по посещаемости веб-сайт в сети Интернет, и примерно 28% посещений состоят из просмотра только одной страницы.
Bing.
Bing — поисковая система, разработанная международной корпорацией Microsoft. Доступна по адресу http://www.bing.com/. Ранее имела следующие наименования и адреса:
В настоящее время Bing занимает третье место по счёту самых используемых поисковых систем, в отличии от которых, обладает рядом эксклюзивных возможностей, таких как просмотр результатов поиска на одной странице (вместо пролистывания многочисленных страниц результатов поиска), а также динамическое корректирование объёма информации отображаемой для каждого результата поиска (например, только название, краткая или большая сводка).
В американской версии Bing присутствуют некоторые интересные нововведения, касающиеся интернет-поиска, например:
При том, что Bing неплохо ищет по англоязычным ресурсам, для российских пользователей он фактически бесполезен. «Яндекс» и Google дают гораздо более релевантные результаты.
Яндекс.
Поисковая система "Яндекс" является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,892 млрд., статистика за декабрь 2009 г.) и первым крупнейшим неанглоязычным поисковым сервером. Ежедневная посещаемость этой поисковой системы – более 9 миллионов человек в сутки (январь 2010). В поисковой системе представлено более 5,4 миллиона сайтов с количеством страниц более 2,5 миллиарда, что составляет более 62 терабайта информации.
Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания "Яндекс" образовался в 2000 году.
"Яндекс" постоянно совершенствует свои поисковые алгоритмы, что позволяет ему соответствовать современным критериям поиска и становиться на уровень Google хотя бы в России. А пока так и есть, если судить по уровню освоения обоих поисковых систем аудиторией СНГ. "Яндекс", как и Google, работает на кластерной системе организации компьютерных вычислительных сетей. Каждый кластер отвечает за определённый сегмент сохранённой информации.
Сканирующие роботы поисковой системы бывают 2 видов:
1) основной сканирующий робот
2) быстрый робот, который регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы.
Обновления (апдейты) поисковой системы бывают 2 видов:
1) Обновления поисковой базы. Происходят несколько раз в месяц. В поиске начинают выдаваться обновлённые страницы сайтов, собранные основным сканирующим роботом.
2) Обновления программной части (движка) поисковой системы. Сутью данных обновлений является изменение алгоритмов ранжирования документов в поисковой системе. Обычно подобные обновления анонсируются и им даются определённые названия.
"Яндекс" учитывает морфологию русского языка (мощная система определения словоформ), имеет возможность сузить запрос до максимально точного при помощи специальных поисковых формул и геотаргетинга, имеет качественно разработанный алгоритм оценки релевантности документов (точность отношения текста документа к поисковому запросу), обладает высокой скоростью реакции на запросы и практическим отсутствием перегрузок серверов.
Совсем недавно (с 2009 года) с вводом нового алгоритма "Снежинск" поисковая система "Яндекс" научилась определять региональную принадлежность сайтов и формировать результаты поиска по географическому расположению пользователя. Сегодня это самый точный географический поисковик Рунета.
Вместе с тем, интернет-портал «Яндекс» представляет собой не только мощную поисковую систему. Под этим брендом собрано множество самых разнообразных сервисов.
Так, с помощью «Яндекса» можно узнать свежие новости («Новости»), пообщаться с друзьями и коллегами («Блоги», «Почта»), заработать («Мой Круг», «Директ», «Рекламная сеть»), продать или приобрести различные товары («Маркет», «Авто»), а также получить море полезной информации (пробки, погода, котировки валют, телепрограмма, афиша). Не менее популярна у русскоязычных пользователей и платежная система «Яндекс Деньги», которая позволяет осуществлять электронные платежи с помощью веб-интерфейса или Интернет-кошелька.
Рамблер.
Rambler – поисковая система, разработанная в 1996 году. До недавнего времени Rambler был первым по популярности поисковиком Рунета. И хотя сейчас виртуальная пальма первенства «перешла» к Яндексу и Google, Rambler прочно обосновался на ведущих позициях. По оценкам SpyLog на Rambler приходится 20-25% от всех поисковых запросов Рунета.
Название поисковика как нельзя лучше отражает суть деятельности компании («rambler» - по-англ. «бродяга»). Rambler позволяет искать документы на английском, русском, украинском и многих других языках, а при формировании списка к выдаче учитываются не только ключевые запросы, но и их разнообразные словоформы. Полученные в результате поиска данные структурируются по степени соответствия запросу (релевантности) и распределяются по сайтам.
Сравнительно недавно (в начале 2009 г.) разработчики Rambler'а начали внедрение вертикального поиска, в основе которого лежит технология XAG (eXtended AGgregator). Благодаря этой системе, запрашиваемая информация сортируется по темам, а работать с поисковой машиной становится несколько проще. Использование вертикалей поисковиком имеет и еще одно преимущество — при недостатке информации в одном документе, она может дополняться данными из другого. Что очень удобно для «очистки» данных от повторов, спама и так далее. Например, при поиске вакансий по телефонному номеру той или иной компании система определяет ее название. Таким образом, поисковая система Rambler может отслеживать на соответствующих сайтах дублирующиеся объявления, сомнительные вакансии и т.д.
Особенностью поисковой системы является то, что Rambler обслуживает только сайты, находящиеся в следующих доменах первого уровня: Российская Федерация: .ru, .su; Украина: .ua; Белоруссия: .by; Казахстан: .kz; Киргизия: .kg; Узбекистан: .uz; Грузия: .ge.
Вместе с тем, Rambler — это не только поисковая машина. Под эгидой Rambler организовано множество Интернет-проектов, с помощью которых можно узнать новости, посетить наиболее популярные сайты, посмотреть видео, послушать музыку, получить полезную информацию, а также развлечься и познакомиться с интересными людьми. Помимо таких традиционных и знакомых всем функций, как Топ 100, почта, новости и игры, Rambler предлагает и другие сервисы.
Нигма.
Нигма.РФ – российская интеллектуальная метапоисковая система, первая кластеризующая поисковая система в Рунете. Проект создан при поддержке факультетов ВМиК и психологии МГУ, а также Стэнфордского университета. Название — Nigma (один из родов пауков семейства Dictynidae, en:Nigma) было выбрано по ассоциации со Всемирной паутиной.
Nigma осуществляет поиск как по своему индексу, так и по индексам Google, Yahoo, Bing, Яндекс, Rambler, AltaVista, Aport. По состоянию на 28 февраля 2009 в суммарном индексе всех этих поисковых систем находится более 7 160 000 000 русскоязычных документов.
На основе введённого пользовательского запроса Нигма формирует список документов, разделённых на несколько множеств (кластеров). Пользователь может уточнить в каком множестве продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему множества сайтов, например, документы, пришедшие с интернет-магазинов (для них формируется специальный кластер). Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.