Поисковые системы

Автор работы: Пользователь скрыл имя, 16 Января 2014 в 14:37, реферат

Краткое описание

Поисковые системы уже давно стали неотъемлемой частью российского и миривого Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.
Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Вложенные файлы: 1 файл

Поисковые системы.doc

— 183.00 Кб (Скачать файл)
  1. Введение

Поисковые системы уже давно стали неотъемлемой частью российского и миривого Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

 

Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

 

2. Примеры поисковых систем

 

    1. Яндекс (www.yandex.ru)

    1. Google (www.google.ru)

    1. Yahoo (www.yahoo.com)

    1. Рамблер (www.rambler.ru)

    1. Bing (www.bing.com) 

 

3. Структура поисковых систем

3.1. Состав поисковых систем

Поисковые cистемы обычно состоят из трех компонентов:

    1. агент (паук или кроулер), который перемещается по Сети и собирает информацию;
    2. база данных, которая содержит всю информацию, собираемую пауками;
    3. поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

 

2.3. Механизм поиска

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и  извлекают итоговую информацию. Также  они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки  и возращают только первую ссылку.

Роботы могут быть запрограммированы  так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют  различные виды информации. Некоторые, например, индексируют каждое отдельное  слово во встречающемся документе, в то время как другие индексируют  только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который  они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и  заполняет форму, детализирующую информацию, которая ему необходима. Здесь  могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет  запроса, основанный на информации, указанной  в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
  2. Тэги, в которых эти слова располагаются.
  3. Местоположение искомых слов в документе.
  4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
  5. Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
  6. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

 4. Основные характеристики поисковой системы

Основные характеристики поисковых систем:

  • Полнота

Полнота - одна из основных характеристик  поисковой системы, представляющая собой отношение количества найденных  по запросу документов к общему числу  документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется  временем, проходящим с момента публикации документов в сети Интернет, до занесения  их в индексную базу поисковой  системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

Скорость поиска тесно связана  с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в  рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность  требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

Наглядность представления результатов  является важным компонентом удобного поиска. По большинству запросов поисковая  машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления  запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка.

5. История поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации относительно небольшим. В большинстве случаев доступ к Интернет имели сотрудники различных университетов и лабораторий, а в целом Сеть использовалась в научных целях. В это время задача поиска информации в сети Интернет была далеко не столько актуальной, как в настоящее время.

Одним из первых способов организации  доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.

Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой  системой стал проект WebCrawler появившийся  в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.

В 1997 году Сергей Брин и Ларри Пейдж  создали Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google самая  популярная поисковая система в  мире.

23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.

В настоящее время существует 3 основных международных поисковых  системы – Google, Yahoo и MSN Search, имеющих  собственные базы и алгоритмы  поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.

6. Актуальное положение поисковых систем на российском и международном рынках

6.1 Российский рынок

Доли Rambler, Mail.ru на поисковом рынке  продолжают снижаться, доля Google остается примерно на том же уровне, в то время как доля "Яндекса" растет, следует из статистики Liveinternet за июнь 2010 года среди российских пользователей. По итогам июня доля "Яндекса" составила 64,6%, доля Google — 22%, Mail.ru — 7,3%, Rambler — 2,5%. В декабре 2009 года доля Mail.ru в поиске была 10%, доля "Яндекса" — 58,9%, Google — 23,4%, Rambler — 3,4%. Таким образом, доля Mail.ru снизилась с декабря на 27%, доля Google упала на 6%, Rambler — на 11,8%. За тот же период доля "Яндекса" увеличилась на 9,7%. Пресс-секретарь "Яндекса" Очир Манджиков отмечает, что доля "Яндекса" в поиске превысила порог 60% впервые за четыре года.  

6.2 Мировой рынок

По оценкам comScore, на сентябрь 2011 года Yandex занимал пятое место в мире по количеству обработанных поисковых запросов. Самый большой объем запросов в мире традиционно получает Google — 70% всех поисковых операций мира. На второй строчке оказался Baidu — крупнейший поисковый сервис Китая. Затем расположилось Yahoo! Этот поисковик работает на технологии Bing, разработанной Microsoft. Сам Bing занимает лишь четвертое место.

 

 

 

7. Необычные поисковые системы  

  1. DuckDuckGo — гибридная поисковая система с политикой конфиденциальности пользователя и его поисковых запросов.
  2. Koogle (с его помощью ортодоксальные иудеи могли найти контент, признанный раввинами удовлетворяющим религиозным требованиям).
  3. Yauba (индийский поиск «для параноиков» — в отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера).
  4. TinEye — поисковая система, специализирующаяся на поиске изображений в Интернете.
  5. Генон — поисковая система, собирающая и создающая контент у себя на сайте.
  6. ImHalal — первый исламский поисковик. Новый поисковик может отличить разрешённые для мусульман (халяльные) результаты поиска от запретных (харамных). Был открыт в 2009 году. Ориентировочно с начала сентября 2011 прекратил функционирование в связи с недостатком финансирования.

Информация о работе Поисковые системы