Поисковые системы Интернета

Автор работы: Пользователь скрыл имя, 19 Января 2015 в 10:28, реферат

Краткое описание

Целью исследования является изучение темы "Поисковые системы интернет" с точки зрения современных требований пользователей к поиску информации в мировой глобальной сети интернет. В рамках достижения поставленной цели были выделены следующие задачи:
во-первых, рассмотреть в целом, что представляет собой поисковая система, определить ее состав, функции, принципы работы;
во-вторых, проанализировать наиболее популярные поисковые системы Интернета.

Содержание

Введение……………………………………………………………...
Поисковые системы: состав, функции, принцип работы…...….
Поисковые системы Интернета………………………………….
Заключение…………………………………………………….…….
Библиографический список………………………

Вложенные файлы: 1 файл

МИНОБРНАУКИ РОССИИ.docx

— 1.05 Мб (Скачать файл)

 

 

МИНОБРНАУКИ РОССИИ


федеральное бюджетное государственное образовательное учреждение

высшего профессионального образования

 

 

 

 

 

 

 

РЕФЕРАТ

 по дисциплине  «Информационные системы в экономике»

на тему  «Поисковые системы Интернета»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                                 Содержание                                                стр.


Введение……………………………………………………………...

  1. Поисковые системы: состав, функции, принцип работы…...….
  2. Поисковые системы Интернета………………………………….

Заключение…………………………………………………….…….

Библиографический список…………………………………………

3

4

9

14

15


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

За время существования Интернета предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий. Поисковые системы часто называют поисковыми машинами или машинами поиска.

Многие поисковые системы позволяют искать информацию не только в Web-страницах, но и в группах новостей и хранилищах файлов. Таким образом, в результате поиска можно найти сообщение в группе новостей или какой-то файл.

Исходя из всего выше перечисленного, можно без сомнения сказать, что тема данного реферата, безусловно, актуальна, так как интернет в целом и поисковые системы в частности являются неотъемлемой частью жизни современного человека.

Целью исследования является изучение темы "Поисковые системы интернет" с точки зрения современных требований пользователей к поиску информации в мировой глобальной сети интернет. В рамках достижения поставленной цели были выделены следующие задачи:

  • во-первых, рассмотреть в целом, что представляет собой поисковая система, определить ее состав, функции, принципы работы;
  • во-вторых, проанализировать наиболее популярные поисковые системы Интернета.

Работа выполнена с помощью персонального компьютера Intel (операционная система Windows 7) c использованием программы Microsoft Office Word 2007.

 

 

 

 

 

1. Поисковые системы: состав, функции, принцип работы

 

Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. 
Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Маил.ру».

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию. 
Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Для того, чтобы удовлетворить ответами на все вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

Основные характеристики поисковой системы:

  1. Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
  2. Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
  3. Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
  4. Скорость поиска тесно связана с его устойчивостью к нагрузкам. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
  5. Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Mail.ru.

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная  для скачивания веб-страниц. «Паук»  обеспечивает скачивание страницы  и извлекает все внутренние  ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания  страниц роботы используют протоколы HTTP. Работает «паук» следующим  образом. Робот на сервер передает  запрос “get/path/document” и некоторые  другие команды HTTP-запроса. В ответ  робот получает текстовый поток, содержащий служебную информацию  и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически  проходит по всем ссылкам, найденным  на странице. Выделяет все ссылки, присутствующие на странице. Его  задача - определить, куда дальше  должен идти паук, основываясь  на ссылках или исходя из  заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает  страницу на составные части  и анализирует их, применяя собственные  лексические и морфологические  алгоритмы. Анализу подвергаются  различные элементы страницы, такие  как текст, заголовки, ссылки структурные  и стилевые особенности, специальные  служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Основными функциями поисковых систем являются следующие:

  • сбор статистики. Первые роботы были созданы именно для этого и определяли число страниц на сервере, типы присутствующих на нем файлов, их соотношения, средний размер страницы и т. д.;
  • обслуживание. Имеются в виду такие функции, как сбор информации о неисправных ссылках и обновленных документах, проверка ссылок сайтов, авторы которые самостоятельно подали регистрационную заявку, и др.;
  • поиск новых ресурсов. Необязательно регистрировать сайт собственноручно - это может сделать робот, поскольку он постоянно ищет новые ресурсы. Однако может уйти много времени.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.Поисковые системы  Интернета

 

Принципиальное отличие поисковой системы Yahoo (Яхо) (рис.1) от других систем в том, что вы можете найти необходимую вам информацию без использования запросов, а просто переходя по ссылкам разделов встроенного справочника и последовательно уточняя область ваших интересов.Yahoo является самой популярной системой в США, так как не требует специальной подготовки для поиска информации. Не надо знать правила формирования запросов, достаточно просто переходить по ссылкам в нужные разделы. Однако для русскоязычных пользователей эта система не слишком удобна, так как разбиение на разделы проводилась с учётом американской специфики. Кроме того, в справочнике Yahoo содержится намного меньше ссылок на русскоязычные документы, чем в базе данных Alta Vista. Однако для поиска информации по конкретной тематике данная система может оказаться достаточно полезной.

 

 

Рис.1 Начальная страница поисковой системы Yahoo

 

Кроме поля, предназначенного для ввода запросов, на странице имеется множество ссылок на различные разделы информации. Вначале попробуем найти информацию с помощью запроса.

Поиск в системе Yahoo реализован с использованием Alta Vista. Все описанные выше приёмы, которые мы применяли при работе с Alta Vista, применимы и к Yahoo. Таким образом, вы можете использовать поиск в Yahoo совершенно так же, как и в системе Alta Vista. Но Yahoo предлагает и некоторые дополнительные возможности.

В верхней части страницы имеется поля для запроса и переключатель, позволяющий ограничить область поиска.

Как и другие мировые поисковые системы, Yahoo лучше подходит для поиска ресурсов, расположенных за пределами России.

Систему Yahoo удобно использовать для поиска спортивных событий, новостей, прогнозов погоды, развлечений и тому подобной информации. Это обусловлено особенностями разбиения информации на разделы в данной системе. Если вам удобнее не составлять запрос, а выполнять последовательные уточнения, то эта система вас должна устроить.

Одна из самых популярных в России поисковых систем - Google (рис.2).

 

Рис. 2. Начальная страница поисковой системы Google

 

Google (Гугл) - поисковая интернет-система, которая занимает первое в мире место по популярности – 77% пользователей отдают ей предпочтение. На сегодняшний день поисковик индексирует свыше 8 миллиардов страниц интернета и способен находить в сети информацию на 191 языке. В том числе и на русском. Создана была поисковая система Google в 1998 году студентами Стэндфордского университета в качестве учебного проекта. В названии применен термин, означающий десять в сотой степени (гугол). О популярности Гугла говорить даже не стоит, большинство пользователей узнают о существовании этого сервиса вместе с необходимостью найти что-то в сети.  

Информация о работе Поисковые системы Интернета