Поисковые системы Интернет

Автор работы: Пользователь скрыл имя, 18 Марта 2013 в 14:38, реферат

Краткое описание

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.

Вложенные файлы: 1 файл

Поиск информации в интернет.docx

— 37.23 Кб (Скачать файл)

 

Поиск информации в интернет

 

Общие сведения.

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды  различных сайтов и отдельных  файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.

Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в  адресную строку Браузера.

Пример 1.

www.1tv.ru - сервер Первого телевизионного канала.

Конструирование адреса пользователем. Зная систему формирования адреса в  Интернет, можно при поискеWeb-сайтов конструировать адреса.

К ключевому слову (названию фирмы, предприятия, организации или  простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.

Пример 2.

Адреса коммерческих Web-страниц:

www.cnn.com (всемирные новости CNN),

www.sony.com (фирма SONY),

www.mtv.com (музыкальные новости MTV).

Пример 3.

Адреса учебных заведений:

www.ntu.edu (Национальный университет США).

Пример 4.

Адреса региональных серверов:

www.poland.net (Польша),

www.israil.net (Израиль).

Поисковые системы Интернет

 

Для поиска информации в Интернет разработаны специальные информационно-поисковые  системы. Поисковые системы имеют  обычный адрес и отображаются в виде Web-страницы, содержащей специальные  средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы  достаточно ввести ее адрес в адресную строку Браузера.

По способу организации  информации информационно-поисковые  системы делятся на два вида: классификационные (рубрикаторы) и словарные.

Рубрикаторы (классификаторы) - поисковые системы, в которых  используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает  тематические рубрики, постепенно сужая  поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно  найти словарь, а затем уже  в нем найти нужное слово).

Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. С их помощью просматривается (сканируется) информация в Интернет. В специальные справочники-индексы  заносятся данные о местонахождении  той или иной информации. В ответ  на запрос осуществляется поиск в  соответствии со строкой запроса. В  результате пользователю предлагаются те адреса (URL), на которых в момент сканирования найдены искомые слово  или группа слов. Выбрав любой из предложенных адресов-ссылок, можно  перейти к найденному документу. Большинство современных поисковых  систем являются смешанными.

Наиболее известные и  популярные системы поиска:

www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com

Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.

Поиск людей в Интернет:

www.whowhere.ru ww. bigfoot.com

Поиск по телеконференциям (Usenet):

www.dejanews.com

Предметные поисковые  системы:

www.webring.org

Поиск программного обеспечения:

www.files.com

www.files.ru

Поиск по файловым архивам:

http://ftpseach. city.ru, http://ftpsearch. licos.com

Каталоги (тематические подборки ссылок с аннотациями):

http://www.atrus.ru

www.aup.ru

Часто эффективный поиск  информации можно провести с помощью  региональных каталогов - специализированных серверов, содержащих данные о предприятиях или Web-ресурсах какого-то города или  региона. Например, для Санкт-Петербурга такой каталог располагается  по адресу http://www.spb.ru.

Список ИПС можно найти  на сайте www.monk. newmail.ru

Более подробный перечень поисковых систем и каталогов  представлен в табл. 3.2.

 

Правила выполнения запросов

 

В каждой поисковой системе  в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.

Простой запрос.

Ввести одно слово, определяющее тему поиска. Например, в поисковой  системе Rambler.ru достаточно ввести: автоматика.

Находятся документы, в которых  встречаются слова, указанные в  запросе. Распознаются все формы  слов русского языка, как правило, регистр  букв игнорируется.

В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может  быть подставлена любая буква, а  знаком "*" - последовательность символов.

Например, запрос автомат* позволит найти документы, включающие слова  автоматический, автоматика и т.д.

Сложный запрос.

Часто возникает необходимость  комбинирования ключевых слов для получения  более определенной информации. В  этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные  скобками.

Например, запрос музыка & (beatles | битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.

В табл.3.1 приведены правила  формирования запросов, принятые в  системе Апорт (http://www.aport.ru).

 

Таблица 3.1

Операторы для формирования запросов

Оператор

Синонимы

Комментарий

И

AND &

По запросу будут найдены  документы, содержащие оба ключевых слова. Его можно и не писать. Например, запрос: информатика и учебник  эквивалентен информатика учебник

ИЛИ

OR |

Производится поиск тех документов, в которых используется любое  из указанных слов или оба слова  одновременно

НЕ

NOT - ~

Поиск ограничивается документами, не содержащими слово, указанное после  оператора

" "

' '

Двойные или одинарные кавычки  позволяют находить словосочетание

Дата=

дата:

date=

Поиск ограничивается документами, попадающими  в заданный интервал дат.

Пример 1. валюта дата=01/02/2002-01/03/2002. По этому запросу будут выданы документы, содержащие слово "валюта" и имеющие  дату от 1 февраля 2002 г. до 1 марта 2002 г.

Пример 2. date=01/03/2002 валюта

Пример 3. дата: <02/03/2002 валюта


 

Таблица 3.2

Список поисковых серверов и каталогов

Адрес

Описание

www.excite.com

Поисковый сервер с обзорами узлов  и путеводителями

www.alta-vista.com

Поисковый сервер, имеются возможности  расширенного поиска

www.hotbot.com

Поисковый сервер

www.poland.net www.israil.net

Региональные поисковые серверы  Польши, Израиля

www.ifoseek.com

Поисковый сервер (простой в использовании)

www.ipl.org

Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня" /на англ. яз./

www.wisewire.com

WiseWire - организация поиска с применением искусственного интеллекта /домен не работает/

www.webcrawler.com

WebCrawler - поисковый сервер, прост в обращении

www.yahoo.com

КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista

www.aport.ru

Апорт - русскоязычный поисковый  сервер

www.yandex.ru

Яндекс - русскоязычный поисковый сервер

www.rambler.ru

Рамблер - русскоязычный поисковый сервер

Справочные ресурсы Интернет

www.yellow.com

Желтые страницы Интернет

monk. newmail.ru

Поисковые системы различного профиля

www.top200.ru

200 лучшихWeb-сайтов

www.allru.net

Каталог русских ресурсов Интернет

www.ru

Каталог русских ресурсов Интернет

www.allru.net/z09. htm

Образовательные ресурсы

www.students.ru

Сервер российского студенчества

www.cdo.ru/index_new. asp

Центр дистанционного обучения

www.open. ac. uk

Открытый университет Великобритании

www.ntu.edu

Национальный университет США

www.translate.ru

Электронный переводчик текстов

www.pomorsu.ru/guide. library.html

Список ссылок на сетевые библиотеки

www.elibrary.ru

Научная электронная библиотека

www.citforum.ru

Электронная библиотека

www.infamed.com/psy

Психологические тесты

www.pokoleniye.ru

Web-сайт Федерации Интернет образования

www.metod. narod.ru

Образовательные ресурсы

www.spb. osi.ru/ic/distant

Дистанционное обучение в Интернет

www.examen.ru

Экзамены и тесты

www.kbsu.ru/~book/

Учебник информатики

Mega. km.ru

Энциклопедии и словари


Поиск информации в Интернете: подводные  камни

 

Проблемы, не лежащие на поверхности, нередко дают о себе знать лишь "задним числом", после того как  определенный этап поисковых работ  завершен и, возможно, исходя из его  результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой  системы (ИПС)? Ответ довольно прост: отсутствие исчерпывающей информации подобного рода со стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко  удается встретить в Сети поисковую  систему, которая не обладала бы некоторыми "недокументированными" особенностями. Казалось бы - пользователю необходимо не так уж много сведений, а именно:

как происходит наполнение базы данных ИПС и каков ее объем;

полный спектр возможностей поискового языка системы;

основные особенности  представления результатов поиска, прежде всего алгоритма ранжирования записей из списка отклика на поисковый  запрос.

Увы, источником подобной информации обычно является не документ, доступный  с головной страницы поискового сервера, а разбросанные по Сети, книгам и  компьютерным журналам публикации отдельных  авторов. К причинам такого положения  дел, по-видимому, можно отнести не только небрежность разработчика, но и фактор, именуемый маркетинговой  политикой. Проще говоря, предоставление поисковой системой наиболее полной информации о самой себе не всегда положительно сказывается на ее рейтинге. Тем не менее, взять ситуацию под  контроль в ряде случаев пользователю оказывается вполне по силам. Выяснить особенности работы избранного поискового сервиса часто удается с помощью  тестирования. Построение специальных  тестовых запросов, быстро проясняющих  именно тот аспект работы системы, который наиболее важен для текущей задачи, во многих случаях оказывается нетривиальным. Тому, как избежать некоторых неприятностей при работе с ИПС, мы и посвятим наше обсуждение. В качестве примеров, иллюстрирующих изложение, будут рассмотрены широко известные поисковые системы Интернета.

Любая поисковая машина или  каталог регламентирует свою работу по сбору данных из Сети. Очевидно, что  формирование поискового образа информационного  объекта, или, другими словами, его "отражения" в "зеркале" поисковой системы, неизбежно связано с некоторыми искажениями. По сути, главным при  этом становится вопрос о том алгоритме, на основе которого создается поисковый  образ. Объектом-оригиналом при этом может стать как Web-страница, так  и файл "закрытого" формата, который  не доступен для проникновения сканирующих  программ ИПС, например видео - или аудиозапись. Определенный шаблон обычно используется и при построении поискового образа для физического или юридического лица в момент его регистрации  в поисковой службе. Отсечение, фильтрация информации от оригинала свойственны  всем без исключения ИПС, в том  числе и полнотекстовым системам глобального охвата и самого общего назначения.

Фильтрация может регламентироваться как на техническом, так и на лингвистическом  уровне, однако задача у нее одна - при минимальных материальных затратах добиться реальной эффективности поиска.

В связи с этим на практике часто возникает вопрос - что становится причиной неудачного поиска: высокая  ли вероятность отсутствия в Сети на данный момент времени информации, релевантной запросу, или то, что  эта информация потенциально не доступна для рассматриваемой поисковой  системы. "Подводным камнем" этот аспект становится, когда получен  ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается  неконтролируемой. Некоторый свет на особенности работы глобальных ИПС  проливает сравнительный анализ их возможностей, который был приведен в прошлой публикации. Однако, если детали алгоритма фильтрации не известны, наиболее чувствительные потери данных возникают именно при использовании  специализированных поисковых служб.

Рассмотрим несколько  примеров. Немало специализированных систем имеет собственный интерфейс  для ввода поисковых запросов. Тем не менее можно считать  веянием времени ситуацию, когда  многие подобные сервисы интегрируются  в шаблоны глобальных ИПС в  виде фильтров. Такими возможностями  всегда отличался HotBot; недавно соответствующие элементы были внедрены на AltaVista; есть они и на Еxcite. Постоянно расширяется набор фильтров поисковой системы Lycos (см. рис.1), на которой мы остановимся подробнее.

Представьте себя на месте  пользователя, впервые посетившего  такую известную глобальную поисковую  систему, как Lycos, с целью найти в Сети сведения о некоем книжном издании. Введя соответствующие ключевые слова и выбрав фильтр Books, он получает отклик, который, при отсутствии дополнительной информации, нельзя расценить иначе, как получение данных о книгах, собранных по всему Интернету. Интересно было бы задать вопрос, а может ли в масштабе Сети автоматически вестись отбор подобных сведений? Если говорить только о пространстве WWW, то в большинстве случаев программы-пауки, сканирующие Сеть, используют для распознавания типа данных специальные элементы языка HTML, с помощью которых в Web-страницу внедряются определенные информационные блоки. Название элемента может нести смысловую нагрузку и отождествляться с типом информации. Так, если бы гипотетически существовал элемент HTML book, заключающий в себе сведения о книге и ее авторе, он мог бы размещаться на странице и в простейшем случае иметь следующий вид:

<book>Название книги и автор</book>

(сами элементы <book> в окне браузера не должны отображаться) При этом вся информация о книгах, публикуемая в WWW подобным образом, могла бы благополучно и без участия человека накапливаться в базе данных ИПС. Но элемента book в стандарте HTML пока не существует. Следовательно, приходится прибегать либо к "ручному" отбору, либо к автоматическому просмотру некоторых, заданных наперед каталогов отдельных узлов, возможно, имеющих отношение к продаже книжной продукции или к библиотекам.

Информация о работе Поисковые системы Интернет