Автор работы: Пользователь скрыл имя, 18 Марта 2013 в 14:38, реферат
В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.
Общие сведения.
В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.
Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.
Пример 1.
www.1tv.ru - сервер Первого телевизионного канала.
Конструирование адреса пользователем. Зная систему формирования адреса в Интернет, можно при поискеWeb-сайтов конструировать адреса.
К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.
Пример 2.
Адреса коммерческих Web-страниц:
www.cnn.com (всемирные новости CNN),
www.sony.com (фирма SONY),
www.mtv.com (музыкальные новости MTV).
Пример 3.
Адреса учебных заведений:
www.ntu.edu (Национальный университет США).
Пример 4.
Адреса региональных серверов:
www.poland.net (Польша),
www.israil.net (Израиль).
Для поиска информации в Интернет
разработаны специальные
По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.
Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).
Словарные поисковые системы
- это мощные автоматические программно-аппаратные
комплексы. С их помощью просматривается
(сканируется) информация в Интернет.
В специальные справочники-
Наиболее известные и популярные системы поиска:
www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com
Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.
Поиск людей в Интернет:
www.whowhere.ru ww. bigfoot.com
Поиск по телеконференциям (Usenet):
www.dejanews.com
Предметные поисковые системы:
www.webring.org
Поиск программного обеспечения:
www.files.com
www.files.ru
Поиск по файловым архивам:
http://ftpseach. city.ru, http://ftpsearch. licos.com
Каталоги (тематические подборки ссылок с аннотациями):
http://www.atrus.ru
www.aup.ru
Часто эффективный поиск информации можно провести с помощью региональных каталогов - специализированных серверов, содержащих данные о предприятиях или Web-ресурсах какого-то города или региона. Например, для Санкт-Петербурга такой каталог располагается по адресу http://www.spb.ru.
Список ИПС можно найти на сайте www.monk. newmail.ru
Более подробный перечень поисковых систем и каталогов представлен в табл. 3.2.
В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.
Простой запрос.
Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.
Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.
В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.
Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.
Сложный запрос.
Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.
Например, запрос музыка & (beatles | битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.
В табл.3.1 приведены правила формирования запросов, принятые в системе Апорт (http://www.aport.ru).
Таблица 3.1
Операторы для формирования запросов
Оператор |
Синонимы |
Комментарий |
И |
AND & |
По запросу будут найдены документы, содержащие оба ключевых слова. Его можно и не писать. Например, запрос: информатика и учебник эквивалентен информатика учебник |
ИЛИ |
OR | |
Производится поиск тех |
НЕ |
NOT - ~ |
Поиск ограничивается документами, не содержащими слово, указанное после оператора |
" " |
' ' |
Двойные или одинарные кавычки позволяют находить словосочетание |
Дата= |
дата: date= |
Поиск ограничивается документами, попадающими в заданный интервал дат. Пример 1. валюта дата=01/02/2002-01/03/2002. По этому запросу будут выданы документы, содержащие слово "валюта" и имеющие дату от 1 февраля 2002 г. до 1 марта 2002 г. Пример 2. date=01/03/2002 валюта Пример 3. дата: <02/03/2002 валюта |
Таблица 3.2
Список поисковых серверов и каталогов
Адрес |
Описание |
www.excite.com |
Поисковый сервер с обзорами узлов и путеводителями |
www.alta-vista.com |
Поисковый сервер, имеются возможности расширенного поиска |
www.hotbot.com |
Поисковый сервер |
www.poland.net www.israil.net |
Региональные поисковые |
www.ifoseek.com |
Поисковый сервер (простой в использовании) |
www.ipl.org |
Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня" /на англ. яз./ |
www.wisewire.com |
WiseWire - организация поиска с применением искусственного интеллекта /домен не работает/ |
www.webcrawler.com |
WebCrawler - поисковый сервер, прост в обращении |
www.yahoo.com |
КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista |
www.aport.ru |
Апорт - русскоязычный поисковый сервер |
www.yandex.ru |
Яндекс - русскоязычный поисковый сервер |
www.rambler.ru |
Рамблер - русскоязычный поисковый сервер |
Справочные ресурсы Интернет | |
www.yellow.com |
Желтые страницы Интернет |
monk. newmail.ru |
Поисковые системы различного профиля |
www.top200.ru |
200 лучшихWeb-сайтов |
www.allru.net |
Каталог русских ресурсов Интернет |
www.ru |
Каталог русских ресурсов Интернет |
www.allru.net/z09. htm |
Образовательные ресурсы |
www.students.ru |
Сервер российского |
www.cdo.ru/index_new. asp |
Центр дистанционного обучения |
www.open. ac. uk |
Открытый университет |
www.ntu.edu |
Национальный университет США |
www.translate.ru |
Электронный переводчик текстов |
www.pomorsu.ru/guide. library.html |
Список ссылок на сетевые библиотеки |
www.elibrary.ru |
Научная электронная библиотека |
www.citforum.ru |
Электронная библиотека |
www.infamed.com/psy |
Психологические тесты |
www.pokoleniye.ru |
Web-сайт Федерации Интернет |
www.metod. narod.ru |
Образовательные ресурсы |
www.spb. osi.ru/ic/distant |
Дистанционное обучение в Интернет |
www.examen.ru |
Экзамены и тесты |
www.kbsu.ru/~book/ |
Учебник информатики |
Mega. km.ru |
Энциклопедии и словари |
Проблемы, не лежащие на поверхности,
нередко дают о себе знать лишь
"задним числом", после того как
определенный этап поисковых работ
завершен и, возможно, исходя из его
результатов уже принято какое-
как происходит наполнение базы данных ИПС и каков ее объем;
полный спектр возможностей поискового языка системы;
основные особенности
представления результатов
Увы, источником подобной информации
обычно является не документ, доступный
с головной страницы поискового сервера,
а разбросанные по Сети, книгам и
компьютерным журналам публикации отдельных
авторов. К причинам такого положения
дел, по-видимому, можно отнести не
только небрежность разработчика, но
и фактор, именуемый маркетинговой
политикой. Проще говоря, предоставление
поисковой системой наиболее полной
информации о самой себе не всегда
положительно сказывается на ее рейтинге.
Тем не менее, взять ситуацию под
контроль в ряде случаев пользователю
оказывается вполне по силам. Выяснить
особенности работы избранного поискового
сервиса часто удается с
Любая поисковая машина или
каталог регламентирует свою работу
по сбору данных из Сети. Очевидно, что
формирование поискового образа информационного
объекта, или, другими словами, его "отражения"
в "зеркале" поисковой системы,
неизбежно связано с некоторыми
искажениями. По сути, главным при
этом становится вопрос о том алгоритме,
на основе которого создается поисковый
образ. Объектом-оригиналом при этом
может стать как Web-страница, так
и файл "закрытого" формата, который
не доступен для проникновения сканирующих
программ ИПС, например видео - или аудиозапись.
Определенный шаблон обычно используется
и при построении поискового образа
для физического или
Фильтрация может
В связи с этим на практике часто возникает вопрос - что становится причиной неудачного поиска: высокая ли вероятность отсутствия в Сети на данный момент времени информации, релевантной запросу, или то, что эта информация потенциально не доступна для рассматриваемой поисковой системы. "Подводным камнем" этот аспект становится, когда получен ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается неконтролируемой. Некоторый свет на особенности работы глобальных ИПС проливает сравнительный анализ их возможностей, который был приведен в прошлой публикации. Однако, если детали алгоритма фильтрации не известны, наиболее чувствительные потери данных возникают именно при использовании специализированных поисковых служб.
Рассмотрим несколько примеров. Немало специализированных систем имеет собственный интерфейс для ввода поисковых запросов. Тем не менее можно считать веянием времени ситуацию, когда многие подобные сервисы интегрируются в шаблоны глобальных ИПС в виде фильтров. Такими возможностями всегда отличался HotBot; недавно соответствующие элементы были внедрены на AltaVista; есть они и на Еxcite. Постоянно расширяется набор фильтров поисковой системы Lycos (см. рис.1), на которой мы остановимся подробнее.
Представьте себя на месте пользователя, впервые посетившего такую известную глобальную поисковую систему, как Lycos, с целью найти в Сети сведения о некоем книжном издании. Введя соответствующие ключевые слова и выбрав фильтр Books, он получает отклик, который, при отсутствии дополнительной информации, нельзя расценить иначе, как получение данных о книгах, собранных по всему Интернету. Интересно было бы задать вопрос, а может ли в масштабе Сети автоматически вестись отбор подобных сведений? Если говорить только о пространстве WWW, то в большинстве случаев программы-пауки, сканирующие Сеть, используют для распознавания типа данных специальные элементы языка HTML, с помощью которых в Web-страницу внедряются определенные информационные блоки. Название элемента может нести смысловую нагрузку и отождествляться с типом информации. Так, если бы гипотетически существовал элемент HTML book, заключающий в себе сведения о книге и ее авторе, он мог бы размещаться на странице и в простейшем случае иметь следующий вид:
<book>Название книги и автор</book>
(сами элементы <book> в окне браузера не должны отображаться) При этом вся информация о книгах, публикуемая в WWW подобным образом, могла бы благополучно и без участия человека накапливаться в базе данных ИПС. Но элемента book в стандарте HTML пока не существует. Следовательно, приходится прибегать либо к "ручному" отбору, либо к автоматическому просмотру некоторых, заданных наперед каталогов отдельных узлов, возможно, имеющих отношение к продаже книжной продукции или к библиотекам.