Автор работы: Пользователь скрыл имя, 13 Октября 2014 в 18:52, курсовая работа
Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство".
Введение………………………………………………………………………………..
1.Классификация поисковых систем ………………………………………………....
2.Приемы поиска…………………………………………………………….................
2.1.Простой поиск…………………………………………………………………..…..
2.2.Расширенный поиск………………………………………………………………..
3.Тематический каталог Yahoo.…………………………………………………….…
4.Автоматический индекс Alta Vista………………………………………………….
5.Поиск информации в конференциях (Usenet)………………………………………
6.Отечественные поисковые службы …………………………………………….…..
6.1.Rambler………………………………………………………………………...……
6.2. Яндекс……………………………………………………………………………….
7.Поиск файлов ………………………………………………………………….……..
8.Источники специализированной информации ……………………………….……
9.Поиск отдельных людей в сети Internet ………………………………………..…...
10. Метапоиск……………………………………………………………………….…..
11.Эффективный поиск информации………………………………………………...
Заключение………………………………………………………………………….….
Список литература………………………………………………………………..…….
Например, чтобы не пропустить документ, в который входит фраза "В геометрической оптике световой луч...", поисковая система может приведенный выше запрос свести (нормализовать) к виду
+свет+оптик*-волн* (1)
Здесь символом звездочка (*) обозначены любые комбинации символов после корня соответствующих слов.
Поскольку не все ПС проводят такую первоначальную обработку запроса клиента, целесообразно самим задавать запрос в форме (1), то есть использовать символ "звездочка" для указания возможных вариаций окончаний ключевых слов.
Необходимо иметь в виду некоторое различие при использовании больших (прописных) и малых (строчных) букв в ключевых словах. Обычно поиск по маленьким буквам учитывает совпадения и когда в тексте стоит большая буква, и когда маленькая. Написание же ключевых слов большими буквами означает поиск документов, содержащих слово именно в таком виде.
Очень полезным может быть поиск ключевых слов только в заголовках Web-страниц, поскольку важность заголовка документа обычно больше важности его текста. В разных ПС поиск ключевых слов лишь в заголовках Web-страниц, задается с помощью разных служебных слов: в AltaVista это слово title:, в Yahoo! — t: в Rambler — $ title:, и т. д.
2.2. Расширенный поиск
Приемы простого поиска не всегда позволяют с достаточной эффективностью найти требуемые нам Web-документы, в связи с чем поисковые системы предоставляют клиенту возможность использовать средства так называемого расширенного (advanced) поиска. Запросы для расширенного поиска строятся из ключевых слов, связанных знаками логических операций, и имеют вид аналогичный булевским выражениям, используемым в языках программирования.
При этом кроме стандартных логических операций OR ("или"), AND ("и") и NOT (отрицание) используется, (и является очень эффективной!) операция NEAR, определяющая степень близости друг к другу ключевых слов в Web-документе.
При выполнении сложных запросов важно понимать, в каком порядке выполняются приведенные выше операции, то есть каков их приоритет. В последовательности OR, AND, NOT, NEAR приоритет операций возрастает слева направо. Порядок выполнения отдельных элементов сложного запроса можно изменить с помощью круглых скобок, как это принято при записи булевских выражений в программировании.
В отличие от средств простого поиска, средства расширенного поиска го-раздо более стандартизованы для разных поисковых систем. Большим преимуществом расширенного поиска является также гибкость предлагаемых клиенту возможностей построения запроса, а существенным недостатком — значительно более медленная его работа по сравнению с простым поиском.
OR (операция "или") выполняет
ту же самую функцию, что и
знак пробела в запросах
bush OR modes
приводит к поиску документов, в которых есть или слово bush, или слово modes, или оба эти слова одновременно.
AND (операция "и")приводит к нахождению документов, в которых обязательно встречаются оба связанных этой операцией слова, но при этом они могут находиться на любом расстоянии друг от друга. В результате может оказаться, что в документе нет какой-либо логической связи между двумя заданными ключевыми словами. Например, в ответ на запрос
bush AND modes
поисковая система AltaVista выдает ссылки не только на соответствующие научные работы по нелинейной динамике, но и на отдельные главы известного фантастического романа Г. Уэльса "Борьба миров", которые, разумеется, не имеют никакого отношения к предмету поиска.
NOT — операция отрицания,
позволяющая исключить те Web-
NEAR (логическая операция,
указывающая степень близости
друг к другу ключевых слов)
является одной из самых
Запрос вида bush NEAR modes приведет к поиску документов, в которых два указанных ключевых слова стоят достаточно близко друг к другу, и стало быть, скорее всего связаны по смыслу. Например, в тексте Web-страницы может быть фраза: "Bushes of normal modes..".
Запрос Жорес NEAR Алферов приведет к поиску документов, в которых есть словосочетания Жорес Иванович Алферов, Алферов Жорес Иванович и т. д. Заметим, что при использовании операции NEAR порядок следования ключевых слов в документе указать невозможно, что, впрочем, является скорее не недостатком, а преимуществом, и это хорошо видно из только что приведенного запроса.
Как уже было сказано, с помощью вышеописанных логических операций можно задавать запрос на поиск в виде сложного логического выражения.
Несмотря на существование некоторых общих принципов организации поиска Web-документов, различные ПС могут весьма сильно отличаться друг от друга по предоставляемым клиенту возможностям, по внешнему виду своих заглавных страниц и т. д., в силу чего знакомиться с ними желательно при непосредственной работе в сети Internet.
В качестве примера ниже приведено очень краткое, схематическое описание двух наиболее популярных в настоящее время ПС Yahoo (тематический каталог) и AltaVista (автоматический индекс).
3. Тематический каталог Yahoo
Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Вызов поисковой системы Yahoo можно осуществить с помощью адреса http://www.yahoo.com.
Заметим, что броузеры обычно допускают возможность не полного набора адреса. Например, в для вызова Yahoo можно набрать в поле адреса только слово Yahoo, а остальная часть адреса дописывается броузером автоматически.
Заглавная страница Yahoo предоставляет клиенту возможность обращаться к двум основным методам работы с этой поисковой системой — к поиску Web-документов по ключевым словам, поле набора которых находится слева от кнопки "Search" ("Поиск"), и к поиску с помощью иерархического дерева различных разделов (категорий), расположенного ниже.
Заметим, что и в том, и в другом случае поиск ссылки на нужный Web-документ происходит в одной и той же базе данных, но разными способами.
Открыв интересующий раздел тематического каталога щелчком мыши по его названию, увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д.
На заглавной странице Yahoo можно увидеть также рекламные объявления, различные дополнительные категории, например, новости, которые содержат, в частности, информацию о погоде и т. д.
Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д.
На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами ключевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания.
Поисковая система Yahoo ищет ссылки на документы, соответствующие запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее число раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий.
В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Web-пространства.
4. Автоматический индекс Alta Vista
Вызов этой поисковой системы можно осуществить по адресу: http://altavista.digital.com (для многих броузеров достаточно при этом набрать только слово altavista).
Alta Vista имеет одну из самых больших баз данных в классе автоматических индексов, и самые мощные и гибкие правила построения запросов. При этом Alta Vista имеет как систему простого поиска (simple search), так и систему расширенного поиска (advanced search), кнопка которой находится ниже поля ввода ключевых слов.
Предусмотрена возможность поиска информации и с помощью каталога категорий, устроенном аналогично каталогу системы Yahoo, причем, поиск по ключевым словам можно осуществить лишь в рамках определенной категории.
Поиск Web-документов по ключевым словам можно осуществлять в базе данных для WWW-страниц или в базе данных телеконференций (Usenet). Для выбора одной из этих баз данных — содержимого WWW или Usenet — служит выпадающий список, который можно вызвать с помощью кнопки, находящейся под панелью заголовка этой системы, на ее заглавной странице.
При использовании простого поиска системы Alta Vista необходимо учитывать его отличия от соответствующего средства ПС Yahoo. Действительно, по умолчанию Alta Vista, в отличие от Yahoo, ищет вхождения целых слов: заказанный термин должен стоять в Web-документе обособленно, а не быть частью других цепочек символов. Если же необходимо найти все вхождения данного ключевого слова, даже когда оно является частью других слов, необходимо использовать символ * (этот символ может стоять только в конце ключевого слова и заменять не более пяти букв). Например, запрос вида Ада* приведет к нахождению документов, в которых есть слова “Ада”, ”Адам”, ”Адажио” и т. д.
Поисковая система Alta Vista, как и большинство других поисковых систем, предлагает клиенту и ряд дополнительных возможностей, в частности, позволяет находить лишь те Web-документы, в которых заданные ключевые слова встречаются только в гипертекстовых ссылках, заголовках документов, в их URL-адресах (что дает возможность находить все Web-страницы, расположенные на сервере с данным адресом) и т. д. Для этого в Alta Vista используются специальные команды: Anchor, title и т. д. Такие возможности можно использовать как порознь, так и вместе друг с другом.
Бланк для расширенного поиска (advanced search) отличается от бланка простого запроса наличием двух полей. Второе из них — Results Ranking Criteria — полностью аналогично полю ввода бланка простого поиска, и в нем можно использовать те же специальные выражения, кавычки и знаки +, -, *. Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов: документы, содержащие ключевые слова из поля Ranking будут стоять в списке первыми.
Ключевые же слова для собственно поиска должны вводиться в первом из полей — Selection Criteria. Запросы в этом поле строятся по описанным нами ранее правилам с использованием операций NEAR, NOT, AND, OR. Кроме того, внизу бланка поиска находится поле для ввода дат, позволяющих задать промежуток времени, в который были созданы или изменены интересующие нас документы.
Об особенностях поиска в Alta Vista документов на русском языке заметим, что искать документы по русским ключевым словам в каталоге Yahoo смысла не имеет, поскольку сотрудники этой службы на русском языке не говорят.
5. Поиск информации в конференциях (Usenet)
WWW-страницы являются самым масштабным и ценным, но не единствен-ным источником информации в Internet. Большой интерес представляет система телеконференций Usenet, в которой каждый день публикуется более 100 тысяч сообщений со всего мира.
Если клиент интересуется какой-либо определенной темой, он может просто подписаться на соответствующую группу телеконференций. Однако если он хочет не обсуждать свою проблему с живыми людьми, а просто выяснить, что известно по тому или иному вопросу, можно воспользоваться системами автоматического поиска в содержимом Usenet. Alta Vista ведет отдельный индекс по более чем 10 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель поиска из значения "the Web" в значение "Usenet" (все правила составления запроса и установки опций в обоих этих случаях одинаковы). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст любой из которых можно получить щелчком мыши по ее заголовку.
Во всем мире считается самым
лучшим сервисом для поиска информации
в конференциях Usenet сервер DejaNews (http://www.dejanews.com).
Среди русскоязычных выделяется сервер
RusNews (http://news.corvis.ru), являющийся также новостным
сервером, содержащим более 2000 новостных
групп. Также имеет место аналогичный
российский сервер ТЕЛА-поиск (http://tela.dux.ru/news.html)