Использование поисковых серверов

Автор работы: Пользователь скрыл имя, 12 Сентября 2013 в 13:44, реферат

Краткое описание

Современный интернет представляет уникальное безграничное хранилище знаний, где можно получить ответ практически на любой вопрос. Фактически, здесь собранно все лучше, что изобретено и создано человечеством как за всю его длинную историю, а также новинки, которые появились только что.

Вложенные файлы: 1 файл

часть 2.docx

— 1.11 Мб (Скачать файл)

При перегляде содержания сервера для индексирования Апорт  обязательно проверяет файл ROBOTS.TXT. Следовательно, можно его использовать, чтобы ограничить 'деятельность' Апорта на своем сервере. Апорт по умолчанию не индексирует динамические документы, в адресах которых встречается символ '?'.

Для документов HTML, кроме  основного текста документа индексируются  также: заглавие документа "TITLE", ключевые слова "KEYWORDS", описания страниц "DESCRIPTION" и подписи, к картинкам "ALT". Апорт предлагает несколько вариантов направленной рекламы http://www.aport.ru/adv, однако нет возможности купить высшие места для своего сайта в результатах поиска.

Ключевые слова не имеют  определяющего значения при определении  релевантности документа. Но умное использование этого тэга рекомендуется.

В отличие от многих других поисковых систем, Апорт не применяет  специальные санкции к сайтам, которые пытаются обмануть поисковую  систему с помощью спама, но достичь  подобным чином желаемого результата не выйдет. Поэтому не стоит писать невидимые тексты, набирать сотни ключевых слов, которые не имеют ни одного отношения к содержанию документа и так далее

Вот перечень основных критериев, которые Апорт учитывает при  сортировке сайтов:

  • плотность ключевых слов, расстояние между ключевыми словами в тексте документа;
  • место, где встречаются поисковые слова (заглавие, описание, цель-тэг, и тому подобное);
  • внешний вид шрифта, которым набраны ключевые слова (размер, грубость, цвет);
  • количество ссылок из Интернета на данный документ;
  • использование ключевого слова в тексте ссылок из Интернета на данный документ.

Окончательный процент соответствия документа к запросу строится, как определена функция от всех этих показателей.

ИЗ ЧЕГО НУЖНО НАЧИНАТЬ ПОИСК?

Во-первых, определиться с  целью поиска. При этом нужно концентрироваться  не только на самой цели, но и на том, которое может ее сопровождать.

В идеале процесс поиска должен выглядеть приблизительно так. Сначала делается общий запрос, получается ответ с результатами поиска, в котором нужно выделить описания более подходящих ссылок. Потом необходимо прибавить к запросу общие ключевые слова, которые есть в описании нужных ссылок, и повторить процесс. Если все делать правильно, то каждый запрос должен приближать к нужной информации. Пользователь должен быть своеобразной обратной связью, с каждым шагом, уменьшая несоответствие между нужной информацией и тем, что выдает поисковая система.

Рассмотрим небольшой  пример - необходимо найти расписание влечений, что проходят через Киев. Как общий запрос можно, так и попробовать "спросить" поисковую систему: расписание всех поездов, что проходят через Киев. Однако, по такому запросу, например, Яндекс, находит лишь расписания влечений, которые проходят через Львов, Тернополь, но Киева среди результатов поиска не видно. Это ни в коем случае не значит, что этой информации в базе поисковой системы нет, просто запрос был сформулирован не очень удачно.

Дело в том, что любая  поисковая система стремится  найти страницы, на которых находится  максимальное количество слов из запроса, более того, если эти слова следуют  друг за другом, то такие страницы будут  выведены первыми. То есть, например, если в тексте страницы встречается фраза расписание всех поездов, которые проходят через Львов, то при отсутствии такой же фразы ( расписание всех влечений, которые проходят через Киев), система определит, что они имеют 5 общих слов, то есть с большой вероятностью страница, которая содержит эту фразу подойдет, хотя это и не так. Поэтому нужно такой запрос скорректировать, убрав все слова-паразиты, и оставив лишь слова, которые точно характеризуют вашу потребность. Словами-паразитами являются слова всех, что проходят, через, которые могут встречаться на каких угодно страницах. Задав скорректированный запрос расписание поездов Киев, результат, будет лучшим.

В настоящий момент, в конце концов, именно так поступают подавляющее большинство пользователей, однако, для того, чтобы научиться быстро и эффективно находить нужную информацию, просто скорректировать запрос в большинстве случаев недостаточно. Необходимо еще ознакомиться с несколькими очень полезными, а иногда просто незаменимыми операторами языка запросов поисковой системы. Эти операторы не только существенно облегчат работу, но и помогут находить такую информацию, которую с помощью простых запросов найти абсолютно невозможно.

Что такое операторы поисковой  системы и для чего они нужны? Операторы позволяют не только точнее сформулировать запрос, но и выбирать, на каких страницах осуществлять поиск и даже в каких их элементах, например, заглавиях, ключевых словах или ссылках. Рассмотрим операторы, которые являются  общими для  всех поисковых систем.

Первый оператор - оператор строгого соответствия, как правило, в современных поисковых системах это кавычки "". Сочетания слов, которые указаны в кавычках, будут учтены системой как единственное целое,  а также задается порядок прохождения слов друг за другом. Например, по запросу компьютерные журналы можно получить в результатах поиска страницы со словами, которые вспоминаются обособленно. Т.е. на одной странице может быть слово компьютерные, на другой - журналы и так далее Конструкция "компьютерные журналы" в кавычках принуждает поисковую систему отбросить все лишние страницы и показывать лишь те, на которых эти два слова идут друг за другом.

Следующие важные операторы - оператор обязательного наличия слова "+" и оператор обязательного отсутствия слова "-".  Например, если нужно найти сайт журнала ЧИП, достаточно к запросу "компьютерные журналы" прибавить + чип: "компьютерные журналы" +чип. Если же нужно вывести все журналы, кроме Чипа, нужно ввести "компьютерные журналы" - чип.

Используя эти три простых  оператора, уже можно существенно  сократить расходы на время поиска информации.

Часто есть потребность, чтобы  искомые ключевые слова присутствовали в пределах одного документа. Для этого необходимо использовать оператор логического И (AND). Однако во всех поисковых системах это можно сделать, если поставить обычный пропуск. Например, запить компьютерные журналы и компьютерные AND журналы, как правило, предоставят одинаковый результат. Оператор логического ИЛИ (OR), позволяет найти хотя бы одно слово из запроса. Например, с помощью запроса компьютерные OR журналы можно найти документы, в которых встречается или слово компьютерные, или слово, журналы.

С языками запросов конкретной поисковой системы можно ознакомиться в ее разделе помощи. Много из них имеют собственные дополнительные операторы.

ПРЕДСТАВЛЕНИЕ ИСКОМОГО ДОКУМЕНТА КАК ОБИДУ

Поиск можно существенно  упростить, представив себе образ страницы, которая содержит нужную информацию. Существуют общепринятые правила, которых  придерживают практически все страницы Интернет. Основное и главное правило: заглавие каждой страницы сжато и точно характеризует ее содержание. Отыскать, например, определенную книгу в электронном виде очень просто. Конечно, можно попробовать ее найти, если задать в поисковой системе фамилию автора и назову и в конечном итоге найти ее, но тогда тратится много времени на перегляд абсолютно бесполезных страниц с упоминанием данной книги или автора, но без ее электронной копии.

На помощь здесь снова  приходят расширенные возможности  поиска, используя которые, можно  отыскивать нужную информацию прямо  в заглавиях страниц.

Простой пример - нужно найти, допустимо, книгу Паоло Коеле "Алхимик". Сначала составляем образ нужной страницы - скорее всего, в ее заглавии могут находиться и фамилия автора, и название произведения. Дальше нужно выяснить, как включить расширенные возможности поиска по заглавию в поисковой системе. Например, в Яндекс для поиска по заглавиям нужно использовать конструкцию $title(), таким образом, запрос может выглядеть как: $title (коеле "алхимик"). Результат превосходит все ожидания - первые 7 ссылок, которые вывел Яндекс в результатах поиска, содержат нужные данные.

Искать так же можно  не только книги, а все, что угодно. Еще один реален пример - нужно найти, скажем, результат финала футбольного  матча кубка Испании между  Реалом и Депортиво. Для того чтобы убедиться в правильности вышеизложенных принципов, в этот раз используем другую поисковую систему, популярную Google. Для поиска по заглавиям у нее используется другая конструкция - allintitle. Создаем образ нужной страницы - достоверно, в заглавии новости должна быть присутствует фраза "кубок Испании" и названия команд, которые принимают участие, например, мадридский реал в кубке Испании. В данном случае запрос может выглядеть приблизительно так: allintitle: реал "кубок Испании". Если задать что-то вроде allintitle: реал депортиво "кубок Испании" и поисковая система показала, что страниц, которые бы удовлетворяли этому запросу, нет, оператор allintitle можно не применять и поискать во всем тексте: реал депортиво "кубок Испании". Результат в обоих случаях поражает - найдена одна и та же нужна страница.

Но не только заглавия полезны  при поиске нужной информации. Большую помощь оказывает и текст из ссылок. Любой сайт содержит определенные ссылки, которые ведут на его страницы или страницы других сайтов. Каждое такую ссылку имеет собственное описание, по значению соизмеримое, а часто и более информативное, чем заглавие самой страницы, на которую она ведет. Ведь и в текстах ссылок тоже можно искать, да еще как!

Следовательно, что же предоставляет  текст из ссылок? Например, нужно найти в Интернете определенный файл, например, выкачать последнюю версию универсального музыкального проигрывателя winamp. Создадим образ страницы. Поскольку программа эта известна, то, вероятно, существует много сайтов, на которых есть ссылка на страницу, где можно выкачать последнюю версию winamp. Если попробовать поискать в тексте этих ссылок, скорее всего одной из первых в результатах поиска появится нужная нам страница, поскольку остальные все ссылки ведут именно к ней. Для поиска в описаниях ссылок в Google используется оператор allinanchor, следовательно, запрос можно сформулировать приблизительно так: allinanchor:  winamp download. Для того чтобы удостовериться в верности приведенного, можно вместо winamp поставить другую программу - если в Сети на нее есть хоть одна ссылка, система выведет ее первой.

 


Информация о работе Использование поисковых серверов