Введение.
Для начала давайте разберемся с
терминологией. Индексация страницы –
это посещение страницы поисковым роботом
какой-либо поисковой системы и занесение
ее в базу данных поисковика. Поисковой
робот - это программа, встроенная в поисковую
систему как её составная часть и подчиняющаяся
алгоритмам этой поисковой системы. Кроме
того, робот подчиняется и автору или администратору
веб-сайта. Для подчинения себе робота
поисковика администратор сайта должен
грамотно написать инструкции в файле
robots.txt, который является инструкцией для
робота, какие страницы не заносить в свой
индекс и как часто посещать сайт.
Процесс индексации.
Для того чтобы сайт обнаруживался при
релевантном поисковом запросе, необходимо
сначала внести его в базу данных поисковика.
Каким же образом мы можем зарегистрировать
свой сайт в поисковой системе? Существуют
два решения этой проблемы:
- Индексация страницы через непосредственное принудительное добавление ее адреса в форму регистрации поисковой системы, но это не дает гарантий, что страница будет проиндексирована быстро. Такой вариант используется, когда страница абсолютно новая, и ее адрес еще не известен поисковым роботам. При добавлении страницы в поисковую систему достаточно указывать только основную страницу, снабдив ее внутренними ссылками на все остальные. Проводя индексацию страницы, поисковый робот найдет все остальные по ссылочному содержимому и впоследствии проиндексирует.
- Нахождение адреса страницы на уже проиндексированных ресурсах. Такой вариант индексации страницы наиболее предпочтителен, так как поисковый робот придет на Ваш сайт по ссылке с другого ресурса, на котором она расположена.
У поисковых систем есть
ряд особенностей, связанных с
индексацией ими документов в
сети. Первой особенностью можно считать
то, что кроме обратного индекса(При использовании
алгоритма обратных (инвертированных)
индексов, поисковые системы преобразовывают
документы в текстовые файлы, содержащие
список всех имеющихся в документе слов.
Слова в таких списках (индекс-файлах)
располагаются в алфавитном порядке и
рядом с каждым словом указаны в виде координат
те места в документе, где это слово встречается.
Кроме позиции в документе для каждого
слова приводятся еще и другие параметры,
определяющие его значение в документе.),
который создается из оригинального документа,
скачанного из сети, поисковая система
сохраняет еще и копию этого самого документа,
иначе говоря, кроме обратного индекса
документа, поисковики хранят еще и прямой
индекс документа, который используется
для составления сниппетов для документа.
Однако далеко не всегда
индексация сайта происходит правильно,
что в результате приводит к занижению
позиций сайта при поиске или к выпадению
из релевантного поиска вообще. Для исключения
подобной ситуации стоит помнить следующие
особенности работы поисковых роботов:
- Поисковые системы индексируют не более 100-200 кб текста на странице и не более 100-150 тысяч страниц на одном сайте.
- Использование в дизайне сайта флеш и большого количества графических элементов затрудняет индексацию, так как поисковые системы попросту не видят на страницах флеш и графику.
- В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.
- Использование динамических страниц приводит к тому, что при посещении таких страниц роботы поисковых систем выявляют одну и ту же страницу с разными идентификаторами сессий и, как следствие, определяет их как разные. Примером может послужить печатная версия страницы сайта: рано или поздно поисковая система может «склеить» эту страницу с основной, которая отображается в браузере, и в последствии в результатах выдачи будет выводится именно печатная версия, а не основная страница.
- Установка в коде страниц скриптов различного предназначения не позволит роботу проиндексировать сайт, в том числе сюда относится использование выпадающего меню сайта. Поисковый робот не читает элементы сделанные на основе скриптов, и использование их также становится преградой для качественной индексации страницы.
- Индексация страницы не будет выполнена, если размер или вес страницы менее 1кб.
- Воровство текстового содержимого (плагиат контента) с другого ресурса может привести к "склейке" страниц из-за одинакового содержимого. От этого выйграет только первый владелец, так как получит дополнительную ссылку на свой сайт.
- Редиректы затрудняют анализ сайта поисковыми роботами. Не следует использовать редиректы, если для этого нет четких причин.
- Скрытый текст, равно как и однопиксельные картинки, является приемом "серой" оптимизации сайтов и может привести к бану сайта (иключение его из баз данных поисковика).
Улучшение индексации сайта.
Как уже упоминалось, роботу
можно помочь с индексацией сайта
для более быстрой регистрации
сайта и правильного его отображения
в поиске. Для этого стоит позаботиться
о следующем:
- запрет в файле robots.txt на индексирование страниц, неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, страницы с результатами поиска, сайты-зеркала, документы на нераспространенных в рунете языках;
- создание файла Sitemap с дополнительной информацией о страницах сайта, подлежащих индексированию;
- создание карты сайта, то есть страницу или несколько страниц, которые содержат ссылки на все документы сайта;
- настройка сервера на выдачу корректных заголовков ответов (например, если страница не существует, выдавать ошибку 404, а если поступил запрос If-Modified-Since, то выдавать код 304, если страница с указанной в запросе даты не изменялась).
Более того, работой поискового
робота можно непосредственно управлять
при написании сайта при помощи ряда методов:
- Мета-теги позволяют вебмастерам указывать метаданные о странице сайта. Ряд мета-тегов также используется роботами поисковых систем (рассмотрим на примере Робота Яндкса):
- <meta name="Keywords" content="..."/> — может учитываться при определении соответствия страницы поисковым запросам,
- <meta name="Description" content="..."/> — содержание данного тега может использоваться в сниппетах (описаниях сайтов на странице результатов поиска),
- <meta http-equiv="Content-Type" content="type;
charset=..."/> — робот может учитывать этот тег при определении типа документа и его кодировки,
- <meta http-equiv="refresh" content="N;url=_адрес цели перенаправления_"/> — перенаправление (редирект) пользователя на страницу с адресом url, после N секунд нахождения на данной странице.
Также робот Яндекса учитывает
указания в тегах:
- <meta name="robots" content="all"/> — разрешено индексировать текст и ссылки на странице, аналогично <meta name="robots" content="index,
follow"/>
- <meta name="robots" content="noindex"/> — не индексировать текст страницы,
- <meta name="robots" content="nofollow"/> — не переходить по ссылкам на странице,
- <meta name="robots" content="none"/> — запрещено индексировать текст и переходить по ссылкам на странице, аналогично <meta name="robots" content="noindex,
nofollow"/>
- <meta name="robots" content="noarchive"/> — не показывать ссылку на сохраненную копию на странице результатов поиска.
- <meta name="robots" content="noyaca"/> — не использовать описание из Яндекс.Каталога для сниппета в результатах поиска.
- <meta name="robots" content="noodp"/> — не использовать описание из каталога DMOZ для сниппета в результатах поиска.
Робот не узнает о документах,
если ссылки на них стоят со страницы,
содержащей мета-тег со значением
nofollow, тем не менее, они могут быть проиндексированы,
если где-либо еще на них указаны ссылки
без nofollow.
Если мета-теги не указаны, робот
считает, что они имеют положительное
значение (index, follow, archive). Если робот обнаруживает
конфликт между тегами, выбирается именно
положительное значение.
Пример:
<meta name="robots" content="all"/>
<meta name="robots" content="noindex,
follow"/>
<!--Робот выберет значение
all, текст и ссылки будут проиндексированы.-->
Исключение — атрибут all не влияет
на noarchive:
<meta name="robots" content="all"/>
<meta name="robots" content="noarchive"/>
<!--Текст и ссылки будут проиндексированы,
но в результатах поиска не будет ссылки
на сохраненную копию страницы.-->
- Для запрета индексирования служебных участков текста вы можете использовать тег <noindex>. Тег работает аналогично мета-тегу noindex, но распространяется только на контент, заключенный внутри тега в формате:
<noindex>текст, индексирование
которого нужно запретить</noindex>
Тег noindex не чувствителен к вложенности
(может находиться в любом месте html-кода
страницы).
<!--noindex-->текст, индексирование
которого нужно запретить<!--/noindex-->
- Атрибут rel="nofollow" используется в теге <a> в формате:
<a href="url" rel="nofollow">текст
ссылки</a>
Атрибут работает аналогично
мета-тегу со значением nofollow, но распространяется
только на ссылку, для которой указан.
- Если на сайте присутствуют группы схожих по контенту страниц, вебмастер может указать для каждой страницы группы предпочитаемый (канонический) адрес, который будет участвовать в поиске. Например, страница доступна по двум адресам:
www.examplesite.ru/pages?id=2
www.examplesite.ru/blog
Если предпочитаемый адрес —
/blog, это нужно отразить в коде страницы
/pages?id=2:
<link rel="canonical" href="http://www.examplesite.ru/blog"/>
Робот считает ссылку с атрибутом
rel="canonical" не строгой директивой,
а предлагаемым вариантом, который учитывается,
но может быть проигнорирован.
Например, робот может не использовать
указанный вами адрес, если:
- Документ по каноническому адресу недоступен для индексирования.
- В качестве канонического адреса указывается URL в другом домене или поддомене.
Вы указали несколько
канонических адресов.
Итак, используя всю полученную
информацию о действиях робота на страницах
сайта и о том, как можно им управлять,
стоит перечислить основные качества
вебстраницы, которые позволят быстро
и правильно проиндексировать сайт для
более высоких позиций в релевантном поиске.
- Объем текста на странице. Поисковики ценят сайты, богатые информационным содержанием. В общем случае следует стремиться к увеличению текстового наполнения сайта. Оптимальными следует считать страницы, содержащие 500-3000 слов или 2-20 кб. текста (от 2 до 20 тыс. символов). Страница, состоящая всего лишь из нескольких предложений, имеет меньше шансов попасть в топ поисковых систем. Кроме того, большее количество текста на странице увеличивает видимость страницы в поисковых системах за счет редких или случайных поисковых фраз.
- Число ключевых слов на странице. Ключевые слова (фразы) должны встречаться в тексте как минимум 3-4 раза. Верхняя граница зависит от общего объема страницы – чем больше общий объем, тем больше повторений можно сделать. Отдельно следует рассмотреть ситуацию с поисковыми фразами, то есть словосочетаниями из нескольких ключевых слов. Наилучшие результаты наблюдаются, если фраза встречается в тексте несколько раз именно как фраза (т.е. все слова вместе в нужном порядке), а кроме того, слова из фразы попадаются в тексте несколько раз поодиночке.
- Плотность ключевого слова на странице показывает относительную частоту содержания слова в тексте. Плотность измеряется в процентах. Например, если заданное слово встретилось 5 раз на странице из 100 слов, то плотность этого слова равна 5%. Слишком низкая плотность приведет к тому, что поисковая система не придаст должного значения этому слову. Слишком высокая плотность способна включить спам-фильтр поисковой системы (то есть страница будет искусственно понижена в результатах поиска из-за чрезмерно частого употребления ключевой фразы). Оптимальной считается плотность ключевого текста 5-7%. В случае фраз, состоящих из нескольких слов, следует посчитать суммарную плотность всех ключевых слов, составляющих фразу и убедиться, что она укладывается в указанные пределы.
- Чем ближе ключевое слово или фраза к началу документа, тем больший вес они получают в глазах поисковой системы.
- Поисковые системы придают особое значение тексту, тем или иным способом выделенному на странице. Можно дать следующие рекомендации:
- используйте ключевые
слова в заголовках (текст, выделенный
тегами «H», в особенности «h1»
и «h2»). В настоящее время использование
css позволяет переопределить вид
текста, выделенного этими тегами,
поэтому использование тегов
«H» имеет меньшее значение, чем
раньше, однако, пренебрегать ими
ни в коем случае не стоит;
- выделяйте ключевые слова
жирным шрифтом (не во всем
тексте, конечно же, но сделать
такое выделение 2-3 раза на
странице не помешает). Для этого
рекомендуется использовать тег «strong»,
вместо более традиционного тега «B» (bold).
- Тег TITLE является одним из наиболее важных тегов, так как ссылка на сайт в выдаче поисковой системы будет содержать текст из этого тега. Это визитная карточка страницы, поэтому он должен содержать не только ключевые слова, но и быть информативным и привлекательным.
- Использование ключевых слов в тексте исходящих ссылок с страниц сайта (как на другие внутренние страницы сайта, так и на другие ресурсы сети) может добавить вам небольшое преимущество при ранжировании.
- Любое изображение на странице имеет специальный атрибут «альтернативный текст», который задается в теге «ALT». Этот текст будет отображен на экране в том случае, если скачать изображение не удалось или же показ изображений заблокирован в браузере. Поисковые системы запоминают значение тега ALT при разборе (индексации) страницы, однако не используют его при ранжировании результатов поиска.На данный момент достоверно известно, что поисковая система Google учитывает текст в теге ALT тех изображений, которые являются ссылками на другие страницы, остальные же теги ALT игнорируются.
- Мета-тег Description специально предназначен для задания описания страницы. Этот тег никак не влияет на ранжирование, но, тем не менее, очень важен. Многие поисковые системы отображают информацию из этого тега в результатах поиска, если этот тег присутствует на странице и его содержимое соответствует содержимому страницы и поисковому запросу.
Поиск информации.
Настало время понять, для
чего же нам нужны все эти сложности
с написанием сайта. А связаны они с тем,
что при поиске, первым делом, анализируется
запрос, введенный пользователем (происходит
препроцессинг запроса), в результате
которого вычисляются веса для каждого
из слов.
Далее, поиск производится
по инвертированным индексам, находятся
все документы в коллекции (базе
данных поисковой системы), которые
наиболее подходят под данный запрос.
Другими словами, вычисляется схожесть
документа запросу примерно по следующей
формуле