Использование поисковых серверов

Автор работы: Пользователь скрыл имя, 12 Сентября 2013 в 13:44, реферат

Краткое описание

Современный интернет представляет уникальное безграничное хранилище знаний, где можно получить ответ практически на любой вопрос. Фактически, здесь собранно все лучше, что изобретено и создано человечеством как за всю его длинную историю, а также новинки, которые появились только что.

Вложенные файлы: 1 файл

часть 2.docx

— 1.11 Мб (Скачать файл)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Глава 2:

Использование поисковых серверов

 

ПОИСКОВЫЙ СЕРВИС В ИНТЕРНЕТ

Современный интернет представляет уникальное безграничное хранилище  знаний, где можно получить ответ  практически на любой вопрос. Фактически, здесь собранно все лучше, что  изобретено и создано человечеством  как за всю его длинную историю, а также новинки, которые появились только что.

Однако появление такой  огромной и обширной библиотеки не может не привести к перегруженности информационного пространства. Специалисты по-разному оценивают размеры Интернета, однако в большинстве сходятся во мнении, что в настоящий момент здесь находятся миллиарды страниц, причем большая часть их исчезает или обновляется в течение непродолжительного периода времени.

Частично эту проблему разрешают специальные информационно-поисковые  системы, которые умеют самостоятельно собирать информацию. Если разумно использовать поисковую систему, можно в течение достаточно короткого времени найти информацию, на поиск которой без использования Интернет можно потратить месяцы и даже годы. Но, практика доказывает, что в настоящий момент эффективно и правильно использовать поисковые системы умеют не больше 3% человек и в результате на запрос с 1-2 слов получают абсолютно бесполезную для себя информацию.

СОСТАВЛЯЮЩИЕ  ПОИСКОВЫХ СИСТЕМ

Поисковые системы обычно имеют три компонента:

  • агент (паук, кроулер или робот), который перемещается по сети и собирает информацию;
  • база данных, которая содержит информацию, что собранно пауками;
  • поисковый механизм, который пользователи используют в качестве интерфейс для взаимодействия с базой данных.

Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, которые находятся в сети Интернет. Это специальные программы, которые занимаются поиском страниц в сети, собирают гипертекстовые ссылки из этих страниц и автоматически индексируют информацию, которую они находят для построения базы данные. Каждый поисковый механизм имеет собственный набор правил, которыми определяется сбор документов.

Агенты являют собой самые интеллектуальные из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять транзакции от имени пользователя. Уже в настоящий момент они могут искать сайты специфической тематики и возвращать списки сайтов, отсортированных за их посещаемостью. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут быть запрограммированы для вытягивания информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно к базе данных поискового механизма.

Пауки осуществляют общий поиск информации в Интернет. Пауки сообщают о содержании найденного документа, индексируют его и добывают итоговую информацию. Они также пересматривают заглавия, некоторые ссылки и отправляют проиндексированную информацию к базе данных поискового механизма.

Кроулери пересматривают заглавия и возвращают только первую ссылку.

Роботы могут быть запрограммированы таким образом, чтобы переходить по разной ссылкой разной глубины вложенности, выполнять индексацию и проверять ссылку в документе. Но, они могут застрять в циклах, ведь, проходя за ссылками, им нужны значительные ресурсы сети. Существуют методы, которые запрещают роботам поиск по сайтам, владельцы которых не желают, чтоб они были проиндексированы.

Агенты собирают и индексируют  разные виды информации. Некоторые, например, индексируют каждое отдельное слово в документе, в то время как другие индексируют только 100 наиболее важных слов в каждом документе, индексируют размер документу и количество слов в нем, назову, заглавия и под заглавия и так далее. Вид построенного индекса определяет, какой поиск может быть проведен поисковым механизмом и как полученная информация будет интерпретирована.

Агенты находят информацию, после чего ее размещают в базе данных поискового механизма. Администраторы поисковых систем определяют, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отправляется к базе данных поискового механизма.

Пользователи могут размещать  информацию прямо в индексе, заполняя особенную форму для того раздела, в который они хотели бы поместить  свою информацию. Эти данные передаются базе данных.

Когда пользователь хочет  найти информацию, доступную в  Интернет, он посещает страницу поисковой системы и заполняет форму, которая детализирует нужную ему информацию. Здесь могут использоваться ключевые слова, дать и другие критерии. Критерии в форме поиска должны отвечать критериям, которые используются агентами при индексации информации, которую они нашли при перемещении по сети.

База данных отыскивает предмет  запроса, который базируется на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Для того чтобы определить порядок, в котором перечень документов будет показан, база данных применяет алгоритм ранжировки. В идеальном случае, расположенными первыми в списке будут документы, что являются наиболее релевантными к запросу пользователя.

Релевантность - основное понятие при индексации документа в поисковых системах. Релевантность - мера соответствия, то есть это соответствие содержания найденной страницы с запросом пользователя. Но компьютер - не человек, и потому поисковые системы используют специальные алгоритмы для определения релевантности. Теоретических методов определения релевантности более чем 20. Но выделяют два основных направления: лингвистическое (Рамблер, Яндекс) и статистическое (Google).

Основные российские поисковые  системы (в частности Рамблер) используют лингвистическое направление. Т.е. поисковый робот, пересматривая страницу, обращает внимание на "литературную" ее написания ("почему ты не пришел" будет более релевантной, чем "почему ты не май пришел").

Разные поисковые системы  используют разные алгоритмы ранжировки, однако, основными принципами определения релевантности следующие:

  • Количество слов запроса в текстовом содержании документу (то есть в html-коды).
  • Тэги, в которых эти слова располагаются.
  • Местоположение искомых слов в документе.
  • Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документу.

Эти принципы применяются  всеми поисковыми системами. А нижеприведенные  используются некоторыми, но достаточно известными (например, Altavista).

  • Время - как долго страница находится в базе поискового сервера. Сначала кажется, что это непутевый принцип. Но в Интернете существуют большое количество сайтов, время жизни которых составляет около месяца. Если же сайт существует достаточно долго, это значит, что его владелец является опытным за данной темой и пользователю больше подойдет сайт, который существует уже несколько лет, чем тот, который появился неделю тому назад за этой же темой.
  • Индекс цитируемости - как много ссылок на данную страницу ведет из других страниц, которые зарегистрированы в базе поисковика.

База данных выводит ранжировании, таким образом, перечень документов из HTML и возвращает его пользователю, который сделал запрос. Разные поисковые механизмы выбирают разные способы показа полученного перечня - некоторые отображают лишь ссылку, другие выводят ссылку с несколькими первыми предложениями документу или заглавие документу вместе со ссылкой. Когда пользователь обращается к ссылке на один из документов, настоящий документ загружается из сервера, на котором он находится.

Большая часть целевых  посетителей приходит именно из поисковых  систем. Поэтому важно знать некоторые  особенности наиболее популярных из них.

 

УКРАИНСКАЯ  ПОИСКОВАЯ СИСТЕМА "МЕТА"

Украинская поисковая  система "МЕТА" является самым  известным проектом компании -  ОАО «МЕТА» - разработчика поисковых и информационных решений. Сегодня "МЕТА" - один из наиболее посещаемых украинцами сайтов и наибольшая рекламная площадка Украины.

«МЕТА.ua» - проект украинский, он создан и будет работать только для Украины. А технологии, которые были созданы в процессе работы, полностью могут быть использованы в других странах.

Поисковые технологии компании работают во внутренних сетях Верховной  Рады и кабинета министров Украины, на сайтах национального банка Украины, фонда Разумкова, сайте Виктора Ющенко.

За 2005 год аудитория увеличилась  более чем в два раза.

«МЕТА» - это бесплатный сервис, который не имеет никаких обязательств перед владельцами сайтов и не гарантирует «правильное» место выдачи.

Новые сервисы поисковой  системы "МЕТА" можно разделить  на три типа: поисковые, информационные и коммуникационные.

Из поисковых сервисов хочется отметить «Метановости». Это самый популярный раздел после большого поиска и каталога. В настоящий момент там собираются новости от больше как 200 украинских интернет - источников, около 10 000 новостей в день. Весь этот массив в режиме реального времени индексируется, группируется по темам и становится доступным для поиска.

«Поиск рефератов». Практически единственный сервис в СНГ, что позволяет искать не только по названию и описанию, но и по всему тексту. В период сессий и экзаменов студенты и школьники активно пользуются этим сервисом.

Из последних поисковых  проектов - интерфейс к базе законодательства Украины, что разработано совместно с аппаратом Верховной Рады. В базе более чем 80 000 разных юридических документов. Автоматический перевод запросов дает возможность задавать запрос на русском или украинском языках.

Из информационных сервисов интересными являются «Карты» и «Расписания поездов». В «Картах» собранно наибольшее количество карт по городам и областям Украины, которая является доступными в Интернете, а «Расписания» - является самыми полными и самыми точными.

Коммуникационные сервисы - форум, который стал наибольшим украинским неполитичным форумом. Почтовый сервис разрабатывался значительно позже тех, которые есть в настоящий момент на рынке,  потому в нем удалось обойти известные недостатки и выйти удобным и функциональным. Почта в настоящий момент самый быстро возрастающий сервис на «Мета».

Поисковому сервису придется увеличивать мощность одновременно в двух плоскостях - с одной стороны  увеличивается количество запросов, из другой - растет объем индекса. С  похожими проблемами работает всего несколько компаний в мире, и потому на решение технических проблем, связанных с быстрым ростом затрачивается много усилий. Внедрена и отработана технология, что позволяет быстро масштабировать систему, МЕТА может без проблем увеличить размер индекса и обработать число запросов на порядок больше.

Из последних совершенствований - «проверка» правописания в запросах и добавления новых форматов документов - doc, pdf, xls, ppt.

«Медленная индексация» - это уже легенда, которая осталась в прошлом. Очереди на размещение в каталог в настоящий момент нет, потому что технических мощностей хватает. Если сайт через 4-5 дней после добавления в каталог не попал в индекс, это значит, что он есть или недоступным, или не поддается индексации. Кроме этого есть специальный кластер, документы в котором обновляются дважды в день.

Поисковая система "Мета" предоставляет целый ряд сервисных  возможностей, которые позволяют вести более точный поиск. Однако, поисковая система - только инструмент, и главный взнос в быстрое получение точных результатов делает пользователь, когда формулирует свой запрос.

Ниже приведен перечень поисковых  приемов, которые позволят эффективнее  организовать поиск и оперативно найти то, которое нужно.

СКОЛЬКО СЛОВ ИСПОЛЬЗОВАТЬ В ЗАПРОСАХ

По статистике пользователи зарубежных поисковых систем используют в среднем 1,5 слова в запросах. Наши пользователи более "многословны" - 2,5 слова на один запрос.

В том случае, если нужна  общая информация, которая имеет  определенное отношение к теме, достаточно одного слова. Наверно среди нескольких сотен документов, которые выдаст Мета, будет документ, который отвечает теме поиска. Однако, где будет настоящий документ - в первой десятке результатов или десятой десятке - дело случая.

Чтобы получить подборку результатов, которая будет точнее отвечать теме запроса и попутно сэкономить время на перегляд ответов поисковой машины лучше искать сразу по нескольким словам, которые характеризуют запрос детальнее.

КАКИЕ СЛОВА  ИСПОЛЬЗОВАТЬ В ЗАПРОСАХ

Основную смысловую нагрузку в языке имеют имена существительные. Такое положение вещей наглядно оказывается, когда автор web-страницы прописывает ключевые поисковые слова (метатеги), которые потом используются многими поисковыми машинами (Метой в частности) для индексирования и поиска. Основная масса этих ключевых слов - это имена существительные. Значительно реже используются имена прилагательные, и совсем редко глаголы.

Имена прилагательные в запросах - просто незаменимые, если пользователь захочет найти в Интернет именно "голландский сыр", с "баварским пивом" в "ночном клубе".

Очень эффективное средство для быстрого получения точных ссылок - это использование редких слов. К таким словам можно отнести специальные термины, названия местности, организации, имена людей и т.д. Использование точных слов сразу "окунает" в нужную тематику.

Информация о работе Использование поисковых серверов