Автор работы: Пользователь скрыл имя, 17 Июня 2013 в 08:43, реферат
Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети. В данной работе рассматриваются теоретические основы информационного поиска, классификация и разновидности информационно поисковых систем. При появлении сети Интернет проблема поиска становилась более актуальной. Интернет – всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете храниться огромное количество информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых машин.
Федеральное Агентство
по Образованию РФ
Сочинский Государственный
Университет Туризма и Курортного Дела
Институт Информационных
Технологий и Математики
Кафедра Информационных
Технологий
Реферат
По дисциплине: «Мировые информационные
ресурсы»
На тему:
«Обзор и анализ современных поисковых
систем»
Выполнил студент 3 курса
группа 08 – ПИ ОФО
“Прикладная информатика (в экономике)”
Васильев В. А.
проверил преподаватель
Салова Т.Л.
Сочи, 2010 г.
-
Содержание
-
Введение
Современный этап развития цивилизации
характеризуется переходом наиболее развитой
части человечества от индустриального
общества к информационному. Одним из
наиболее ярких явлений этого процесса
является возникновение и развития глобальной
информационной компьютерной сети. В данной
работе рассматриваются теоретические
основы информационного поиска, классификация
и разновидности информационно поисковых
систем. При появлении сети Интернет проблема
поиска становилась более актуальной.
Интернет – всемирная компьютерная сеть,
представляющая собой единую информационную
среду и позволяющая получить информацию
в любое время. Но с другой стороны в Интернете
храниться огромное количество информации,
но для поиска её требуется затрачивать
много времени. Эта проблема послужила
поводом к появлению поисковых машин.
-
История зарождения поисковых систем
Первая интернет-страница, при создании
которой была применена технология HTTP,
появилась сравнительно недавно - в 1990
году. Ее создателем является британский
ученный Тим Бернерс-Ли, который также
является изобретателем URI, URL, HTTP, World Wide
Web. Созданный им сайт info.cern.ch (в данный
момент доступный в сети в качестве авторской
страницы создателя) является прародителем
не только современных информационных
ресурсов, но и первым в мире доступным
каталогом интернет-сайтов. С этого момента
Интернет начал набирать популярность
не только среди научных кругов, но и среди
простых обладателей персональных компьютеров.
В 1993 году была создана первая в мире поисковая
система для Всемирной сети «Wandex». В ее
основу был заложен World Wide Web Wanderer бот1, разработанный Метью Греем
из Массачусетского технологического
института. Через несколько месяцев после
рождения поисковой системы «Wandex» была
создана конкурирующая система «Aliweb»,
которая в отличие от индекса «Wandex» работает
до сих пор. В 1994 году была запущена первая
полнотекстовая2(«crawler-
Первой поисковой системой, которая была
доступна русскоязычным пользователям
Интернета, стала поисковая машина «AltaVista»,
которая в 1996 году запустила морфологическое
расширение для русского языка. В этом
же году были запущены первые отечественные
поисковые системы – «Rambler.ru» и «Aport.ru».
Появление первых отечественных поисковых
систем ознаменовало новый этап развития
Рунета, позволяя русскоязычным пользователям
осуществлять запрос на родном языке,
а также оперативно реагировать на изменения,
происходящие внутри Сети. С запуском
в 1997 году поисковой системы «Яндекс»
отечественные поисковые машины начали
конкурировать между собой, улучшая систему
поиска и индексации сайтов, выдачи результатов,
а также предлагая новые сервисы и услуги.
В западных странах переломный момент
в развитии поисковых систем наступил
с появлением в 1997 году поисковой системы
Google. Компания Google разработала собственную
поисковую машину, которая дала пользователям
возможность осуществлять качественный
поиск с учетом морфологии, ошибок при
написании слов, а также повысить релевантность3 в результатах выдачи запросов.
Сегодня компания Google обрабатывает более
40 миллиардов запросов в месяц, что соответствует
62,4 % всех поисковых запросов в мире.
-
Информационно-поисковая система. Основные
компоненты
Информационно-поисковая система - это
аппаратно-программный комплекс, осуществляющий
быстрый поиск необходимой информации
внутри сервера или интернет-ресурса.
Основа поисковой машины у всех поисковых
систем примерна одинаковая. Как правило,
это поисковый бот, необходимый для индексации
и поиска сайта, программное обеспечение,
отвечающее за составление каталога запроса
и ранжирование результатов по релевантности
поискового запроса. Но многие крупные
поисковые системы держат в секрете содержание
своей поисковой машины. Ключевым отличием
является база проиндексированных сайтов,
релевантность и учет морфологии языка
запроса. Все это в совокупности и определяет
критерий качества работы поисковых машин.
Классифицируется поисковая машина по
области поиска информации:
1. Локальный поиск. Предназначен для осуществления
поиска информации по какой-либо части
всемирной сети, например, по одному или
нескольким сайтам, либо по локальной
сети. Примером служит поисковый скрипт
на сайте или внутренние серверы крупных
компаний.
2. Глобальный поиск. Предназначен для
поиска информации по сети Интернет, либо
по региональной части, группе сайтов
и т.д. Глобальный поиск используют крупные
поисковые системы Яндекс, Google, Yahoo и т.д.
Поисковые машины осуществляют различный
поиск информации по сети Интернет. Например,
картинки, музыка, географическое положение,
личная информация и т.д. Файлы, с которыми
работает поисковая машина, могут быть
разных форматов (например .html,.htm,.txt,.doc,.rtf,
…), графического (.gif, .png, .svg, …) или мультимедийного
(видео, звука и другой информации). Наиболее
распространенным является поиск по текстовым
документам (web-страницы, документы в формате
doc, rtf, txt и др.). Поиск по изображениям, видео,
звукам более сложен с технологической
точки зрения, поэтому массово не реализован.
Такие системы, как, например, Яндекс.Картинки
искали не по самим изображениям, а по
альтернативным текстам, соответствующим
этим изображениям. А каталог поиска картинок
в компании Google составляется вручную,
что увеличивает релевантность запроса,
но тормозит обновление баз изображений.
Поисковая система - это сумма следующих
компонентов:
Web server (веб-сервер) – сервер поисковой
машины, который осуществляет взаимодействие
между пользователем и остальными компонентами
системы.
Spider (паук) - программа написанная по принципу
браузера, предназначена для скачивания
веб-страниц. Браузер предназначен для
визуального использования страниц, а
паук работает с HTML кодом напрямую. Чтобы
посмотреть "сырой" исходник нажмите
в меню браузера: Вид- Просмотр HTML кода.
Crawler («путешествующий» паук) – программа,
которая автоматически уходит по всем
внешним ссылкам страницы. Ее задача -
поиск не известных (или измененных) документов
и в расстановке приоритетов, куда дальше
должен идти Spider.
Indexer (индексатор) - программа-анализатор
скаченных пауками веб-страниц. Она "разбирает"
на части скачанную страницу и анализирует
ее элементы, такие как текст, служебные
html-теги, заголовки, особенности стилистики
и структурные формы.
-
Database (база данных) – хранилище для скачанных
и обработанных страниц - общая база данных
поисковой машины.
Search engine results engine (система выдачи результатов)
– извлекает результаты поиска из базы
данных поисковой системы. Именно она
решает, какие страницы более соответствуют
запросу пользователя и отсортировывает
их в нужном порядке. Модуль работает согласно
заданным поисковой системойалгоритмам ранжирования.
-
3. Рейтинг основных мировых и российских
поисковых систем
Google первая по популярности поисковая
машина в мире обрабатывающая более 40
миллиардов запросов в месяц (доля рынка
83,4 %), и индексирует более 8 миллиардов
веб-страниц. Google может находить информацию
на 191 языке (на 15 октября 2009). Второе место
(с большим отрывом) у Yahoo! – 6,32% рынка. Треть
место занимает крупнейший китайский
поисковик Baidu.com – 4,96% рынка. К слову, уверенные
позиции последнего связаны с тем, что
на территории Китая заблокированы и Google,
и Yahoo!
Рисунок
Большинство «русскоязычных» поисковых
систем индексируют и ищут тексты на многих
языках — украинском, белорусском, английском
и др. Отличаются же они от «всеязычных»
систем, индексирующих все документы подряд, тем, что в основном
индексируют ресурсы, расположенные в доменных зонах, где доминирует русский
язык или другими способами ограничивают
своих роботов русскоязычными сайтами.
На сегодняшний день самой популярной
русскоязычной поисковой системой является
Яндекс – 54% всех поисковых
запросов.
Рисунок
-
4. Обзор основных мировых поисковых систем
4.1 Google
Лидер поисковых машин Интернета, Google
занимает более 70 % мирового рынка, а значит,
семь из десяти находящихся в сети людей
обращаются к его странице в поисках информации
в Интернете. Сейчас регистрирует ежедневно
около 50 миллионов поисковых запросов
и индексирует более 8 миллиардов веб-страниц.
Была разработана в 1998 выпускниками Стэндфордского
университета Сергеем Брином и Лари Пейджем,
которые применили для ранжирования документов
технологию PageRank, где одним из ключевых
моментов является определение "авторитетности"
конкретного документа на основе информации
о документах, ссылающихся на него. Говоря
общими словами, чем больше документов
ссылается на данный документ и чем они
авторитетнее, тем более авторитетным
данный документ становится. Количественное
значение авторитетности документа (другими
словами, взвешенное количество ссылок
или PageRank) относится к так называемым статическим
факторам (то есть независящим от конкретного
запроса) и учитывается при определении
релевантности документа конкретному
запросу как весовой коэффициент. Наряду
с этим Google применил для определения релевантности
документа не только текст самого документа,
но и текст ссылок на него. Эта технология
позволила ему обеспечить выдачу довольно
релевантных результатов на фоне других
поисковиков. Довольно быстро Google стал
лидировать в различных опросах по такому
показателю, как удовлетворенность пользователей
результатами поиска. Google осуществляет
поиск по документам на более чем 35 языках,
в том числе русском. В настоящее время
многие порталы и специализированные
сайты предоставляют услуги поиска информации
в Интернете на базе Google, что делает задачу
успешного позиционирования сайтов в
Google еще более важной. Google проводит переиндексацию
своей поисковой базы примерно раз в четыре
недели. Во время этого усовершенствования,
неофициально называемого Google dance, происходит
обновление базы на основе информации,
собранной роботами за время, прошедшее
с предыдущего усовершенствования, и перерасчет
значений PageRank документов.
Также существует определенное количество
документов с достаточно большим значением
PageRank, информация о которых в поисковой
базе обновляется ежедневно, однако значение
PageRank пересчитывается только во время
Google dance. Нормированное значение PageRank для
конкретного документа, загруженного
в браузер, можно узнать, скачав и установив
Google ToolBar - специальную панель инструментов
для работы с этим поисковиком. Не смотря
на то, что в поисковике имеется форма
для бесплатного добавления страницы
в базу, Google предпочитает сам находить
новые документы по ссылкам с уже известных
и не будет индексировать добавленную
через форму страницу, если в его базе
не найдется ни одной страницы, ссылающейся
на нее.
-
4.2 Yahoo
Одна из самых первых Поисковых систем
(создана Дэвидом Фило и Джерри Янгом в
апреле 1994года) по сей день остается и
самой популярной из них, традиционно
сочетая поиск, как по ключевым словам,
так и с помощью иерархического дерева
разделов.
Нынешнее развитие Yahoo можно определить
как движение в он-лайн, интерактивность.
Yahoo быстро осваивает эту область Интернет-услуг,
но возникает одна проблема: ядро Yahoo! не
было на это рассчитано. Не была в 1994 году
заложено в него "онлайновая" составляющая,
ее "приклеил" Тим Кугл несколькими
годами позже. Естественно возникает угроза
хакерских атак через эту незащищенную
область.
Одно из новшеств поисковой системы Yahoo
- панель задач для браузера Firefox,. Этот
инструмент помогает пользоваться поиском
Yahoo, не заходя на официальный сайт, а лишь
используя функциональные кнопки панели.
1 сентября 2005 года поисковик Yahoo, которому
принадлежит более 200 миллионов адресов
электронной почты по всему миру, анонсировал
запуск новой системы поиска текстов,
фотографий и других документов, содержащихся
в письмах.
Необходимость такого нововведения возникла
вслед за увеличением объёма хранимых
данных, ведь некоторые пользователи создают
целые почтовые архивы. Подгоняемый конкурентом
Google и его почтовым сервисом Gmail, Yahoo для
хранения почты предлагает отныне 1 гигабайт
бесплатного места, или 2 гигабайта по
годовому абонементу. "Как только вы
получаете возможность хранить больше
информации, вам необходимы и расширенные
поисковые возможности", - объясняет
Эрик Петерсон, аналитик компании Jupiter
Research.
Пользователи поисковой системы Yahoo, в
свою очередь, смогут теперь использовать
возможности детализированного поиска
слов в названии или непосредственно в
тексте письма, а также в присоединенных
документах, не открывая их. Результат
поиска отражается в трёх строках с указанием
всех атрибутов. На панели справа отображаются
все похожие документы. Найденные фотографии
выводятся на экран в уменьшенном виде,
что значительно облегчает поиск. Система
также учитывает орфографические ошибки,
позволяя искать слова лишь по первым
буквам.
Для начала Yahoo планирует предложить новую
систему небольшому числу американских
пользователей, а затем распространить
её по всему миру. Со стороны клиентов
это не потребует никаких дополнительных
усилий. "Когда услуга станет, доступна,
в левом верхнем углу страницы вашего
почтового ящика появится соответствующий
баннер", - обещает компания Yahoo.
По данным comScore Media Metrix на июль этого года,
домену Yahoo принадлежит 219 миллионов адресов
электронной почты, что составляет 31,5%
мирового рынка, уступая лишь Microsoft с 221
миллионом пользователей сервиса Hotmail
(35,5% рынка).
-
4.3 Baidu
Baidu – лидер среди китайских поисковых
систем. По количеству обрабатываемых
запросов поисковый сайт Байду стоит на
3 месте в мире (3 миллиарда 428 миллионов;
с долей в глобальном поиске 5,2 %). Хотя компания
работает только в единственной стране:
Китае! Но точно, что этот рынок растет
неистово быстро: Уже в конце года в Китае
свыше 170 млн. пользователей займутся поиском
информации в Интернете. Аналитик J.P. Морган
Дик Вей исходит в своем актуальном анализе
из того, что это число вырастет в течение
следующих трех, четырех лет до 100 млн.
пользователей. Гигантский рынок с экстремально
высокими доходами для Baidu. Сравнивают
только прибыль, которую Google достигает
в США с очень похожей бизнес-моделью.
-
5. Обзор основных Российских поисковых
систем
Основное отличие русскоязычных поисковых
систем от иностранных одно - это то, что
глобальные поисковые системы, поддерживающие
поиск на русском языке, не поддерживают
русскую морфологию. В русскоязычной части
сети Интернет работают около двух десятков
поисковых систем, но подавляющие большинство
пользователей работает лишь с несколькими,
подробно остановимся на самых крупных:
5.1 Yandex
Яндекс - На сегодня наиболее популярная
поисковая система, ежемесячно к ней обращаются
более 35 миллионов пользователей Русскоязычной
части Интернета. Начала свою работу во
второй половине 1997 года учитывая морфологию
русского языка. История компании "Яндекс"
началась в 1990 году с разработки поискового
программного обеспечения в компании
"Аркадия". За два года работ были
созданы две информационно-поисковые
системы - Международная Классификация
Изобретений, 4 и 5 редакция, а также Классификатор
Товаров и Услуг. Обе системы работали
локально под DOS и позволяли проводить
поиск, выбирая слова из заданного словаря,
с использованием стандартных логических
операторов. В1993 году "Аркадия" стала
подразделением компании CompTek. В 1993-1994
годы программные технологии были существенно
усовершенствованы благодаря сотрудничеству
с лабораторией Ю. Д. Апресяна (Институт
Проблем Передачи Информации РАН). В частности,
словарь, обеспечивающий поиск с учетом
морфологии русского языка, занимал всего
300Кб, то есть целиком грузился в оперативную
память и работал очень быстро. С этого
момента пользователь мог задавать в запросе
любые формы слов.
Слово Яндекс придумал за несколько лет
до этого один из основных и старейших
разработчиков поискового механизма.
"Яndex" означает "Языковой index",
или, если по-английски, "Yandex" - "Yet
Another indexer". За 4 года публичного существования
Яndex возникли и другие толкования. Например,
если в слове "Index" перевести с английского
первую букву ("I" - "Я"), получится
"Яndex".
В начале 1996 года был разработан алгоритм
построения гипотез. Отныне морфологический
разбор перестал быть привязан к словарю
- если какого-либо слова в словаре нет,
то находятся наиболее похожие на него
словарные слова и по ним строится модель
словоизменения. В это время Интернет
в России только начинался. Еще через полгода
стало очевидно, что ничто не отделяет
CompTek от создания собственной глобальной
поисковой машины. Объем Рунета составлял
тогда всего несколько гигабайт. Осенью
1997 года был открыт Yandex.Ru.
Помимо поисковой системы, сегодня Яндекс
- огромный портал с целым набором широко
используемых сервисов, такими как каталог,
Яндекс. деньги, и другие. Официально поисковая
машина Yandex.Ru была анонсирована 23 сентября
1997 года на выставке Softool. Основными отличительными
чертами Yandex.Ru на тот момент были проверка
уникальности документов (исключение
копий в разных кодировках), а также ключевые
свойства поискового ядра Яндекс, а именно:
учет морфологии русского языка (в том
числе и поиск по точной словоформе), поиск
с учетом расстояния (в том числе в пределах
абзаца, точное словосочетание), и тщательно
разработанный алгоритм оценки релевантности
(соответствия ответа запросу), учитывающий
не только количество слов запроса, найденных
в тексте, но и "контрастность" слова
(его относительную частоту для данного
документа), -
расстояние между словами, и положение
слова в документе. Сегодня Яндекс имеет
внутри мощный поисковый робот, позволяющий
производить поиск по самым различным
критериям.
5.2 Rambler
Rambler - Старейшая поисковая система российского
Интернет, запущена в 1996 году, на сегодня
- вторая по популярности с обращением
более 25 миллионов посетителей в месяц.
Помимо поисковой системы, сегодня Рамблер
- один из крупнейших порталов Русскоязычной
части Интернета с большим набором широко
известных сервисов, таких как каталог
Рамблер, Рамблер-почта, Рамблер-ICQ или
Рамблер-ТВ. По сути сегодня Рамблер - больше,
чем просто поисковая система и набор
сервисов, это крупная медиагруппа. Поисковая
машина "Рамблер" начала работу в
октябре 1996 года, на стартовом этапе содержала
всего 100 тысяч документов. "Рамблер"
не был первой отечественной поисковой
системой, однако в первый год своего существования
(когда весь русский веб с приемлемой степенью
правдоподобия индексировался "Рамблером",
"Апортом", "Русской поисковой
машиной", а также шведской и калифорнийской
AltaVista) вынес основной груз поисковых запросов.
Вторая версия "Рамблера" начала
разрабатываться летом 2000 года, в марте
нынешнего года приняла достаточно законченные
очертания. В нее были введены функции,
давно уже имевшиеся в конкурирующих системах.
Она учитывает координаты слов, обучена
строгой и нечеткой морфологии, связывает
поиск с каталогом, в качестве которого
используется Top100 (http://top100.rambler.ru/), группирует
результаты поиска по сайтам, ищет по числам.
Достаточно удачная архитектура продукта
позволяет "Рамблер" иметь для поисковика
количество серверов в 2 раза меньшее,
чем у "Яндекса", и в 3 раза меньшее,
чем у "Апорта".
5.3 Апорт
Апорт – Третья популярности на сегодня
поисковая система с обращением более
16 миллионов посетителей в месяц. Апорт
позволяет пользователям осуществлять
полнотекстовый поиск документов c учетом
морфологии русского языка в запросах.
Поисковая система построена на основании
новейших достижений в области информационного
поиска и использует уникальные алгоритмы
сортировки найденных результатов. Разнообразные
специализированные поиски (Знакомства,
Товары, Новости, Рефераты, MP3 и др.) дают
пользователям дополнительные возможности
находить различную информацию в Сети.
В поисковую машину интегрирован один
из крупнейших в Русскоязычной части Интернет
каталогов Интернет-ресурсов "Апорт-каталог".
Поисковая машина "Апорт" была впервые
продемонстрирована в феврале 1996 года
на пресс-конференции "Агамы" по поводу
открытия "Русского клуба". Тогда
она искала только по сайту russia.agama.com. Потом
она начала искать по четырем, потом по
шести серверам... Короче, день рождения
и фактический старт системы сильно "размазались"
по времени, а официальная презентация
"Апорта" состоялась только 11 ноября
1997 года. К тому времени в его базе был
проиндексирован первый миллион документов,
расположенных на 10 тысячах серверов.
Создателем системы выступила компания
"Агама" - разработчик программного
обеспечения для платформы Windows, главным
из которых являлся -
корректор орфографии "Пропись".
Лингвистические разработки "Агамы"
использовались при создании поисковой
машины, в которой, скажем, в отличие от
"Рамблер", изначально учитывалась
морфология слов и осуществлялась по желанию
клиента проверка орфографии запроса.
Важнейшими свойствами первой версии
"Апорта" являлся перевод запроса
и результатов поиска на английский язык
и обратно, а также реконструкция всех
проиндексированных страниц из собственной
базы (что означает возможность просмотра
страниц, уже несуществующих в оригинале).
Апорт 2000" стал первой российской поисковой
машиной, практически реализовавший две
базовых технологии американской поисковой
машины Google. Первая - учет "ранга страницы"
(Page Rank), который характеризует ее популярность
(вычисляется по количеству ссылок на
ресурс из внешнего Интернета: вес ссылки
с популярного сайта выше, чем вес ссылки
с менее популярного; ссылки, включающие
слова запроса, имеют больший вес, чем,
скажем, слово "здесь"). Вторая - обработка
запроса, ориентируясь на HTML-код страницы.
В "Апорт 2000" учитывается также вхождение
слов запроса в URL. Среди недокументированных
особенностей - больший приоритет сайтам,
получившим высшую и элитную лигу в каталоге
AtRus.
Можно отметить и то, что "Апорт" первым
устроил поиск по новостным лентам (какие
бы ложные сведения о приоритете "Яндекса"
в этом сервисе не распускал в свое время
Internet.ru). И, наконец, еще одно первенство
"Апорта" - использование платной
нулевой строки в выдаче (кстати, "Апорт"
первым среди наших поисковиков начал
покупать такой сервис у AltaVista, которая
за небольшую плату выдавала его ссылку
первой при запросе "Russian Search"). Однако
в "Апорте" нельзя купить не нулевое,
а просто более высокое место для своего
сайта в результатах поиска. Пользователи
"Апорта" (в отличие завсегдатаев
"Яндекса") мало пользуются расширенным
поиском (на 8000 загрузок простой страницы
приходится 300 вызовов страницы "Расширенный
поиск").
Организация масштабируемости в архитектуре
"Апорт 2000" такова, что можно дробить
поисковую базу "Апорта" на несколько
отдельных баз, каждый маленький "Апорт"
работает на своем компьютере. "Апорт
2000" считает, что весь Интернет поделен
на фрагменты. После проведения поиска
по этим фрагментам, пользователю интегрируется
и выдается общий ответ. Добавлять новые
маленькие "апортики" можно путем
не очень сложной процедуры. В случаях
аварий отдельных машин выдаются несколько
отличные от штатных интегральные результаты,
что мы можем время от времени наблюдать.
-
6. Преимущества и недостатки поисковых
систем
Поисковая система
Преимущества
Недостатки
Яндекс
1)Постоянное развитие системы.
2)Качество выдачи растет, все больше удобных
сервисов предлагает компания: каталог,
карты, новости, прогноз погоды, почта.
3) глубокий морфологический анализ обрабатываемых
терминов.
4) обладает хорошим механизмом распознавания
одного документа в нескольких кодировках
или на зеркальных серверах.
5) оригинально сконструированный механизм
выдачи результатов.
6) огромная индексная база.
1) Разница в выдаче при наборе слова с
большой (маленькой) буквы (иногда выдача
меняется, иногда нет).
2) Частое выпадение секторов поисковой
базы - когда исчезают части сайтов из
выдачи и восстанавливаются через 2-5 дней.
3) Обновление индексов поисковой базы
происходит недостаточно часто и регулярно.
Rambler
1) Система работает с большой скоростью
поиска.
2) Обновление поискового индекса происходит
несколько раз в день.
3) Поисковик всегда находит самые свежие
документы и последние новости.
4) Обладает близким к оптимальному выводом
результатов поиска.
5) производит ранжирование результатов
в зависимости от частоты употребления
и местоположения искомых терминов.
-
6) Один и тот же документ в различных кодировках
показывается только один раз, а его конкретные
адреса суммируются в списке, идущим за
резюме.
-
1) На величину индекса релевантности влияет
время существования сайта в сети. Эта
особенность позволяет пользователям
находить ресурсы, которые давно существуют,
успешно развиваются, а не сайты-однодневки.
Но такой подход значительно затрудняет
попадание в выдачу новых сайтов, информация
на которых подчас оказывается актуальной
и, возможно, более важной для пользователя.
2) невозможность осуществления поиска
по -
целой фразе указывая в запросах предельное
расстояние искомых терминов друг от друга.
Aport
1)содержит довольно удобный в пользовании
каталог.
2)широкие возможности составления запроса.
3) автоматический перевод запроса с русского
на английский язык и наоборот.
4) Реконструкция проиндексированных страниц
происходит из собственной базы. Это дает
возможность просмотра уже несуществующих
страниц.
1)не всегда быстро находит то, что от него
просишь.
2) каталог не обновлялся уже очень давно.
3) способен выделять один и тот же документ
в различных кодировках и выдавать ссылку
на него лишь один раз, перечисляя конкретные
адреса в списке URL.
4) не всегда корректная обработка названий
страниц, из-за чего в результатах поиска
часто указывается “документ без названия”,
в то время как метки title на большинстве
таких страниц содержат важные данные.
Google
1) Очень мощная поисковая система, которая
находится в постоянном развитии.
2) База индексов этой системы обновляется
раз в два дня, качество выдачи очень высокое,
найти необходимый документ или информацию
довольно легко.
3) Система ориентирована в основном на
ссылки, причем учитываются как входящие,
так и исходящие ссылки с ресурса.
4) Способна выдавать -
результаты на запросы по семантике языка
программирования (исходный код поиска).
-
1) Нередко встречаются ссылки на сайты
с уже устаревшей информацией.
2) Случается, что ссылки, которые находятся
в результатах поиска, ведут на сайт, находящийся
в стадии разработки.
3) На запрос «фильм» и «фильмы» результаты
поиска будут отличаться.
4) отсутствие возможности указать конкретную
грамматическую форму слова, либо ударение
также значительно усложняет процесс
поиска -
информации.
Yahoo!
1) Содержит ссылки, которые наиболее полно
отвечают указанной в запросе тематике.
2) Имеются интеллектуальные средства
«отсечения» пустых, находящихся в разработке
или чисто рекламных сайтов, далеких от
искомой тематики.
3) всегда легко определить, в каком разделе
находится нужная информация.
4) В случае если на Yahoo нет результатов,
сразу выводятся результаты с AltaVista.
1) Возможна проблема с отсутствующими
страницами, поскольку веб-мастера обычно
забывают удалить свои сайты с поисковых
систем, а на Yahoo нет механизма автоматического
обновления.
2) Чисто русские ресурсы не добавляются,
потому что их просто некому смотреть
и оценивать содержимое.
2)Нет собственной поисковой машины.
3) Ищет слова, заданные в критерии поиска
только в названии и описании страницы
Baidu
К концу 2002 года количество китайских
сайтов, индексируемых Baidu, было на 50% больше,
чем у любого конкурента.
Число заблокированных результатов поиска
у Baidu на 30% больше, чем у Google
Google оставила Baidu далеко позади, поскольку
предлагает рекламодателям выход на международные
рынки.
MSN
1)Предоставляет пользователям возможность
сортировать результаты поиска: по дате,
по алфавиту, по релевантности.
2) При осуществлении поиск по ключевому
слову, команда специалистов компании
отслеживает наиболее релевантные на
их взгляд сайты, вручную отбирают -
и классифицируют их, и вносят в определенные
рубрики директории.
3) ранжирования узлов по популярности
и сезонным изменениям.
4) Помощь со стороны человека-редактора.
-
1) Поисковая система полна спамом.
2) Использует внешние данные для обработки
поисковых запросов, поэтому на релевантность
влияют: расположение ключевых слов, популярность
ресурса и текст ведущих на сайт, и ведущих
с сайта ссылок.
Ближе всего к идеалу находятся поисковые
системы Google, Яndex, Rambler, Апорт. Отмечу также,
что поисковая система MSN лидирует в системе
ранжирования.
-
7. Модель "идеальной" поисковой системы
Главный недостаток современных поисковых
систем – это их централизация. А централизация
означает, что вся информация хранится
в одном месте, все работы и расчёты производятся
в одном месте, все решения (результаты
выдачи) принимаются в одном месте.
Итак, почему это недостаток, здесь несколько
причин:
1) Полная централизация требует колоссальных
ресурсов – это огромные базы данных,
множество компьютеров и т.д. Учитывая
темпы роста Интернета в ближайшем будущем
придется применять просто невероятные
мощности.
2) Только при управлении в одном центре
можно достичь полной конфидициальности.
А так как по нашей концепции поисковая
система должна быть открытой, то и необходимость
в централизации отпадает полностью.
3) Поисковая система не всегда может правильно
оценить конкретный ресурс. Правильнее
самому обладателю сайта поручить выполнение
ранжирования документов внутри сайта.
И теперь, самое главное как уйти от централизации
и устранить все эти минусы - это внедрение
в каждый сайт своей минипоисковой системы.
Эта минипоисковая система будет индексировать
содержимое сайта по правилам самого обладателя
сайта. Только вэбмастер будет решать,
какие страницы его сайта по каким запросам
более релевантны. А потом свои индексы
уже будет отправлять на сервер поисковой
системы.
Ещё одной из основных проблем при создании
новой поисковой системы является учет
мнения пользователей.
Попытка непосредственного выявления
представлений пользователей об идеальной
поисковой системе обычно не приводит
к нужному результату: пользователи перечисляют
все, что когда-либо видели или использовали
в существующих системах. Не стоит ждать
от пользователей навыков проектирования
– они вряд ли смогут быстро описать, как
должна выглядеть идеальная поисковая
система.
Более продуктивным подходом к решению
этой проблемы является анализ идеальной
модели поисковой системы, которой оперируют
пользователи. Идеальная модель – это
совокупность представлений пользователя
о целях, функциях, структуре, способах
контроля и управления, возможных действиях
с системой, которые определяют его деятельность.
Такой подход – от анализа представлений
пользователей и построения идеальной
модели к проектированию интерфейсов
продукта - снижает риск того, что продукт
не понравится пользователям, не будет
принят и востребован ими.
В идеальной модели должны присутствовать
следующие компоненты:
Primary nouns (электронное
письмо, товар в Интернет-магазине, картинка,
доступная для просмотра в Интернете)
– это основные элементы, с которыми пользователь
производит действия или манипуляции
при работе с системой.
^ Сценарий использования - это описание представлений
пользователей о взаимодействии с системой,
разбитое на элементарные шаги. Сценарий
использования иллюстрирует поведение
пользователя при решении определенной
задачи с помощью поисковой системы.
^ Диаграмма задач является графическим отображением
представлений пользователей о перечне
решаемых в системе задач.
-
Диаграмма навигации демонстрирует
представления пользователей о порядке
смены экранов, с которыми они сталкиваются
при работе с системой, и содержании этих
экранов. Диаграмма построена на основе
сценариев использования системы и используется
в процессе проектирования интерфейсов.
Проблема 1: Оптимизаторы
не могут ясно понять, каким должен быть,
«хороший» сайт в понимании поисковика
и как сделать его таким, чтобы поисковик
считал его наиболее релевантным по запросам.
Решение этой проблемы хорошо реализовано
в поисковой системе MSN Search. В системе ранжированием
занимается не только поисковик, но ему
также помогает человек-редактор. Благодаря
этому, при осуществлении поиск по ключевому
слову, команда специалистов компании
отслеживает наиболее частые запросы,
вводимые в поисковую форму, и подбирает
сайты, наиболее релевантные тематике
запроса, а так же вручную отбирают и классифицируют
их, и вносят в определенные рубрики директории.
Что, например, в сравнении с самой популярной
поисковой системой мира – Google, которая
сама определяет релевантность Интернет-страниц
(страница, на которую ссылаются чаще,
более релевантна и значит более популярна)
помогает избежать этой проблемы.
Проблема 2: Наличие
доступных и понятно изложенных правил
по специальному синтаксису каждой отдельной
поисковой системы.
Изложение доступных и понятно изложенных
правил по специальному синтаксису присутствует
в следующих поисковых системах:
Яndex;
Google;
Апорт;
Ближе всего к идеалу находятся поисковые
системы Google, Яndex, Rambler, Апорт. Отмечу также,
что поисковая система MSN лидирует в системе
ранжирования.
-
Заключение
По итогам сделанной мной работы я могу
заключить что; поисковые системы уже
давно стали неотъемлемой частью Интернета.
Поисковые системы сейчас – это огромные
и сложные механизмы, представляющие собой
не только инструмент поиска информации,
но и заманчивые сферы для бизнеса.
По моему мнению, самой лучшей иностранной
поисковой системой является Google, так
как для меня основное значение имеет
точность и полнота предоставляемых данных.
Но можно заключить также что, каждая поисковая
система будь то Российская или зарубежная
предоставляет различные возможности
поиска, из различных баз данных, поэтому
сказать точно какой именно лучше пользоваться
было бы не правильно. Поэтому для удобства
поиска и полноты информации следует пользоваться
несколькими поисковиками вводя в них
нужные запросы. По моему мнению, из многих
Российских поисковиков выделяются Яндекс
и Рамблер, для них характерно постоянное
обновление баз данных что, обеспечивает
именно актуальность и точность предоставляемой
информации.
-
Список литературы
1 Бот (веб-паук, краулер)-
производное от слова «робот». Аппаратно
программный комплекс, применяемый в поисковых
системах для добавления сайта в электронный
каталог. Является составной частью «поисковой
машины».
2 ^ Полнотекстовый
поиск — поиск документа в базе данных
текстов на основании содержимого этих
документов, а также совокупность методов
оптимизации этого процесса.
3 Релевантность -
в широком смысле - мера соответствия получаемого
результата желаемому результату. Релевантность
- в поисковых системах - мера соответствия
результатов поиска задаче поставленной
в запросе.
Информация о работе Обзор и анализ современных поисковых систем