Оценка релевантности поиска

Автор работы: Пользователь скрыл имя, 29 Мая 2012 в 08:48, творческая работа

Краткое описание

Поисковая система (машина) - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде поискового запроса, выдачей списка ссылок на источники информации, в порядке релевантности.

Вложенные файлы: 1 файл

Моя презентация.pptx

— 891.24 Кб (Скачать файл)

Оценка  релевантности поиска

 

Выполнил: студент 2-го курса

заочного  отделения

специальность «Менеджмент»

Якутович Е.С.

 

Поисковые машины  

 

Поисковая система (машина) - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде поискового запроса, выдачей списка ссылок на источники информации, в порядке релевантности.

 

 

И хотя каждая машина поиска использует уникальный способ сбора информации, все они служат общей цели – быстро находить информацию, которая вам нужна.

Что такое релевантность?

 

Одно  из наиболее близких понятию качества «релевантности» — «адекватность», то есть оценка степени соответствия выдачи поисковых результатов ожиданиям пользователя, обратившегося с конкретным поисковым запросом. И чем выше эта степень, тем довольней будет пользователь.

Показатели эффективности информационных систем  

 

    • Семантические показатели основаны на оценке релевантности между документами и запросами. К ним относятся:
    • полнота выдачи (потери информации) и
    • точность выдачи (информационный шум)

 

Показатели эффективности информационных систем  

 

    • Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

   Пертинентность— это субъективно оцениваемое соответствие содержания документов информационным интересам потребителя. Оценки пертинентности могут отличаться от результатов, полученных на основе оценок релевантности.

 

 

Рассмотрим пример 

 

    Мы решили купить загородный  дом, и чтобы его пробрести  в намеченном нами регионе,  пытаемся вначале изучить цены  на рынке недвижимости. Вводим  в поисковой системе слово  «загородный дом» и получаем: «благоустройство загородного дома»,  «преимущества загородного дома»,  «новый загородный дом Баскова»  и т.п. Всё найденное релевантно запросу, однако совершенно не пертинентно информационной потребности. Но если мы введём запрос «купить загородный дом в Минской области», то всё, релевантное ему, окажется пертинентным информационной потребности.

 

Критерии релевантности

 

В каждом поисковике существует собственный  алгоритм определения релевантности, который представляет собой математическую формулу с не одной сотней параметров, ежедневно изменяющимися с целью предотвращения взлома.

 

 Работая  над основной своей задачей  – точностью поисковой выдачи  – поисковые машины были вынуждены  разрабатывать и совершенствовать  критерии релевантности. 

Принцип цитируемости

 

    • Данный принцип подразумевает, что релевантность сайта должна определяться его популярностью в мире Internet. Получается, что чем больше сайтов рекомендуют посетителям зайти на чей-то ресурс, тем более высокую оценку получает он от поисковой машины. На лицо повышение качества поиска. Однако со временем борьба за первые места в выдаче поисковиков ужесточалась, и всё более давало о себе знать желание раскрутчиков сайтов обмануть машину поиска. Для начала появилось множество специальных сайтов, так называемых «ферм ссылок», на которых любой web-мастер мог бесплатно разместить ссылку на свой ресурс. Такая методика повышения известности ссылок  хорошо работала до того времени, пока в FFA не появились автоматические программы, которые одновременно регистрировали ссылку на тысячах «ферм». FFA-сайты, как правило, работали по принципу конвейера – новые ссылки вытесняли старые в низ страницы. Поскольку количество ссылок на странице ограничено, а скорость продвижения по мере автоматизации увеличилась до нескольких сотен ссылок в час, то, собственно, время присутствия вашей ссылки в «нужном месте» сводилось буквально до пары минут. Таким образом, порочная система изжила сама себя.

 

 

« Случайный сёрфер»  

 

    • Несомненно, что данная система оценки релевантности выглядит гораздо более «помехоустойчивой» и максимально полезной для пользователей.

 

 

Google ввел понятие «случайного сёрфера» – то есть абстрактного человека, который бродит по Сети, переходя с ссылки на ссылку и просматривая все новые и новые страницы. По сути, Page Rank – это попытка поисковой машины предсказать и использовать в качестве критерия вероятность того, что случайный пользователь попадет на ту или иную страницу.

Google Page Rank

 

    • Непосредственная формула для присвоения странице «разряда» (Rank) выглядит следующим образом:

 

R(A)= C*(R(B1)/N1+...+R(Bi)/Ni)

 где:

 

 R(A) – Page Rank страницы;

 R(Bi) – Page Rank ссылающейся страницы Bi;

 Ni – количество ссылок на странице B;

 С – коэффициент затухания, используется для страницы или группы страниц. Препятствует «накрутке» Page Rank. Обычно равен 0,85.

 Google ранжирует значение PR от 0 до 10.

Яндекс тИЦ  

 

Несмотря  на свою заслуженную популярность, формула Page Rank никак не учитывала качественную характеристику ссылок. Именно поэтому Яндекс разработал собственный алгоритм учета внешних ссылок.

 Тематический  индекс цитирования (тИЦ) в поисковой системе Яндекс был создан, чтобы определять релевантность web-ресурсов в Яндекс Каталоге, принимая во внимание качество ссылок на них с других сайтов. Качество ссылки определялось  количеством ссылок и тематической схожестью ссылающихся на ресурс сайтов (ссылки с иностранных ресурсов полностью игнорировалось).

 

 

   В системе Rambler тоже есть своя особенность. Он придает большой вес собственному рейтингу и даже использует некий фильтр ссылок. В будущем предлагается учитывать релевантность страниц по оценкам других людей.

   В Yahoo это уже работает: пользователь может самостоятельно добавить описание и ключевые слова к любой найденной странице. Однако на сегодняшний день при определении релевантности все меньше учитываются Page Rank, тИЦ, и другие подобные показатели, которые можно поднять искусственно. Поисковые машины становятся все умнее и при сортировке страниц большое значение уделяют содержимому страницы, они становятся все больше похожими на людей.


Информация о работе Оценка релевантности поиска