Поиск в информации в Интернете. Характеристика основных поисковых систем

Автор работы: Пользователь скрыл имя, 08 Декабря 2011 в 15:57, реферат

Краткое описание

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Вложенные файлы: 1 файл

курсяк2.doc

— 222.00 Кб (Скачать файл)

      ·          Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)

      В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.

      1 тип — общая (например: история  Российской империи),

      2 тип — менее общая (например: император Александр II),

      3 тип — конкретная (например: реформы  Александра II),

      4 тип — более конкретная (например: отмена крепостного права).

      В зависимости от типа информации определяются и пути поиска.

      Информация 1 типа ищется с помощью классификаторов  поисковых машин (из российских —  рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой информацией  не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.

      Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.

      Информация 3 типа — по ключевым словам, которые  вводятся в строку поиска поисковых  машин, каталогам, страницам ссылок

      Информация 4 типа — по подробным данным, которые  вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

      Примеры:

      Поиск по 1 типу. Требуемая информация: «История Российской империи».

      Заходим в Яндекс — Наука и образование / Общественные науки / История. По описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.

      Поиск по 2 типу. Требуемая информация: «Император Александр II».

      Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .

      Поиск по 3 типу. Требуемая информация: «Реформы Александра II»

      Здесь появляется новый способ поиска —  по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах

      Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это  создатели ресурсов (начиная от специалистов, ведущих поддержку hard- и software, дизайнеры, художники, редакторы и самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты по data mining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).

      Ресурс  зарождается в соответствии с  потребностями общества и его  возможностями (в частности, связанными с уровнем технического и социального  состояния общества).

      По  мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).

      При определенном уровне востребованности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.

      Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.

      При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает  и постепенно исчезает из индексов и каталогов.

      Структура поисковых сервисов

      Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые  системы Интернета различаются, но принципу отбора информации, который  в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.

      При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.

      Построение  региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация  поисковой системы на базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск персоналий или файлов мультимедиа в формате МРЗ, может происходить как в глобальном, так и на локальном масштабе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и реализуется на практике.

      Региональными поисковыми службами информация фильтруется  в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru - для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.

      Учет  региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.

      Интернету, исходя из его природы, сопутствует информационный хаос. И только современные средства автоматического индексирования документов способны, учитывая применяемые алгоритмы и возможности технических средств, найти в этом хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по ключевым словам напоминает серфинг, а не серьезную работу с информацией.

      1.5 Глобальные поисковые машины WWW

      После знакомства с несколькими глобальными  поисковыми машинами пользователь, как  правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

      Еще одна известная система - это Northern Light, имеющая достаточно стандартный  набор функций. Система дополнительно  дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

      Планирование  поиска

      Поиск и сбор информации в Интернете  нуждаются в планировании. Ошибочная  логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск - все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

      Остановимся на нескольких важных моментах, связанных  с планированием и первыми  шагами таких работ.

      Начинать  необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

      Основная  задача этой стадии учесть особенности  Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

      Сведения  о наличии в Интернете необходимых  данных лучше всего искать в ранее  известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа "Получить текст Конституции Республики Беларусь" или "В каких правовых актах употребляется название родного города" известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

      После лексического анализа информации наступает  технологический этап. Выбор информационного  поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

      Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

      В заключение отметим, что при решении  задачи сбора информации из Интернета  значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

       
     
     
     

      ГЛАВА №2 ХАРАКТЕРИСТИКА ОСНОВНЫХ ПОИСКОВЫХ СИСТЕМ.

      Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления  поиска в сети Интернет и реагирующий  на запрос пользователя, задаваемый в  виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Информация о работе Поиск в информации в Интернете. Характеристика основных поисковых систем