Поисковые системы в России

Автор работы: Пользователь скрыл имя, 21 Ноября 2011 в 20:05, контрольная работа

Краткое описание

Internet – глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 30 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличивается на 5-7%. Всплеск интереса к глобальной информационной сети Internet наблюдается сейчас повсеместно. В сложившихся условиях потребность в информации о сети Internet становится особенно острой. В действительности Internet не просто сеть, - она есть структура, объединяющая обычные сети. Internet – это «Сеть сетей».

Содержание

Введение____________________________________________3
Краткая история Internet_______________________________4
Основные протоколы в Internet и поиск в них_____________5
Всемирная паутина___________________________________6
Поисковые системы в России__________________________10
Заключение_________________________________________13
Список литературы________________________________

Скачать в ZIP архиве (20.19 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

www технологии.doc

— 69.50 Кб (Скачать файл)

Введение

Что такое Интернет?

Для организации межсетевых соединений необходим соответствующий протокол.Протокол – это набор договоренностей, который определяет обмен данными между различными программами. Протоколы задают способы передачи сообщений и обработки ошибок в сети, а также позволяют разработать стандарты, не привязанные к конкретной аппаратной платформе. Все программы – от скорости передачи данных до методов адресации при транспортировке отдельных сообщений – задаются протоколом, используемых в данной конкретной сети.

В Internet базовым протоколом служит ТСР/ IP. IP отвечает за адресацию сетевых узлов, а ТСР обеспечивает доставку сообщений по нужному адресу. Эти мощные протоколы были предложены в 1974 г. Робертом Кэном, одним из основных разработчиков ARPANET, и ученым – компьютерщиком Винтоном Серфом, вице – президентом CNRI. Internet ныне превратилась в многопротокольную сеть, интегрирующую другие стандарты. Основные среди них – стандарты взаимодействия открытых систем (OSI).

В Internet нет единого пункта подписки или регистрации; вместо этого вы контактируете с поставщиком услуг, который предоставляет вам доступ к сети через местный компьютер. Последствия такой децентрализации с точки зрения доступности сетевых ресурсов также весьма значительны. Среду передачи данных в Internet нельзя рассматривать только как паутину проводов или оптоволоконных линий. Оцифрованные данные пересылаются через маршрутизаторы, которые соединяют сети и с помощью сложных алгоритмов выбирают наилучшие маршруты для информационных потоков.

Краткая история Internet

Вначале ничего не предвещало, что Internet станет общедоступной компьютерной сетью. Как и многие другие великие идеи, «Сеть сетей» возникла из проекта, предназначавшегося совершенно для других целей. Ее прародительницей стала сеть ARPANET, разработанная и развернутая в 1969 г. компанией «Bolt Beranek and Newman» (ВВN) по заказу Агентства передовых исследовательских проектов (ARPA) Министерства обороны США.

ARPANET объединила учебные заведения, военные организации и их подрядчиков. Она была создана с целью помочь исследователям в обмене информацией, а также для обработки методов поддержания связи в случае ядерного нападения.

Сравнительно недавно появилась новая технология Internet, названная World Wide Web (WWW), что обычно переводится как «Всемирная паутина». Сеть предназначалась первоначально для физиков, но затем получила широкое признание.

WWW построена по технологии, в основе которой лежит принцип создания гипертекстовых документов (Web – страниц). Гипертекстовый документ заключает в себе ссылки на другие подобные документы, которые, в свою очередь, содержат ссылки на следующие и т.д. Таким образом, они оказываются связанными между собой.

Для работы в WWW используется протокол НТТР, а программы, позволяющие работать с соответствующими документами в Internet, называют просмотрщиками, или браузерами.

Основные протоколы в Internet и поиск в них

Internet содержит большой объем информации, поэтому в нем трудно найти необходимые сведения. Местонахождение (или адрес) каждого ресурса определяет его URL. В URL содержится тип протокола, указывающий, на какой сервер осуществляется доступ: на WWW (на который указывает запись: http), Telnet, Ftp, WAIS или Gopher. Это зависит от того, какой тип информации вы будете передавать.

Специальная программа Telnet позволяет превратить ваш компьютер в клиента Telnet для доступа к данным и программам в многочисленных серверах Telnet. Связавшись с помощью Telnet с удаленным компьютером и введя в поле запроса свое имя (loqin) и пароль (password), вы дальше общаетесь именно с этим компьютером и программами на нем, а Telnet заботится лишь о поддержании связи между вами. Telnet теперь можно перевести на WWW, что нередко и делается.

Практически вся информация в компьютерном мире хранится в виде файлов. Поэтому еще на самой заре Internet появилось специальное средство для обмена файлами по сети – сетевой протокол FTP. WWW позволяет без какой - либо переделки существующих FTP архивов снабжать их описаниями любой степени детальности и удобным гипертекстовым интерфейсом.

Всемирная паутина

Несмотря на то, что в первые годы своего существования Gopher завоевал большую популярность, назревала нужда в какой – то более простой и в то же время максимально универсальной системе, в которой связи между ресурсами были бы более свободными и ассоциативными. Такая система была разработана в 1993 г. и названа WWW. Система WWW строится на понятии гипертекстом, или, точнее, гипермедиа. Гипертекст – это текст, составные части которого связаны друг с другом и с друг и с другими текстами с помощью ссылок. Гипермедиа – это то, что получится из гипертекста, если заменить в его определении слово «текст» на выражение «любые виды информации». WWW означает буквально «всемирная паутина». WWW позволяет не отказываться от информационных ресурсов уже накопленных в Internet, доступных с помощью других средств: FTP, Telnet и Gopher. Больше того, работа с этими ресурсами через WWW настолько удобна, что FTP клиенты, бывшие когда - то отдельным классом программ, теперь используются лишь немногим.

И все - таки главное в WWW – это не удобства доступа FTP архиву и Gopher меню. Большинство серверов системы предлагают информацию, которая без WWW вряд ли вообще когда – либо попала бы в сеть. Быстрота создания и обновления, богатые изобразительные возможности в сочетании с легкостью доступа и огромной аудиторией сделала WWW новым средством массовой информации. С другой стороны, быстрому распространению системы, столь естественно объединяющий разнородные ресурсы, способствовало не в последнюю очередь ее зарождение не в недрах коммерческой фирмы, а в научном учреждении – Европейской лаборатории физики частиц, сотрудники которой не стали делать секретов из своей разработки и даже не попытались на ней разбогатеть. К счастью, сама природа WWW как средства поиска и организации информации позволяет надеяться, что это изобретение не превратится в инструмент одной лишь коммерции и рекламы. Серверы и клиенты WWW связываются между собой по протоколу НТТР. URL для WWW выглядит так http://<адрес сервера>.

Поисковые инструменты первого типа чаще всего называются предметными, или тематическими каталогами. Компания, владеющая таким каталогом, непрерывно ведет огромную работу, исследуя, описывая, каталогизируя и раскладывая по полочкам содержимое WWW серверов и других сетевых ресурсов, разбросанных по всему миру. Результатом ее титанических усилий является постоянно обновляющийся иерархический каталог. На верхнем уровне каталога собраны самые общие категории, такие как «бизнес», «наука» и др. Элементы самого нижнего уровня представляют собой ссылки на отдельные WWW страницы вместе с кратким описанием их содержимого. Гарантий того, что такой каталог действительно охватывает все содержимое WWW, никто не даст, однако возможная неполнота и даже однобокость подбора материалов с лихвой искупается тем, что пока еще не под силу никакому компьютеру – осмысленность отбора.

Предметные каталоги представляют и возможность поиска по ключевым словам. Однако поиск этот происходит не в содержимом самих WWW серверов, а их кратких описаниях, хранящихся в каталоге. Предметные каталоги Internetа можно пересчитать буквально на пальцах, так как их создание и поддержка требуют огромных затрат. К наиболее известным относятся Yahoo, WWW Virtual Library, Galaxy и некоторые другие.

Одно из самых известных систем такого рода – каталог Magellan[1] . Эта база данных содержит сведенья о 80 тыс. WWW страниц, что очень немного в сравнении с теми миллионами, которые существуют в сети. Однако если Yahoo в качестве описания ресурса использует одну – две строчки текста, то сотрудники системы Magellan на некоторые из страниц, заносимые в их базу данных, сами пишут небольшие рецензии, а также оценивают качество этих информационных ресурсов по пятибалльной шкале. Помимо базы рецензии, Magellan владеет также собственным автоматическим индексом, для поиска в котором нужно перебросить переключатель под полем ввода в положение entire database. Как правило, запрос представляет собой одно или несколько ключевых слов, разделенных пробелом.

Похожая по своим принципам служба фирмы Point[2] вообще основной упор делает не на поиск, а на работу с тематическим каталогом. Служба Point известна в сети тем, что ее сотрудники постоянно заняты оцениванием сетевых ресурсов и ведут списки тех узлов, которые как они считают, принадлежат к «лучшим пяти процентам WWW».

Сама фирма Point ведет общедоступную базу данных всех «пятипроцентных» WWW страниц, где о каждом можно прочитать подробную лицензию. Самым старым предметным каталога WWW является каталог Virtual Library[3] . Эта система достаточно полно охватывает научную прослойку WWW серверы университетов, лабораторий и учебных заведений.

Для пользователей в нашей стране определенный интерес может представлять тематический каталог Russia – on- line Subject Guide[4] . Этот каталог содержит довольно пестрое собрание ссылок на зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW.

К проблеме поиска информации в Internet можно подойти и с другой стороны. Существуют программы, в которые загрузили несколько тысяч общеизвестных программ, в которые загрузили несколько тысяч общеизвестных URL адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Поскольку все WWW документы связаны между собой, рано или поздно такая программа обойдет весь Internet. Разумеется, программа не может ни понять, ни как – либо классифицировать то, что она видит в сети. Программы такого типа называются роботами. Они ограничиваются сбором статической информации и построением слов – указателей (индексов) по текстам документов. Собираемая роботом база данных – индекс – хранит в себе сведения о том, в каких WWW документах содержатся те или иные слова. Именно такой автоматически собираемый индекс и лежит в основном поисковых систем второго типа, которые часто так и называют – Автоматические индексы. Автоматический индекс состоит из трех частей: программы – роботы, собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым работает пользователь. Все эти компоненты вполне могут функционировать без вмешательства человека. Поскольку какая – либо классификация или оценивание материалов в системах такого рода отсутствует, к ним следует прибегать только тогда, когда вы точно знаете ключевые слова, относящиеся к тому, что вам нужно, например фамилию человека или несколько достаточно редких терминов из соответствующей области.

Если же задать по сколько – нибудь распространенным словам, то вам не хватит жизни, чтобы обойти все полученное в результате прииска URL адреса. Например, индекс системы Alta Vista содержит 11 млрд. слов, извлеченных из 30 млн. WWW страниц. Автоматических индексов WWW страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и др. Некоторые из них (например, Lycos) представляют собой более или менее удачливый синтез предметного каталога и автоматического индекса.

Одним из мощных поисковых средств в World Wide Web является система Hot Bot, содержащая сведения о полных текстах 110 млн. страниц. Адрес: http://www. Hotbot.com. Hotbot принадлежит к новейшим системам, поэтому его углубленный поиск дает поразительно широкие возможности для детализации запроса. Это достигается за счет использования многоступенчатого меню, предполагающего различные варианты составления поискового предписания. Можно осуществить поиск по наличию в документе одного или нескольких терминов, поиск по определенной фазе, поиск конкретного лица или ссылки на определенный электронный адрес.

Поисковые системы в России

Существуют подобные поисковые средства в России, всех их объединяют возможность обработки материалов во всех кирилличных кодировках. Однако по мощности и уровню предлагаемого сервиса русскоязычные поисковые системы значительно отличаются друг от друга. К лидирующей группе в настоящее время относится системы Rambler, Апорт и Яndex.

Среди фаворитов выделяется система Rambler[5] как первая профессиональная отечественная поисковая система. Это система обеспечивает полнотекстовый поиск на Web – узлах России и стран ближнего зарубежья. Помимо Web – серверов, обследуется также недельный архив телеконференций иерархии Relcom. Главный недостаток Rambler заключается в невозможности осуществлять поиск по целой фазе или хотя бы указывать в запросах предельное расстояние искомых терминов друг от друга.

Поисковая система Апорт[6] снабжена массой различных функций, относящих ее к числу самых удобных для пользователя. Одно из главных достоинств Апорт состоит в широких возможностях составления запроса. Помимо традиционных операторов «и» и «или», поиска по целой фразе система способна вычислить сочетания терминов, расположенных в тексте рядом друг с другом. Апорт предлагает возможность автоматического перевода запроса с русского на английский язык, и наоборот. И Rambler, и Апорт способны выделять один и тот же документ в различных кодировки и выдавать ссылку на него лишь раз, перечисляя конкретные адреса в списке URL.

Информация о работе Поисковые системы в России