Автор работы: Пользователь скрыл имя, 20 Апреля 2014 в 21:48, реферат
Сегодня каждый день множество людей неожиданно открывает для себя существование глобальных компьютерных сетей, объединяющих компьютеры во всем мире в едином информационном пространстве, имя которому - Интернет.
Интернет многогранен и нельзя четко определить, что это такое. С технической точки зрения, Интернет - объединение транснациональных компьютерных сетей, работающих по самым разнообразным протоколам, связывающих всевозможные типы компьютеров, физически передающих данные по телефонным проводам и оптоволокну, через спутники и радиомодемы. Подавляющее большинство компьютеров в Интернет связано по протоколам tcp/ip, и именно это, вкупе с требованием наличия подключения к глобальной сети, является критерием присутствия в Интернет.
Основной функцией программного обеспечения на этом уровне является выборка информации из источника, преобразование ее в пакеты и правильная передача в точку назначения.
Есть два принципиально различных способа работы сетевого уровня. Первый - это метод виртуальных каналов. Он состоит в том, что канал связи устанавливается при вызове (начале сеанса (session) связи), по нему передается информация, и по окончании передачи канал закрывается (уничтожается). Передача пакетов происходит с сохранением исходной последовательности, даже если пакеты пересылаются по различным физическим маршрутам, т.е. виртуальный канал динамически перенаправляется. При этом пакеты данных не включают адрес пункта назначения, т.к. он определяется во время установления связи.
Второй - метод дейтаграмм. Дейтаграммы - независимые, они включают всю необходимую для их пересылки информацию. В то время, как первый метод предоставляет следующему уровню надежный канал передачи данных, свободный от искажений (ошибок) и правильно доставляющий пакеты в пункт назначения, второй метод требует от следующего уровня работы над ошибками и проверки доставки нужному адресату. В сети Интернет этот уровень поддерживается IP протоколом.
Уровень 4 - транспортный. Регламентирует пересылку пакетов сообщений между процессами, выполняемыми на компьютерах сети. Завершает организацию передачи данных: контролирует на сквозной основе поток данных, проходящий по маршруту, определенному третьим уровнем: правильность передачи блоков данных, правильность доставки в нужный пункт назначения, их комплектность, сохранность, порядок следования. Собирает информацию из блоков в ее прежний вид. Или же оперирует с дейтаграммами, т.е. ожидает отклика-подтверждения приема из пункта назначения, проверяет правильность доставки и адресации, повторяет посылку дейтаграммы, если не пришел отклик. В рамках транспортного протокола предусмотрено пять классов качества транспортировки и соответствующие процедуры управления. Этот же уровень должен включать развитую и надежную схему адресации для обеспечения связи через множество сетей и шлюзов. Другими словами, задачей данного уровня является довести до ума передачу информации из любой точки в любую во всей сети.
Транспортный уровень скрывает от всех высших уровней любые детали и проблемы передачи данных, обеспечивает стандартное взаимодействие лежащего над ним уровня с приемом-передачей информации независимо от конкретной технической реализации этой передачи. В сети Интернет этот уровень поддерживается протоколом TCP.
Уровень 5 - сеансовый. Координирует взаимодействие связывающихся пользователей: устанавливает их связь, оперирует с ней, восстанавливает аварийно оконченные сеансы. Этот же уровень ответственен за картографию сети - он преобразовывает региональные (доменные) компьютерные имена в числовые адреса, и наоборот. Он координирует не компьютеры и устройства, а процессы в сети, поддерживает их взаимодействие - управляет сеансами связи между процессами прикладного уровня.
Уровень 6 - уровень представления данных. Этот уровень имеет дело с синтаксисом и семантикой передаваемой информации, т.е. здесь устанавливается взаимопонимание двух сообщающихся компьютеров относительно того, как они представляют и понимают по получении передаваемую информацию. Здесь решаются, например, такие задачи, как перекодировка текстовой информации и изображений, сжатие и распаковка, поддержка сетевых файловых систем (NFS), абстрактных структур данных и т.д.
Уровень 7 - прикладной. Обеспечивает интерфейс между пользователем и сетью, делает доступными для человека всевозможные услуги. На этом уровне реализуется, по крайней мере, пять прикладных служб: передача файлов, удаленный терминальный доступ, электронная передача сообщений, служба справочника и управление сетью. В конкретной реализации определяется пользователем (программистом) согласно его насущным нуждам и возможностям его кошелька, интеллекта и фантазии. Имеет дело, например, с множеством различных протоколов терминального типа, которых существует более ста.
3. Поиск в Интернете (поисковые машины)
Поисковые машины
Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день "ползают" по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать "submit" и увидеть, какие страницы удовлетворяют его запросу. Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.
Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу. Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.
Основные поисковые машины Какие из сотен поисковых машин действительно важны для вебмастера? Ну, разумеется, широко известные и часто используемые. Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами:-) Итак, для начала определимся с терминологией.
Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.
Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista. Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.
Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo. Конструкция страниц значения не имеет. Далее речь пойдет в основном о поисковых машинах.
Особенности поисковых машин
Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц. Ниже приведена сравнительная таблица основных поисковых машин. Прочерк означает неизвестные или неисследованные значения.
Тип поисковой машины
"Полнотекстовые" поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. "Абстрактные" поисковые машины создают некий экстракт каждой страницы. Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.
Период обновления
Поскольку Веб изменяется непрерывно, поисковые машины индексируют все без учета даты. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть однодневной давности, а могут быть и месячной давности, а то и больше. Вот некоторые причины, по которым это происходит:
- некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
- другие чаще могут "ползать" по наиболее популярным страницам сети, чем по другим.
Дата индексирования документа
Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой "свежести" ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.
Глубина индексирования
Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система. Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:
- не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле )
- использование imagemap без дублирования их обычными ссылками
Поддержка фреймов
Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.
Частота появления ссылок
Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит тратить время на индексирование такого документа.
Контроль индексации
Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.
Стоп-слова
Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.
Влияние на алгоритм определения релевантности
Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.
Spam-штрафы
Все крупные поисковые системы "не любят", когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.
Поддержка META-тагов
По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.
Title
Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.
Description
Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.
Проверка статуса URL
Очень полезная для вебмастера черта поисковой машины - можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.
4. Безопасность и анонимность в Интернете
Поскольку в настоящее время в интернете существует довольно много хакеров, и никто не может гарантировать сохранность электронной почты, а тем более, что никто кроме адресата не сможет ее прочитать, иногда довольно серьезно встает вопрос конфиденциальности личной переписки. Кроме того, каждый может послать письмо от любого адреса, и по одному обратному адресу мы не можем уверенно сказать, от кого же на самом деле пришло это письмо, то также встает проблема электронной подписи.
Симметричные алгоритмы шифрования
К самым простым методам шифрования относятся "симметричные" алгоритмы шифрования. Их основная особенность состоит в том, что как для зашифровки, так и для расшифровки сообщения используется один и тот же ключ, или пароль. К наиболее известным алгоритмам такого типа относятся DES, Triple DES и RC5.
Такие алгоритмы используются когда вы хотите закодировать некую информацию так, чтобы никто кроме вас не смог ее прочитать. Или вы можете договориться с кем-то об общем ключе, и обмениваться сообщениями, закодированными этим ключем. Например, для этого можно использовать архиватор RAR, в котором, насколько я знаю, используется наиболее стойкий алгоритм шифрования.
Асимметричные алгоритмы шифрования
Но, для того, чтобы обмениваться зашифрованными сообщениями таким образом, нужно сначала договориться об общем ключе, что иногда бывает затруднительным. В таких ситуациях используются "асимметричные" алгоритмы шифрования, например, RSA. Их отличительная особенность в том, что для зашифровки и расшифровки сообщения используются различные ключи.
Таким образом, для передачи зашифрованного сообщения нужна пара ключей. Причем, сообщение, закодированное одним ключом, может быть раскодировано только вторым, и набором - закодированное вторым может быть раскодировано только первым. Один из них обычно называется "секретным", другой - "открытым" или "публичным". После создания такой пары, секретный ключ владелец прячет, чтобы никто больше его не знал, а открытый раздает всем знакомым, например, выкладывает на свою веб-страничку.
Теперь, чтобы послать кому-то конфиденциальное письмо, надо закодировать его открытым ключем адресата, и тогда никто, кроме обладателя секретного ключа, не сможет прочитать содержимого письма.
Электронная подпись
Еще одна из прикладных задач, решаемая крипторгафией, является "электронная подпись". Она используется для того, чтобы подтвердить, что сообщение написал именно конкретный человек.
Для осуществления этого нам надо ввести такое понятие, как хэш, или дайджест сообщения (message digest). Это такое число, которое вычисляется по содержимому сообщения, которое сильно меняется при изменении сообщения, и, зная это число, практически невозможно подобрать оригинальное письмо. Например, таким алгоритмом является MD5.
Далее, электронная подпись делается следующим образом. Отправитель письма вычисляет его хэш, или дайджест, и затем кодирует его своим секретным ключем. Это и является "электронной подписью", которая посылается вместе с самим письмом. Далее, получатель письма может сам вычислить дайджест полученного письма, и раскодировать электронную подпись открытым ключем отправителя. Если полученные два числа совпали, значит это письмо получено от настоящего отправителем, т.к. только он знает секретный ключ, и только он мог сделать правильную электронную подпись.