Обзор и сравнение наиболее распространенных DLP-систем

Автор работы: Пользователь скрыл имя, 15 Января 2014 в 21:28, реферат

Краткое описание

Прежде чем говорить о рынке DLP-систем, необходимо определиться с тем, что, собственно говоря, подразумевается, когда речь идёт о подобных решениях. Под DLP-системами принято понимать программные продукты, защищающие организации от утечек конфиденциальной информации. Сама аббревиатура DLP расшифровывается как Data Leak Prevention, то есть, предотвращение утечек данных.
Подобного рода системы создают защищенный цифровой «периметр» вокруг организации, анализируя всю исходящую, а в ряде случаев и исходящую информацию.

Вложенные файлы: 1 файл

DLP20l.docx

— 1.88 Мб (Скачать файл)

 

Но самым большим и  наиболее часто критикуемым недостатком  лингвистических технологий является все-таки вероятностный подход к  категоризации. Если вы когда-нибудь читали письмо с категорией "Probably SPAM", то поймете, о чем идёт речь. Если такое творится со спамом, где всего две категории (спам/не спам), можно себе представить, что будет, когда в систему загрузят несколько десятков категорий и классов конфиденциальности. Хотя обучением системы можно достигнуть 92-95% точности, для большинства пользователей это означает, что каждое десятое или двадцатое перемещение информации будет ошибочно причислено не к тому классу со всеми вытекающими для бизнеса последствиями (утечка или прерывание легитимного процесса).

 

Обычно не принято относить к недостаткам сложность разработки технологии, но не упомянуть о ней  нельзя. Разработка серьезного лингвистического движка с категоризацией текстов  более чем по двум категориям —  наукоемкий и довольно сложный технологически процесс. Прикладная лингвистика —  быстро развивающаяся наука, получившая сильный толчок в развитии с распространением интернет-поиска, но сегодня на рынке присутствуют единицы работоспособных движков категоризации: для русского языка их всего два, а для некоторых языков их просто еще не разработали. Поэтому на DLP-рынке существует лишь пара компаний, которые способны в полной мере категоризировать информацию "на лету". Можно предположить, что когда рынок DLP увеличится до многомиллиардных размеров, на него с легкостью выйдет Google. С собственным лингвистическим движком, оттестированным на триллионах поисковых запросов по тысячам категорий, ему не составит труда сразу отхватить серьезный кусок этого рынка.

 

Статистический  метод

 

Задача компьютерного  поиска значимых цитат (почему именно "значимых" — немного позже) заинтересовала лингвистов еще в 70-х  годах прошлого века, если не раньше. Текст разбивался на куски определенного размера, с каждого из которых снимался хеш. Если некоторая последовательность хешей встречалась в двух текстах одновременно, то с большой вероятностью тексты в этих областях совпадали.

 

Побочным продуктом исследований в этой области является, например, "альтернативная хронология" Анатолия Фоменко, уважаемого ученого, который  занимался "корреляциями текстов" и однажды сравнил русские  летописи разных исторических периодов. Удивившись, насколько совпадают  летописи разных веков (более чем  на 60%), в конце 70-х он выдвинул теорию, что наша хронология на несколько  веков короче. Поэтому, когда какая-то выходящая на рынок DLP-компания предлагает "революционную технологию поиска цитат", можно с большой вероятностью утверждать, что ничего, кроме новой  торговой марки, компания не создала.

 

Статистические технологии относятся к текстам не как  к связной последовательности слов, а как к произвольной последовательности символов, поэтому одинаково хорошо работают с текстами на любых языках. Поскольку любой цифровой объект — хоть картинка, хоть программа  — тоже последовательность символов, то те же методы могут применяться  для анализа не только текстовой  информации, но и любых цифровых объектов. И если совпадают хеши в двух аудиофайлах — наверняка в одном из них содержится цитата из другого, поэтому статистические методы являются эффективными средствами защиты от утечки аудио и видео, активно применяющиеся в музыкальных студиях и кинокомпаниях.

 

Самое время вернуться  к понятию "значимая цитата". Ключевой характеристикой сложного хеша, снимаемого с защищаемого объекта (который в разных продуктах называется то Digital Fingerprint, то Document DNA), является шаг, с которым снимается хеш. Как можно понять из описания, такой "отпечаток" является уникальной характеристикой объекта и при этом имеет свой размер. Это важно, поскольку если снять отпечатки с миллионов документов (а это объем хранилища среднего банка), то для хранения всех отпечатков понадобится достаточное количество дискового пространства. От шага хеша зависит размер такого отпечатка — чем меньше шаг, тем больше отпечаток. Если снимать хеш с шагом в один символ, то размер отпечатка превысит размер самого образца. Если для уменьшения "веса" отпечатка увеличить шаг (например, 10 000 символов), то вместе с этим увеличивается вероятность того, что документ, содержащий цитату из образца длиной в 9 900 символов, будет конфиденциальным, но при этом проскочит незаметно.

 

С другой стороны, если для  увеличения точности обнаружения брать очень мелкий шаг, несколько символов, то можно увеличить количество ложных срабатываний до неприемлемой величины. В терминах текста это означает, что не стоит снимать хеш с каждой буквы — все слова состоят из букв, и система будет принимать наличие букв в тексте за содержание цитаты из текста-образца. Обычно производители сами рекомендуют некоторый оптимальный шаг снятия хешей, чтобы размер цитаты был достаточный и при этом вес самого отпечатка был небольшой — от 3% (текст) до 15% (сжатое видео). В некоторых продуктах производители позволяют менять размер значимости цитаты, то есть увеличивать или уменьшать шаг хеша.

 

Достоинства технологии

 

Как можно понять из описания, для детектирования цитаты нужен  объект-образец. И статистические методы могут с хорошей точностью (до 100%) сказать, есть в проверяемом файле  значимая цитата из образца или нет. То есть система не берет на себя ответственность за категоризацию  документов — такая работа полностью  лежит на совести того, кто категоризировал файлы перед снятием отпечатков. Это сильно облегчает защиту информации в случае, если на предприятии в некотором месте (местах) хранятся нечасто изменяющиеся и уже категоризированные файлы. Тогда достаточно с каждого из этих файлов снять отпечаток, и система будет, в соответствии с настройками, блокировать пересылку или копирование файлов, содержащих значимые цитаты из образцов.

 

Независимость статистических методов от языка текста и нетекстовой  информации — тоже неоспоримое преимущество. Они хороши при защите статических  цифровых объектов любого типа — картинок, аудио/видео, баз данных.

 

Недостатки технологии

 

Как и в случае с лингвистикой, недостатки технологии — обратная сторона достоинств. Простота обучения системы (указал системе файл, и он уже защищен) перекладывает на пользователя ответственность за обучение системы. Если вдруг конфиденциальный файл оказался не в том месте либо не был проиндексирован  по халатности или злому умыслу, то система его защищать не будет. Соответственно, компании, заботящиеся  о защите конфиденциальной информации от утечки, должны предусмотреть процедуру  контроля того, как индексируются DLP-системой конфиденциальные файлы.

 

Еще один недостаток — физический размер отпечатка. Известны впечатляющие пилотные проекты на отпечатках, когда DLP-система со 100% вероятностью блокирует пересылку документов, содержащих значимые цитаты из трехсот документов-образцов. Однако через год эксплуатации системы в боевом режиме отпечаток каждого исходящего письма сравнивается уже не с тремя сотнями, а с миллионами отпечатков-образцов, что существенно замедляет работу почтовой системы, вызывая задержки в десятки минут.

 

 

 

Единство и  борьба противоположностей

 

Очевидно, что сила одной технологии проявляется там, где слаба другая. Лингвистике не нужны образцы, она категоризирует данные на лету и может защищать информацию, с которой случайно или умышленно не был снят отпечаток. Отпечаток дает лучшую точность и поэтому предпочтительнее для использования в автоматическом режиме. Лингвистика отлично работает с текстами, отпечатки — с другими форматами хранения информации.

 

Поэтому большинство компаний-лидеров  используют в своих разработках  обе технологии, при этом одна из них является основной, а другая — дополнительной. Это связано  с тем, что изначально продукты компании использовали только одну технологию, в которой компания продвинулась дальше, а затем, по требованию рынка, была подключена вторая. Так, например, ранее InfoWatch использовал только лицензированную лингвистическую технологию Morph-OLogic, а Websense — технологию PreciseID, относящуюся к категории Digital Fingerprint, но сейчас компании используют оба метода. В идеале использовать две эти технологии нужно не параллельно, а последовательно. Например, отпечатки лучше справятся с определением типа документа — договор это или балансовая ведомость, например. Затем можно подключать уже лингвистическую базу, созданную специально для этой категории. Это сильно экономит вычислительные ресурсы.

 

За пределами статьи остались еще несколько типов технологий, используемых в DLP-продуктах. К таким  относятся, например, анализатор структур, позволяющий находить в объектах формальные структуры (номера кредитных  карт, паспортов, ИНН и так далее), которые невозможно детектировать  ни с помощью лингвистики, ни с  помощью отпечатков. Также не раскрыта тема разного типа меток — от записей в атрибутных полях файла  или просто специального наименования файлов до специальных криптоконтейнеров. Последняя технология отживает свое, поскольку большинство производителей предпочитает не изобретать велосипед самостоятельно, а интегрироваться с производителями DRM-систем, такими как Oracle IRM или Microsoft RMS.

 

Решения

Основными требованиями к  кандидатам были стоимость комплекса  и количество контролируемых каналов.

 В сравнении принимали  участие: 

  1. SecurIT ZGate

 

 

 

 

  1. InfoWatch Traffic Monitor

 

 

 

 

  1. Symantec Data Loss Prevention

 

 

 

  1. Search Inform Контур безопасности

 

  1. FalconGaze SecureTower

 

 

 

Информация о продуктах  бралась с официальных сайтов и от региональных представителей компаний. Вот что получилось в итоге:

                                                                                                                                                                         

Компания

SecurIT

InfoWatch

Symantec

SearchInform

FalconGaze

Название системы

ZGate

TrafficMonitor

DataLossPrevention

Контур безопасности

SecureTower

Модульность системы

Да

Нет

Нет

Да

Нет

Места установки

На сервер+ZLock на клиентские ПК

Сервер, клиент

Сервер, клиент

Сервер, клиент

Сервер, клиент

Наличие сертификатов и лицензий

ФСТЭК НДВ 3 и ОУД4

ФСТЭК НДВ 4 и ИСПДн 1, Газпромсерт, Аккредитация ЦБ, сертификат совместимости eToken

ФСТЭК НДВ 4

ФСТЭК НДВ 4

ФСТЭК НДВ 4 и ИСПДн 2

Лицензирование

Почтовые ящики, рабочие места

Каналы перехвата, технологии анализа

n/a

Сервер, mail, IM, Skype, Print, device, HTTP, FTP

Рабочее место

Роли

Любое количество

Несколько

Любое количество

Любое количество

Администратор системы, офицер безопасности

Контроль IM

Да

Да

Да

Да

Да

Контроль HTTP/HTTPS, FTP

Да

Да

Да

Да

Да

Контроль Skype

Текст

Текст

Нет

Да

Да

Контроль E-mail

Да

Да

Да

Да

Да

Социальные сети и блоги

Да

Да

Да

Да

Да

Контроль подключаемых внешних устройств

При покупке Zlock

Да

Да

Да

Нет


                                                                                                                                                                           

Компания

SecurIT

InfoWatch

Symantec

SearchInform

FalconGaze

Название системы

ZGate

TrafficMonitor

DataLossPrevention

Контур безопасности

SecureTower

Контроль портов

USB,COM,LPT, Wi-Fi, Bluetooth

USB,COM,LPT, Wi-Fi, Bluetooth

USB,COM,LPT, Wi-Fi, Bluetooth

USB, LPT

USB, LPT

Блокируемые протоколы

HTTP, HTTPS, SMTP, OSCAR

HTTP, HTTPS, FTP, FTP over HTTP, FTPS, SMTP, SMTP/S, ESMTP, POP3, POP3S, IMAP4, IMAP4S

SMTP, HTTP, HTTPS FTP, Yahoo

Messenger, MSN

Messenger,

AIM, AIM Pro

Messenger, MSN

Messenger,

AIM, AIM Pro

Messenger, MSN

Messenger,

AIM, AIM Pro

SMTP, POP3, MAPI, IMAP, HTTP,FTP, ICQ, Jabber

HTTP, HTTPS, FTP, FTTPS, Вся почта и IM

Анализ по словарю

Да

Да

Да

Да

Да

Лингвистический анализ

Да

Да+БКФ

Нет

да

Да

Анализ транслита

Да

Да

Нет

n/a

n/a

Анализ архивов

Да

Да

Да

Да

Да

Анализ рисунков

Да

Да

Да

Да

Нет

Предустановленные шаблоны фильтрации

Да

Да

Да

Да

Да

Задержка отправки подозрительных сообщений

Да, ОБ принимает решение

Да, ОБ принимает решение

Да, пользователь объясняет причину  отправки, инцидент фиксируется

n/a

Нет, только информирование офицера  ИБ

Логирование действий администраторов системы

Да

Да

Да

n/a

В случае утановки агента на РМ администратора

Режим установки агентов

Открытый

n/a

n/a

n/a

Тайный/Открытый

Информация о работе Обзор и сравнение наиболее распространенных DLP-систем