Автор работы: Пользователь скрыл имя, 03 Апреля 2014 в 09:23, реферат
В качестве прикладных задач геоинформатики была выбрана задача кластеризации гиперспектральных изображений. В ходе проведённого исследования были получены следующие результаты:
для ISODATA алгоритма кластеризации гиперспектральных изображений разработаны параллельные алгоритмы с применением технологий MapReduce и MPI;
выполнена программная реализация параллельных алгоритмов кластеризации гиперспектральных изображений;
результаты работы программ были протестированы на данных, предоставленных сотрудниками кафедры геоинформатики КазНУ имени аль-Фараби.
Выходные данные Reducer-а считываются Mapper-ом, соединяются со статическими данными, хранящимися в локальной файловой системе, затем выполняется тело функции Map.
Рисунок 5. Поток данных для итерационного алгоритма кластеризации
Реализация алгоритма кластеризации и анализ результатов. Для тестирования разработанного приложения была настроена инфраструктура, которая включала в себя 6 компьютеров Core i-5 с объемом оперативной памяти 8Gb RAM, 2 сервера HP Blade с 4 Core Intel Xeon процессорами, коммутатор с подключением к гигабитной сети.
На всех компьютерах была установлена 64-битная операционная система Ubuntu 12.10 и платформа Hadoop 2.0. Тестирование проводилось на различных объемах входных данных: рассматривались объемы изображений в 100´100, 200´200, 300´300, 400´400, 500´500 пикселей. Для сравнения результатов проводилось тестирование без использования комбинатора и с использованием комбинатора.
Результаты выполнения кластеризации на платформе Hadoop показаны на рис. 6-10.
Рисунок 6. Время выполнения кластеризации с MapReduce без комбинатора
Рисунок 7. Время выполнения кластеризации с MapReduce с комбинатором
Рисунок 8. Сравнение времени выполнения кластеризации с MapReduce без комбинатора и MapReduce с комбинатором
Как видно на рис. 8, включение функции комбинатора улучшает время выполнения алгоритма. Причем с увеличением объема обрабатываемой информации заметнее выражается выигрыш во времени.
Для сравнительного анализа эффективности применения технологии MapReduce для задач кластеризации были проведены тесты с применением технологии MPI на тех же объемах данных (рис. 9). На рис. 10 представлены результаты времени выполнения алгоритмов кластеризации MapReduce без комбинатора, MapReduce с комбинатором, а также с применением MPI.
Рисунок 9. Время выполнения кластеризации c применением технологии MPI
Рисунок 10. Сравнение времени выполнения кластеризации с MapReduce без комбинатора, MapReduce с комбинатором, MPI
Экспериментальные результаты показывают (рис. 10), что алгоритмы кластеризации с применением технологии MapReduce могут эффективно обрабатывать большие объемы данных.
Для визуализации результатов был разработан графический интерфейс в среде Eclipse (рис. 11). На рис. 12 показано изображение до кластеризации, а на рис. 13 – изображение после кластеризации. Выполнение задачи кластеризации было распределено на 6 вычислительных узлов.
Рисунок 11. Графический интерфейс для задач кластеризации
|
|
Рисунок 12. Изображение до кластеризации |
Рисунок 13. Изображение после кластеризации |
Заключение. В работе предложен параллельный итерационный алгоритм кластеризации с использованием комбинаторов, реализованный на платформе MapReduce Hadoop. Повышение производительности достигается за счет управления процессом обработки данных. Особенностью данной работы является то, что а) обрабатываемые данные делятся на два вида: статические, которые хранятся в локальной файловой системе, и данные состояния, которые участвуют в обмене между функциями Mapи Reduce; б) итерационный алгоритм использует комбинаторы, которые позволяют уменьшить объем данных, участвующих в обмене MapReduce процессов.
Представленные в данной работе результаты доказывают эффективность применения технологии MapReduce для обработки данных ДДЗ. Парадигма MapReduce может быть применена для других алгоритмов обработки данных ДЗЗ, при этом ожидается получение значительного выигрыша в производительности.
Данная работа выполнялась в рамках научно-технического проекта по грантовому финансированию «Разработка моделей и приложений высокопроизводительной распределенной обработки данных на основе технологии MapReduce – Hadoop для задач нефтедобычи».
Список использованной литературы
Информация о работе Разработка вычислительных алгоритмов для решения задач геоинформатики