Автор работы: Пользователь скрыл имя, 16 Марта 2014 в 11:10, курсовая работа
Краткое описание
История химического информатирования включает в себя огромное разнообразие текстового и компьютерного представления о молекулярных данных. Такие представления дают возможность сосредоточить внимание на конкретной атомной или молекулярной информации и не должны пытаться хранить все возможные химические данные. Для, например, линии нотации, как Daylight Smiles не предлагают координат, в то время как кристаллографических или квантовой механики форматы часто не хранят химического связывания данных. Атомы водорода, часто невозможно опустить в рентгеновской кристаллографии в связи с трудностью в
Содержание
Введение…………………..…………………………………………….…3 Особенности…...................................................................................5 Поддержка формата файла…………………………………………5 Цифровые отпечатки и быстрый поиск………….………………..6 Восприятия связи и печатание атома………………………….…..7 Каноническое изображение молекул……………………….…..8 Координирование поколения в 2D и 3D…………………..…….9 Стереохимия ……………………………………………………...10 Силовые поля …………………………………………………….11 Осуществление…………………………………………….……..13 Технические подробности….………………………………….….13 Код архитектуры………………………………………………….14 Расширяемый интерфейс………………………………..……….16 Лицензия Open Source…………………………………………...16 Проверки и тестирования………………………………………..17 Используются в Open Babel…………………….………………20 Приложения………………………………………………….……20 Программирование библиотеки………………………………..21 Примеры использования…………………………………….…..22 Выводы…………………………………………………………….…….25 Библиографический список……………………………...……………..26
История химического информатирования
включает в себя огромное разнообразие
текстового и компьютерного представления
о молекулярных данных. Такие представления
дают возможность сосредоточить внимание
на конкретной атомной или молекулярной
информации и не должны пытаться хранить
все возможные химические данные. Для,
например, линии нотации, как Daylight Smiles
не предлагают координат, в то время как
кристаллографических или квантовой механики
форматы часто не хранят химического связывания
данных. Атомы водорода, часто невозможно
опустить в рентгеновской кристаллографии
в связи с трудностью в определении координат,
и зачастую игнорируются некоторые форматы
файлов, как "неявные валентность"
тяжелых атомов , что указывает на их наличие.
Другие типы представлений, требуют уточнения
атома типов на основе конкретных валентных
связей модель, включением вычисляемых
частично данных, индикация молекулярно-биологических
формул, или нескольких изомеров.
Хотя попытки были сделаны,
чтобы обеспечить стандартный формат
для хранения химических данных, в том
числе и прежде всего с развитием Chemical Markup Language (CML,
язык XML, таких форматов, пока не достигли
широкого использования. Следовательно,
частой проблемой численного моделирования
является interconversion молекулярных структур
между различными форматами, а процесс,
который включает добычу и интерпретация
их химических данных и семантика.
Развития и использования Open Babel проекта,
полнофункциональная программа химических
инструментов, предназначенная для "говорить"
много различных представлений химических
данных. Она позволяет: поиск, преобразования,
анализ и хранения данных от молекулярного
моделирования, химии, твердотельных материалов,
биохимии, или в смежных областях. Она
представляет готовую к использованию
программу, а также полный, расширяемый
программиста инструментарий для разработки
cheminformatics программного обеспечения. Она
может обрабатывать читать, писать, и интерпретировать
более 110 химических форматами файлов,
поддерживает фильтрацию и поиск молекулы
файлы, используя Daylight SMARTS по шаблону
и другие методы, и предоставляет расширяемые
дактилоскопии и молекулярной механики
рамок. В данной работе мной будут представлены:
основы для формата файла interconversion, цифровых
отпечатков, быстрый молекулярный поиск,
облигаций восприятия и атом набрав, канонические
нумерация молекулярные структуры и фрагменты,
молекулярной механики силовые поля, и
расширяемый интерфейсы, предоставляемые
библиотекой для дальнейшего химии, разработке
программного обеспечения.
Open Babel имеет свое происхождение в
версии OELib выпущенной как open-source по OpenEye
Научно под лицензией GPL (GNU Public License). В
2001 году, OpenEye решили переписать OELib в дом,
в собственности и OEChem библиотеки, поэтому
в уже существующий код, от OELib был выпущен
новый Open Babel проект. Начиная
с 2001 года, Open Babel был разработан
и значительно расширен, как международный
совместный проект с помощью open-source модели
разработки. Он имеет более 160
000 загрузок, более 400 ссылок, используется
более 40 проектов по разработке программного
обеспечения, и находится в свободном
доступе на Open Babel сайте.
1 Особенности
1.1 Поддержка Формата
Файла
С выходом Open Babel 2.3, Open Babel поддерживает
111 химических форматов файлов в общем.
Он может читать 82 формата и записывать
в 85 форматов. Они охватывают общие форматы,
используется в cheminformatics ( InChI, МОЛ, MOL2),
входной и выходной файлы из разнообразие
вычислительной химии пакетов (GAMESS, Gaussian,
MOPAC), кристаллографические форматы файлов
(CIF, ShelX), реакции форматов (MDL RXN), форматов
файлов, используемых в молекулярной динамике
и док-пакеты (AutoDock ), форматы, используемые
2D-чертежи пакеты (ChemDraw), 3D зрителей (Chem3D,
Molden) и химической кинетики и термодинамики
(ChemKin, Termo). Форматы реализуются как "plugins"
в Open Babel, который
делает его легким для пользователя вносить
свой вклад новых форматов файлов (см.
Расширяемый Интерфейс ниже). В зависимости
от формата, другие данные извлекаются
путем Open Babel в дополнение
к молекулярной структуре; например, вибрационные
частоты извлекаются из вычислительной
химии журнал файла, ячейка информации
извлекается из CIF файлы, и свойств поля
чтение из SDF файлов.
Ряд "утилиты" форматы
файлов также определены; они не являются,
строго говоря, способом хранения молекулярной
структуры, а, скорее, представляет определенную
функциональность через тот же интерфейс,
как и для обычных файлов форматов. Например,
формат отчета только для записи утилита
в формате, что представляет собой
резюме молекулярной структуры молекулы;
формат цифровых отпечатков и формат
быстрого поиска используются для сходства
и подструктур поиска (см. ниже); печать 2D-многоуровневого
формата расчета эмиссии цифровых отпечатков
определяется Бендер и др
и Филимонов и др соответственно.
Каждый формат может иметь несколько
вариантов управления либо читать или
писать в частности формат. Например, InChI
формат имеет 12 вариантов, включая вариант
"K", чтобы генерировать в InChIKey, "T
<param>" усекают InChI в зависимости от
поставляемого параметра и "w", чтобы
игнорировать некоторые InChI предупреждения.
Доступные параметры перечислены в документации,
отображаются в Графическом Интерфейсе
Пользователя (GUI), как флажки или текстовые
поля, и может быть перечислены в командной
строке. В самом деле, все три генерируются
из того же источника; в документации,
строку в код C++.
1.2 Цифровые отпечатки
и быстрый поиск
Базы данных широко используются
для хранения химической информации, особенно
в фармацевтической промышленности. Главное
требование такой базы данных является
возможный индекс химических структур
так, что они могут быть быстро восстановлены
по запросу подконструкции. Open Babel обеспечивает
эта функциональность, используя путь
в основе цифровых отпечатков. Именуемым FP2 в Open Babel, он определяет
все линейные и кольцевые в молекуле длины
с 1 по 7 (за исключением 1-атома подструктур
C и N), и отображает их на битово-строковые
длины 1024 с помощью хэш-функции. Если запрос
молекулы подконструкции целевая молекула,
тогда все биты, установленные в запросе,
молекулы будут также установлены в целевой
молекуле. Цифровые отпечатки на двух
молекулах могут также быть использованы
для расчета структурных сходств с помощью
Tanimoto коэффициент, число битов в общем
разделить на союз биты set.
Ясно, повторный поиск по тем
же набором молекул потребует многократного
использования из того же набора цифровых
отпечатков. Чтобы избежать необходимости
пересчета цифровые отпечатки в частности,
multi-молекулы файла (например, SDF file), Open Babel обеспечивает
формат быстрый индекс, который только
хранит цифровые отпечатки вместе с индексом
исходного файла. Этот индекс приводит
к быстрому повышению скорости поиска
на запрос – наборов данных в нескольких
миллионов молекул легко искать в интерактивном
режиме. В этом так, multi-молекулы файл может
быть использован в качестве легкой альтернативы
химической системы баз данных.
1.3 Восприятия связи
и печатание атома
Как упоминалось выше, многие
химические форматы файлов предлагают
представлять молекулярные данные исключительно
в списки атомов. Например, большинство
квантово-химических пакетов программного
обеспечения, и большинство кристаллографических
форматов файлов не дают определенной
связи. Аналогичная ситуация возникает
в случае Protein Data Bank (PDB) формате, в то время
как стандартизированные[19] файлы содержат информацию
связности, нестандартные существуют
файлы, которые часто невозможно предоставить
полную информацию связности. Следовательно, Open Babel характеристики
методов определения связей, порядка,
ароматичности, и атомов.
Связь определяется часто, используя
алгоритм обнаружения атомов ближе, чем
сумма их ковалентных радиусов, с небольшой
погрешностью (0.45 Å). Для обработки расстройства
в кристаллографических данных (напр.,
PDB или CIF файлов), атомы ближе, чем 0.63 Å
не подневольны. Дальнейшая фильтрация
проходит, чтобы обеспечить стандартную
валентность; каждый элемент имеет максимальное
количество связей, если этот предел превышен,
то самой длинной связей в атоме последовательно
убирается до того, как валентность правильно
не выполнится.
После связь определяется, при
необходимости или по требованию пользователя,
порядок определения осуществляется на
основе валентных углов и геометрии. Метод
похож на то, что предложено в Роджер Sayle [20] и использует в среднем угол
вокруг ООН атома, чтобы определить, sp,
sp2. 5-членных
и 6-членных колец проверяются для оценки
ароматичности. Наконец, атомы, помеченные
как ненасыщенные, проверяются на двойную
или тройную связь. После этого к исходному
атому известные функциональные группы
подбираются, ароматические кольца, затем,
связи на базе набора эвристических правил
для коротких связей, атомной электроотрицательностью,
и кольцо членства.
В Open Babel, центральная
ароматичная модель используется, в основном,
соответствие наиболее часто используемого
Daylight Smiles[1], но с добавлением поддержки
для ароматических фосфора, селена. Ароматические
атомы и связи определяются на основе
положения в кольце. Система может содержать
4n+2 π электронов. Ароматичность устанавливается
только при вполне определенных валентных
связях, Kekulé структуры могут быть определены.
Чтобы сделать это, атомы добавляются
в систему колец и проверяются против
4n+2 π электронной конфигурации, постепенно
увеличивая размер для установления возможных,
больше, связанной с ароматическим кольцом
системы. После этого кольца системы определяются,
исчерпывающий поиск выполняется для
назначения одинарных и двойных связей,
чтобы удовлетворить все валентности
в Kekulé форме. Поскольку этот процесс находится
в экспоненциальной сложности, алгоритм
прекращает действие в случае более чем
30 уровней рекурсии или с 15 секундным превышением
(которое может произойти в случае крупных,
слившихся колец систем, таких как углеродные
нанотрубки (УНТ)).
1.4
Каноническое изображение молекул
В общем, для любой молекулярной
структуры и формат файла, существует
большое количество возможных путей структуры,
в которых могут храниться, например, есть
N! путей упорядочения атомов в MOL файла.
Хотя каждая из одного кодирует точно
ту же информацию, она может быть полезна
для определения канонической нумерации
атомов молекулы и использовать это, чтобы
получить каноническое представление
молекулы для частности, формат файлов.
Для нуль-мерного формат файла без координаты,
таких, как Smiles, каноническое изображение
может быть использовано в качестве индекса
базы данных, удалить дубликаты или поиска.
Open Babel реализует сложный алгоритм
канонизации, который может обрабатывать
молекулы или молекулярные фрагменты.
Атом классов симметрии первых инвариантов
графа и кодировать топологические и химические
свойства. Кооператив маркировки процедуры
использует для изучения автоморфных
перестановок, чтобы найти канонический
код. Хотя алгоритм похож на оригинал Морган
канонический код, различных улучшений,
направленных на улучшение производительности.
В частности, алгоритм реализует эвристики
из популярных nauty пакет.
Другой аспект обрабатывания канонических
кодов стереохимии различных маркировок
может привести к разным сторонам. Это
осложняется еще и возможностью симметрии-эквивалент
stereocenters и stereocenters которого конфигурации
взаимосвязаны.
1.5
Координирование поколения в 2D и 3D
Open Babel, версия 2.3, поддержка 2D координат
поколения (Рис. 1) через пожертвование кода,
Sergey Trepalin, основанный на коде, используемом
в MCDL химической структуре редакторе.
В MCDL алгоритм направлен на макет молекулярной
структуры в 2D, так что все облигации длины
равны, и все облигации углом-около 120 градусов.
Макет алгоритма включает в себя небольшую
базу данных около 150 шаблонов, клетки
и циклов. Чтобы справиться с проблемой
совмещения фрагментов, алгоритм включает
в себя исчерпывающие процедуры поиска,
которые вращаются вокруг ациклических
облигаций на 180 градусов.
Рис
. 1. Interconversion от 0, 2D и
3D структур.
Структура сертралина, селективных
ингибиторов обратного захвата серотонина
(СИОЗС), используется в лечении депрессии.
– Smile строкой, показанной сверху; можно
считать 0 структуру (только связь и стереохимических
информаций). Из этого, Open Babel, могут создавать
2D структуры (слева внизу, изображен путем Open Babel) или 3D-структуры
(внизу справа, изображен Авогадро).
Координировать поколения в
3D была введена в Open Babel версии 2.2,
и улучшена в версии 2.3, чтобы включить
преобразование от 0 форматы, такие как
Smile 3D форматы, как SDF (Рис. 1) . 3D-структуры генератор строительства
линейных компонентов с нуля имеет следующие
геометрические правила, основанные на
гибридизации атомов. Один-conformer кольцо
шаблоны используется для колец систем.
Шаблон алгоритм выполняет итерацию через
шаблоны от наибольшего к наименьшему.
Если соответствие найдено, то алгоритм
продолжается, но не будет соответствовать
любому кольцу атомов ранее шаблонных
за исключением случаев, одного перекрытия
(два кольца систем Спиро группы), или пересекаются
с участием ровно два соседних атомов
(два слившихся кольца систем). После первоначальные
структуры генерируются, стереохимии
(СНГ/trans и тетраэдральных) корректируется,
чтобы соответствовать первоначальным
структурам. Наконец, энергетические структуры
сводятся к минимуму, используя MMFF94 силового
поля
и низкой энергии conformer[32].