Конвертер форматов химических формул OPEN BABEL

Автор работы: Пользователь скрыл имя, 16 Марта 2014 в 11:10, курсовая работа

Краткое описание

История химического информатирования включает в себя огромное разнообразие текстового и компьютерного представления о молекулярных данных. Такие представления дают возможность сосредоточить внимание на конкретной атомной или молекулярной информации и не должны пытаться хранить все возможные химические данные. Для, например, линии нотации, как Daylight Smiles не предлагают координат, в то время как кристаллографических или квантовой механики форматы часто не хранят химического связывания данных. Атомы водорода, часто невозможно опустить в рентгеновской кристаллографии в связи с трудностью в

Содержание

Введение…………………..…………………………………………….…3
Особенности…...................................................................................5
Поддержка формата файла…………………………………………5
Цифровые отпечатки и быстрый поиск………….………………..6
Восприятия связи и печатание атома………………………….…..7
Каноническое изображение молекул……………………….…..8
Координирование поколения в 2D и 3D…………………..…….9
Стереохимия ……………………………………………………...10
Силовые поля …………………………………………………….11
Осуществление…………………………………………….……..13
Технические подробности….………………………………….….13
Код архитектуры………………………………………………….14
Расширяемый интерфейс………………………………..……….16
Лицензия Open Source…………………………………………...16
Проверки и тестирования………………………………………..17
Используются в Open Babel…………………….………………20
Приложения………………………………………………….……20
Программирование библиотеки………………………………..21
Примеры использования…………………………………….…..22
Выводы…………………………………………………………….…….25
Библиографический список……………………………...……………..26

Вложенные файлы: 1 файл

openbabel (1).docx

— 502.71 Кб (Скачать файл)

Министерство ОБРАЗОВАНИя и науки российской федерации

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«АЛТАЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Химический факультет

Кафедра органической химии

 

 

 

Конвертер форматов химических формул 
OPEN BABEL

(реферат по дисциплине «ноф. инф. техн. »)

 

 

 

 

Выполнила:

студентка 3 курса

692 гр. Иванова Н. В.

______________________

 

Работа защищена

«____»__________2012г.

Оценка __________

 

 

Барнаул – 2012 
Содержание



Введение…………………..…………………………………………….…3

  1.  Особенности…...................................................................................5
    1. Поддержка формата файла…………………………………………5
    2. Цифровые отпечатки и быстрый поиск………….………………..6
    3. Восприятия связи и печатание атома………………………….…..7
    4. Каноническое изображение молекул……………………….…..8
    5. Координирование поколения в 2D и 3D…………………..…….9
    6. Стереохимия ……………………………………………………...10
    7. Силовые поля …………………………………………………….11
  2. Осуществление…………………………………………….……..13
    1. Технические подробности….………………………………….….13
    2. Код архитектуры………………………………………………….14
    3. Расширяемый интерфейс………………………………..……….16
    4. Лицензия Open Source…………………………………………...16
    5. Проверки и тестирования………………………………………..17
  3. Используются в Open Babel…………………….………………20
    1. Приложения………………………………………………….……20
    2. Программирование библиотеки………………………………..21
    3. Примеры использования…………………………………….…..22

Выводы…………………………………………………………….…….25

Библиографический список……………………………...……………..26

 
Введение



История химического информатирования включает в себя огромное разнообразие текстового и компьютерного представления о молекулярных данных. Такие представления дают возможность сосредоточить внимание на конкретной атомной или молекулярной информации и не должны пытаться хранить все возможные химические данные. Для, например, линии нотации, как Daylight Smiles не предлагают координат, в то время как кристаллографических или квантовой механики форматы часто не хранят химического связывания данных. Атомы водорода, часто невозможно опустить в рентгеновской кристаллографии в связи с трудностью в определении координат, и зачастую игнорируются некоторые форматы файлов, как "неявные валентность" тяжелых атомов , что указывает на их наличие. Другие типы представлений, требуют уточнения атома типов на основе конкретных валентных связей модель, включением вычисляемых частично данных, индикация молекулярно-биологических формул, или нескольких изомеров.

Хотя попытки были сделаны, чтобы обеспечить стандартный формат для хранения химических данных, в том числе и прежде всего с развитием Chemical Markup Language (CML, язык XML, таких форматов, пока не достигли широкого использования. Следовательно, частой проблемой численного моделирования является interconversion молекулярных структур между различными форматами, а процесс, который включает добычу и интерпретация их химических данных и семантика.

Развития и использования Open Babel проекта, полнофункциональная программа химических инструментов, предназначенная для "говорить" много различных представлений химических данных. Она позволяет: поиск, преобразования, анализ и хранения данных от молекулярного моделирования, химии, твердотельных материалов, биохимии, или в смежных областях. Она представляет готовую к использованию программу, а также полный, расширяемый программиста инструментарий для разработки cheminformatics программного обеспечения. Она может обрабатывать читать, писать, и интерпретировать более 110 химических форматами файлов, поддерживает фильтрацию и поиск молекулы файлы, используя Daylight SMARTS по шаблону и другие методы, и предоставляет расширяемые дактилоскопии и молекулярной механики рамок. В данной работе мной будут представлены: основы для формата файла interconversion, цифровых отпечатков, быстрый молекулярный поиск, облигаций восприятия и атом набрав, канонические нумерация молекулярные структуры и фрагменты, молекулярной механики силовые поля, и расширяемый интерфейсы, предоставляемые библиотекой для дальнейшего химии, разработке программного обеспечения.

Open Babel имеет свое происхождение в версии OELib выпущенной как open-source по OpenEye Научно под лицензией GPL (GNU Public License). В 2001 году, OpenEye решили переписать OELib в дом, в собственности и OEChem библиотеки, поэтому в уже существующий код, от OELib был выпущен новый Open Babel проект. Начиная с 2001 года, Open Babel был разработан и значительно расширен, как международный совместный проект с помощью open-source модели разработки. Он имеет более 160 000 загрузок, более 400 ссылок, используется более 40 проектов по разработке программного обеспечения, и находится в свободном доступе на Open Babel сайте.

 

1 Особенности

1.1 Поддержка Формата Файла

С выходом Open Babel 2.3, Open Babel поддерживает 111 химических форматов файлов в общем. Он может читать 82 формата и записывать в 85 форматов. Они охватывают общие форматы, используется в cheminformatics ( InChI, МОЛ, MOL2), входной и выходной файлы из разнообразие вычислительной химии пакетов (GAMESS, Gaussian, MOPAC), кристаллографические форматы файлов (CIF, ShelX), реакции форматов (MDL RXN), форматов файлов, используемых в молекулярной динамике и док-пакеты (AutoDock ), форматы, используемые 2D-чертежи пакеты (ChemDraw), 3D зрителей (Chem3D, Molden) и химической кинетики и термодинамики (ChemKin, Termo). Форматы реализуются как "plugins" в Open Babel, который делает его легким для пользователя вносить свой вклад новых форматов файлов (см. Расширяемый Интерфейс ниже). В зависимости от формата, другие данные извлекаются путем Open Babel в дополнение к молекулярной структуре; например, вибрационные частоты извлекаются из вычислительной химии журнал файла, ячейка информации извлекается из CIF файлы, и свойств поля чтение из SDF файлов.

Ряд "утилиты" форматы файлов также определены; они не являются, строго говоря, способом хранения молекулярной структуры, а, скорее, представляет определенную функциональность через тот же интерфейс, как и для обычных файлов форматов. Например, формат отчета только для записи утилита в формате, что представляет собой резюме молекулярной структуры молекулы; формат цифровых отпечатков и формат быстрого поиска используются для сходства и подструктур поиска (см. ниже); печать 2D-многоуровневого формата расчета эмиссии цифровых отпечатков определяется Бендер и др и Филимонов и др соответственно.

Каждый формат может иметь несколько вариантов управления либо читать или писать в частности формат. Например, InChI формат имеет 12 вариантов, включая вариант "K", чтобы генерировать в InChIKey, "T <param>" усекают InChI в зависимости от поставляемого параметра и "w", чтобы игнорировать некоторые InChI предупреждения. Доступные параметры перечислены в документации, отображаются в Графическом Интерфейсе Пользователя (GUI), как флажки или текстовые поля, и может быть перечислены в командной строке. В самом деле, все три генерируются из того же источника; в документации, строку в код C++.

1.2 Цифровые отпечатки  и быстрый поиск

Базы данных широко используются для хранения химической информации, особенно в фармацевтической промышленности. Главное требование такой базы данных является возможный индекс химических структур так, что они могут быть быстро восстановлены по запросу подконструкции. Open Babel обеспечивает эта функциональность, используя путь в основе цифровых отпечатков. Именуемым FP2 в Open Babel, он определяет все линейные и кольцевые в молекуле длины с 1 по 7 (за исключением 1-атома подструктур C и N), и отображает их на битово-строковые длины 1024 с помощью хэш-функции. Если запрос молекулы подконструкции целевая молекула, тогда все биты, установленные в запросе, молекулы будут также установлены в целевой молекуле. Цифровые отпечатки на двух молекулах могут также быть использованы для расчета структурных сходств с помощью Tanimoto коэффициент, число битов в общем разделить на союз биты set.

Ясно, повторный поиск по тем же набором молекул потребует многократного использования из того же набора цифровых отпечатков. Чтобы избежать необходимости пересчета цифровые отпечатки в частности, multi-молекулы файла (например, SDF file), Open Babel обеспечивает формат быстрый индекс, который только хранит цифровые отпечатки вместе с индексом исходного файла. Этот индекс приводит к быстрому повышению скорости поиска на запрос – наборов данных в нескольких миллионов молекул легко искать в интерактивном режиме. В этом так, multi-молекулы файл может быть использован в качестве легкой альтернативы химической системы баз данных.

1.3 Восприятия связи и печатание атома

Как упоминалось выше, многие химические форматы файлов предлагают представлять молекулярные данные исключительно в списки атомов. Например, большинство квантово-химических пакетов программного обеспечения, и большинство кристаллографических форматов файлов не дают определенной связи. Аналогичная ситуация возникает в случае Protein Data Bank (PDB) формате, в то время как стандартизированные[19] файлы содержат информацию связности, нестандартные существуют файлы, которые часто невозможно предоставить полную информацию связности. Следовательно, Open Babel характеристики методов определения связей, порядка, ароматичности, и атомов.

Связь определяется часто, используя алгоритм обнаружения атомов ближе, чем сумма их ковалентных радиусов, с небольшой погрешностью (0.45 Å). Для обработки расстройства в кристаллографических данных (напр., PDB или CIF файлов), атомы ближе, чем 0.63 Å не подневольны. Дальнейшая фильтрация проходит, чтобы обеспечить стандартную валентность; каждый элемент имеет максимальное количество связей, если этот предел превышен, то самой длинной связей в атоме последовательно убирается до того, как валентность правильно не выполнится.

После связь определяется, при необходимости или по требованию пользователя, порядок определения осуществляется на основе валентных углов и геометрии. Метод похож на то, что предложено в Роджер Sayle [20] и использует в среднем угол вокруг ООН атома, чтобы определить, sp, sp2. 5-членных и 6-членных колец проверяются для оценки ароматичности. Наконец, атомы, помеченные как ненасыщенные, проверяются на двойную или тройную связь. После этого к исходному атому известные функциональные группы подбираются, ароматические кольца, затем, связи на базе набора эвристических правил для коротких связей, атомной электроотрицательностью, и кольцо членства.

В Open Babel, центральная ароматичная модель используется, в основном, соответствие наиболее часто используемого Daylight Smiles[1], но с добавлением поддержки для ароматических фосфора, селена. Ароматические атомы и связи определяются на основе положения в кольце. Система может содержать 4n+2 π электронов. Ароматичность устанавливается только при вполне определенных валентных связях, Kekulé структуры могут быть определены. Чтобы сделать это, атомы добавляются в систему колец и проверяются против 4n+2 π электронной конфигурации, постепенно увеличивая размер для установления возможных, больше, связанной с ароматическим кольцом системы. После этого кольца системы определяются, исчерпывающий поиск выполняется для назначения одинарных и двойных связей, чтобы удовлетворить все валентности в Kekulé форме. Поскольку этот процесс находится в экспоненциальной сложности, алгоритм прекращает действие в случае более чем 30 уровней рекурсии или с 15 секундным превышением (которое может произойти в случае крупных, слившихся колец систем, таких как углеродные нанотрубки (УНТ)).

1.4 Каноническое изображение молекул

В общем, для любой молекулярной структуры и формат файла, существует большое количество возможных путей структуры, в которых могут храниться, например, есть N! путей упорядочения атомов в MOL файла. Хотя каждая из одного кодирует точно ту же информацию, она может быть полезна для определения канонической нумерации атомов молекулы и использовать это, чтобы получить каноническое представление молекулы для частности, формат файлов. Для нуль-мерного формат файла без координаты, таких, как Smiles, каноническое изображение может быть использовано в качестве индекса базы данных, удалить дубликаты или поиска.

Open Babel реализует сложный алгоритм канонизации, который может обрабатывать молекулы или молекулярные фрагменты. Атом классов симметрии первых инвариантов графа и кодировать топологические и химические свойства. Кооператив маркировки процедуры использует для изучения автоморфных перестановок, чтобы найти канонический код. Хотя алгоритм похож на оригинал Морган канонический код, различных улучшений, направленных на улучшение производительности. В частности, алгоритм реализует эвристики из популярных nauty пакет. Другой аспект обрабатывания канонических кодов стереохимии различных маркировок может привести к разным сторонам. Это осложняется еще и возможностью симметрии-эквивалент stereocenters и stereocenters которого конфигурации взаимосвязаны.

1.5 Координирование поколения в 2D и 3D

Open Babel, версия 2.3, поддержка 2D координат поколения (Рис. 1) через пожертвование кода, Sergey Trepalin, основанный на коде, используемом в MCDL химической структуре редакторе. В MCDL алгоритм направлен на макет молекулярной структуры в 2D, так что все облигации длины равны, и все облигации углом-около 120 градусов. Макет алгоритма включает в себя небольшую базу данных около 150 шаблонов, клетки и циклов. Чтобы справиться с проблемой совмещения фрагментов, алгоритм включает в себя исчерпывающие процедуры поиска, которые вращаются вокруг ациклических облигаций на 180 градусов.

 

Рис . 1. Interconversion от 0, 2D и 3D структур.

 

Структура сертралина, селективных ингибиторов обратного захвата серотонина (СИОЗС), используется в лечении депрессии. – Smile строкой, показанной сверху; можно считать 0 структуру (только связь и стереохимических информаций). Из этого, Open Babel, могут создавать 2D структуры (слева внизу, изображен путем Open Babel) или 3D-структуры (внизу справа, изображен Авогадро).

Координировать поколения в 3D была введена в Open Babel версии 2.2, и улучшена в версии 2.3, чтобы включить преобразование от 0 форматы, такие как Smile 3D форматы, как SDF (Рис. 1) . 3D-структуры генератор строительства линейных компонентов с нуля имеет следующие геометрические правила, основанные на гибридизации атомов. Один-conformer кольцо шаблоны используется для колец систем. Шаблон алгоритм выполняет итерацию через шаблоны от наибольшего к наименьшему. Если соответствие найдено, то алгоритм продолжается, но не будет соответствовать любому кольцу атомов ранее шаблонных за исключением случаев, одного перекрытия (два кольца систем Спиро группы), или пересекаются с участием ровно два соседних атомов (два слившихся кольца систем). После первоначальные структуры генерируются, стереохимии (СНГ/trans и тетраэдральных) корректируется, чтобы соответствовать первоначальным структурам. Наконец, энергетические структуры сводятся к минимуму, используя MMFF94 силового поля и низкой энергии conformer[32].

Информация о работе Конвертер форматов химических формул OPEN BABEL