Formato de arquivo químico - Chemical file format

Este artigo discute alguns formatos comuns de arquivos moleculares , incluindo o uso e a conversão entre eles.

Formatos distintos

As informações químicas geralmente são fornecidas como arquivos ou fluxos e muitos formatos foram criados, com vários graus de documentação. O formato é indicado de três maneiras (consulte a seção MIME química)

  • extensão de arquivo (geralmente 3 letras). Isso é amplamente usado, mas frágil, pois sufixos comuns como ".mol" e ".dat" são usados ​​por muitos sistemas, incluindo os não químicos.
  • arquivos autoexplicativos em que as informações de formato são incluídas no arquivo. Os exemplos são CIF e CML.
  • tipo químico / MIME adicionado por um servidor com conhecimento químico.

Linguagem de marcação química

Chemical Markup Language (CML) é um padrão aberto para representar dados moleculares e outros dados químicos. O projeto de código aberto inclui esquema XML, código-fonte para analisar e trabalhar com dados CML e uma comunidade ativa. Os artigos Ferramentas para trabalhar com linguagem de marcação química e XML para química e biociências discutem a CML com mais detalhes. Os arquivos de dados CML são aceitos por muitas ferramentas, incluindo JChemPaint , Jmol , XDrawChem e MarvinView.

Formato de banco de dados de proteínas

O Protein Data Bank Format é comumente usado para proteínas, mas também pode ser usado para outros tipos de moléculas. Ele foi originalmente projetado como, e continua a ser, um formato de largura de coluna fixa e, portanto, oficialmente tem um número máximo embutido de átomos, de resíduos e de cadeias; isso resultou na divisão de estruturas muito grandes, como os ribossomos, em vários arquivos. No entanto, muitas ferramentas podem ler arquivos que excedem esses limites. Por exemplo, o ribossomo E. coli 70S foi representado como 4 arquivos PDB em 2009: 3I1M , 3I1N , 3I1O e 3I1P. Em 2014 foram consolidados em um único arquivo, o 4V6C .

Alguns arquivos PDB contêm uma seção opcional que descreve a conectividade do átomo, bem como a posição. Como esses arquivos às vezes são usados ​​para descrever conjuntos macromoleculares ou moléculas representadas em um solvente explícito , eles podem ficar muito grandes e geralmente são compactados. Algumas ferramentas, como Jmol e KiNG, podem ler arquivos PDB no formato gzip. O wwPDB mantém as especificações do formato de arquivo PDB e sua alternativa XML, PDBML. Houve uma mudança bastante importante na especificação do formato PDB (para a versão 3.0) em agosto de 2007 e uma correção de muitos problemas de arquivo no banco de dados existente. A extensão de arquivo típica para um arquivo PDB é .pdb , embora alguns arquivos mais antigos usem .ent ou .brk . Algumas ferramentas de modelagem molecular escrevem arquivos não padronizados no estilo PDB que adaptam o formato básico às suas próprias necessidades.

Formato GROMACS

A família de formatos de arquivo GROMACS foi criada para uso com o pacote de software de simulação molecular GROMACS . Ele se parece muito com o formato PDB, mas foi projetado para armazenar saída de simulações de dinâmica molecular , portanto, permite precisão numérica adicional e, opcionalmente, retém informações sobre a velocidade da partícula , bem como a posição em um determinado ponto na trajetória da simulação. Ele não permite o armazenamento de informações de conectividade, que no GROMACS são obtidas de arquivos separados de molécula e topologia do sistema. A extensão de arquivo típica para um arquivo GROMACS é .gro .

Formato CHARMM

O pacote de dinâmica molecular CHARMM pode ler e gravar vários formatos de arquivos químicos e bioquímicos padrão; no entanto, o CARD (coordenada) e o PSF ( arquivo de estrutura da proteína ) são amplamente exclusivos do CHARMM. O formato CARD tem largura de coluna fixa, lembra o formato PDB e é usado exclusivamente para armazenar coordenadas atômicas. O arquivo PSF contém informações de conectividade atômica (que descreve ligações atômicas) e é necessário antes de iniciar uma simulação. As extensões de arquivo típicas usadas são .crd e .psf, respectivamente.

Formato GSD

O formato de arquivo General Simulation Data (GSD) criado para leitura / gravação eficiente de simulações de partículas genéricas, principalmente - mas não restrito a - aquelas do HOOMD-blue . O pacote também contém um módulo python que lê e grava arquivos gsd de esquema hoomd com uma sintaxe fácil de usar. [1]

Formato de arquivo ghemical

O software Ghemical pode usar o OpenBabel para importar e exportar vários formatos de arquivo. No entanto, por padrão, ele usa o formato GPR. Este arquivo é composto de várias partes, separadas por uma tag (! Header,! Info,! Atoms,! Bonds,! Coord,! PartialCharges e! End).

O tipo MIME proposto para este formato é application / x-ghemical .

SYBYL Line Notation

SYBYL Line Notation (SLN) é uma notação de linha química . Baseado em SMILES, ele incorpora uma sintaxe completa para especificar a estereoquímica relativa. SLN tem uma sintaxe de consulta rica que permite a especificação de consultas de estrutura Markush . A sintaxe também suporta a especificação de bibliotecas combinatórias de ChemDraw.

SLNs de exemplo

Descrição SLN String
Benzeno C [1] H: CH: CH: CH: CH: CH: @ 1
Alanina NH2C [s = n] H (CH3) C (= O) OH
Consulta mostrando R sidechain R1 [hac> ​​1] C [1]: C: C: C: C: C: @ 1
Consulta de amida / sulfamida NHC = M1 {M1: O, S}

SORRISOS

O S implified M olecular eu ntrada L ine E ntry S pecification (SMILES) é uma notação linha para moléculas. As sequências SMILES incluem conectividade, mas não incluem coordenadas 2D ou 3D.

Os átomos de hidrogênio não são representados. Outros átomos são representados por seus símbolos de elemento B, C, N, O, F, P, S, Cl, Br e I. O símbolo "=" representa ligações duplas e "#" representa ligações triplas. A ramificação é indicada por (). Os anéis são indicados por pares de dígitos.

Alguns exemplos são

Nome Fórmula String SMILES
Metano CH 4 C
Etanol C 2 H 6 O CCO
Benzeno C 6 H 6 C1 = CC = CC = C1 ou c1ccccc1
Etileno C 2 H 4 C = C

XYZ

O formato de arquivo XYZ é um formato simples que geralmente fornece o número de átomos na primeira linha, um comentário na segunda, seguido por um número de linhas com símbolos atômicos (ou números atômicos) e coordenadas cartesianas.

Número MDL

O número MDL contém um número de identificação único para cada reação e variação. O formato é RXXXnnnnnnnn. R indica uma reação, XXX indica qual banco de dados contém o registro da reação. A parte numérica, nnnnnnnn, é um número de 8 dígitos.

Outros formatos comuns

Um dos padrões da indústria mais amplamente usados ​​são os formatos de arquivo de tabela química , como os arquivos Structure Data Format (SDF). Eles são arquivos de texto que seguem um formato estrito para representar vários registros de estrutura química e campos de dados associados. O formato foi originalmente desenvolvido e publicado pela Molecular Design Limited (MDL). MOL é outro formato de arquivo do MDL. Ele está documentado no Capítulo 4 dos Formatos CTfile .

O PubChem também possui os formatos de arquivo XML e ASN1, que são opções de exportação do banco de dados online do PubChem. Ambos são baseados em texto (ASN1 geralmente é um formato binário).

Há um grande número de outros formatos listados na tabela abaixo

Conversão entre formatos

OpenBabel e JOELib são ferramentas de código aberto disponíveis gratuitamente projetadas especificamente para a conversão entre formatos de arquivo. Seus sistemas especialistas químicos oferecem suporte a grandes tabelas de conversão de tipo de átomo.

babel -i input_format input_file -o output_format output_file

Por exemplo, para converter o arquivo epinephrine.sdf em SDF para CML, use o comando

babel -i sdf epinephrine.sdf -o cml epinephrine.cml

O arquivo resultante é epinefrina.cml.

IOData é uma biblioteca Python gratuita e de código aberto para análise, armazenamento e conversão de vários formatos de arquivo comumente usados ​​por programas de software de química quântica, dinâmica molecular e teoria funcional de densidade de onda plana. Ele também oferece suporte a uma estrutura flexível para gerar arquivos de entrada para vários pacotes de software. Para obter uma lista completa dos formatos suportados, vá para https://iodata.readthedocs.io/en/latest/formats.html .

Uma série de ferramentas destinadas a visualizar e editar estruturas moleculares são capazes de ler arquivos em vários formatos e gravá-los em outros formatos. As ferramentas JChemPaint (baseado no Chemistry Development Kit ), XDrawChem (baseado no OpenBabel ), Chime , Jmol , Mol2mol e Discovery Studio se enquadram nesta categoria.

O Projeto Químico MIME

"Chemical MIME" é uma abordagem de fato para adicionar tipos de MIME a fluxos químicos.

Este projeto começou em janeiro de 1994 e foi anunciado pela primeira vez durante o workshop de Química na Primeira Conferência Internacional WWW, realizada no CERN em maio de 1994. ... A primeira versão de um rascunho da Internet foi publicada durante maio-outubro de 1994, e a segunda versão revisada durante abril-setembro de 1995. Um documento apresentado ao CPEP (Comitê de Publicações Impressas e Eletrônicas) na reunião da IUPAC em agosto de 1996 está disponível para discussão.

Em 1998, o trabalho foi formalmente publicado no JCIM .

Extensão de arquivo Tipo MIME Nome própio Descrição
alc química / x-alquimia Formato de alquimia
csf químico / x-cache-csf CAChe MolStruct CSF
cbin, cascii, ctab químico / x-cactvs-binário Formato CACTVS
cdx químico / x-cdx Arquivo ChemDraw eXchange
cer químico / x-cerius Formato MSI Cerius II
c3d químico / x-chem3d Formato Chem3D
chm químico / x-chemdraw Arquivo ChemDraw
cif químico / x-cif Arquivo de informações cristalográficas , estrutura de informações cristalográficas Promulgado pela União Internacional de Cristalografia
cmdf químico / x-cmdf Formato de dados CrystalMaker
cml químico / x-cml Linguagem de marcação química Linguagem de marcação química baseada em XML .
cpa químico / bússola x Programa de bússola do Takahashi
bsd químico / x-fogo cruzado Arquivo Crossfire
csm, csml químico / x-csml Linguagem de marcação de estilo químico
ctx químico / x-ctx Formato de arquivo CTX do grupo Gasteiger
cxf, cef químico / x-cxf Formato de troca química
emb, embl químico / x-embl-dl-nucleotídeo Formato de Nucleotídeo EMBL
spc químico / x-galáctico-spc Formato SPC para dados espectrais e cromatográficos
inp, gam, gamin entrada química / x-gamess Formato de entrada GAMESS
fch, fchk químico / x-gaussian-checkpoint Formato de ponto de verificação gaussiano
filhote químico / cubo-gaussiano Formato de cubo gaussiano (função de onda)
gau, gjc, gjf, com entrada química / x-gaussiana Formato de entrada gaussiano
gcg química / sequência x-gcg8 Formato de sequência de proteína
gen químico / x-genbank Formato ToGenBank
istr, ist químico / x-isostar Biblioteca IsoStar de Interações Intermoleculares
jdx, dx químico / x-jcamp-dx Formato de troca de dados espectroscópicos JCAMP
parente químico / x-kinemage Imagens cinéticas (estrutura proteica); Kinemage
mcm químico / x-macmolécula Formato de arquivo MacMolecule
mmd, mmod química / x-macromodelo-entrada Mecânica Molecular MacroModel
mol químico / x-mdl-molfile MDL Molfile
sorrisos, smi quimico / x-dia-sorrisos Especificação simplificada de entrada de linha de entrada molecular Uma notação de linha para moléculas.
sdf químico / x-mdl-sdfile Arquivo de Estrutura de Dados
el químico / x-sketchel SketchEl Molecule
ds químico / x-datasheet SketchEl XML DataSheet
inchi químico / x-inchi O Identificador Químico Internacional IUPAC
jsd, jsdraw químico / x-jsdraw Formato de arquivo nativo JSDraw
leme, ihelm químico / x-elmo String Pistoia Alliance HELM Uma notação de linha para moléculas biológicas
xhelm químico / x-xhelm Arquivo XML Pistoia Alliance XHELM HELM baseado em XML, incluindo definições de monômero

Apoio, suporte

Para Linux / Unix, os arquivos de configuração estão disponíveis como um pacote " chemical-mime-data " nos formatos .deb , RPM e tar.gz para registrar tipos químicos MIME em um servidor web. Os programas podem então se registrar como visualizador, editor ou processador para esses formatos, de modo que o suporte completo para tipos químicos MIME esteja disponível.

Fontes de dados químicos

Aqui está uma pequena lista de fontes de dados moleculares disponíveis gratuitamente. Existem muito mais recursos do que os listados aqui na Internet. Os links para essas fontes são fornecidos nas referências abaixo.

  1. O banco de dados PubChem do Instituto Nacional de Saúde dos EUA é uma grande fonte de dados químicos. Todos os dados estão em duas dimensões. Os dados incluem os formatos SDF, SMILES, PubChem XML e PubChem ASN1.
  2. O Protein Data Bank ( wwPDB ) mundial é uma excelente fonte de dados de coordenadas moleculares de proteínas e ácidos nucléicos. Os dados são tridimensionais e fornecidos no formato Protein Data Bank (PDB).
  3. eMolecules é um banco de dados comercial para dados moleculares. Os dados incluem um diagrama de estrutura bidimensional e uma string de smiles para cada composto. O eMolecules oferece suporte à busca rápida de subestrutura com base em partes da estrutura molecular.
  4. ChemExper é uma base de dados comercial para dados moleculares. Os resultados da pesquisa incluem um diagrama de estrutura bidimensional e um arquivo mole para muitos compostos.
  5. Biblioteca de Estruturas Moleculares 3-D da Universidade de Nova York .
  6. A Rede de Banco de Dados de Toxicidade de Estrutura Distribuída (DSSTox) da Agência de Proteção Ambiental dos EUA é um projeto do Programa de Toxicologia Computacional da EPA. O banco de dados fornece arquivos moleculares SDF com foco em substâncias cancerígenas e outras substâncias tóxicas.

Veja também

Referências

links externos