Formato de arquivo químico - Chemical file format
Este artigo discute alguns formatos comuns de arquivos moleculares , incluindo o uso e a conversão entre eles.
Formatos distintos
As informações químicas geralmente são fornecidas como arquivos ou fluxos e muitos formatos foram criados, com vários graus de documentação. O formato é indicado de três maneiras (consulte a seção MIME química)
- extensão de arquivo (geralmente 3 letras). Isso é amplamente usado, mas frágil, pois sufixos comuns como ".mol" e ".dat" são usados por muitos sistemas, incluindo os não químicos.
- arquivos autoexplicativos em que as informações de formato são incluídas no arquivo. Os exemplos são CIF e CML.
- tipo químico / MIME adicionado por um servidor com conhecimento químico.
Linguagem de marcação química
Chemical Markup Language (CML) é um padrão aberto para representar dados moleculares e outros dados químicos. O projeto de código aberto inclui esquema XML, código-fonte para analisar e trabalhar com dados CML e uma comunidade ativa. Os artigos Ferramentas para trabalhar com linguagem de marcação química e XML para química e biociências discutem a CML com mais detalhes. Os arquivos de dados CML são aceitos por muitas ferramentas, incluindo JChemPaint , Jmol , XDrawChem e MarvinView.
Formato de banco de dados de proteínas
O Protein Data Bank Format é comumente usado para proteínas, mas também pode ser usado para outros tipos de moléculas. Ele foi originalmente projetado como, e continua a ser, um formato de largura de coluna fixa e, portanto, oficialmente tem um número máximo embutido de átomos, de resíduos e de cadeias; isso resultou na divisão de estruturas muito grandes, como os ribossomos, em vários arquivos. No entanto, muitas ferramentas podem ler arquivos que excedem esses limites. Por exemplo, o ribossomo E. coli 70S foi representado como 4 arquivos PDB em 2009: 3I1M , 3I1N , 3I1O e 3I1P. Em 2014 foram consolidados em um único arquivo, o 4V6C .
Alguns arquivos PDB contêm uma seção opcional que descreve a conectividade do átomo, bem como a posição. Como esses arquivos às vezes são usados para descrever conjuntos macromoleculares ou moléculas representadas em um solvente explícito , eles podem ficar muito grandes e geralmente são compactados. Algumas ferramentas, como Jmol e KiNG, podem ler arquivos PDB no formato gzip. O wwPDB mantém as especificações do formato de arquivo PDB e sua alternativa XML, PDBML. Houve uma mudança bastante importante na especificação do formato PDB (para a versão 3.0) em agosto de 2007 e uma correção de muitos problemas de arquivo no banco de dados existente. A extensão de arquivo típica para um arquivo PDB é .pdb , embora alguns arquivos mais antigos usem .ent ou .brk . Algumas ferramentas de modelagem molecular escrevem arquivos não padronizados no estilo PDB que adaptam o formato básico às suas próprias necessidades.
Formato GROMACS
A família de formatos de arquivo GROMACS foi criada para uso com o pacote de software de simulação molecular GROMACS . Ele se parece muito com o formato PDB, mas foi projetado para armazenar saída de simulações de dinâmica molecular , portanto, permite precisão numérica adicional e, opcionalmente, retém informações sobre a velocidade da partícula , bem como a posição em um determinado ponto na trajetória da simulação. Ele não permite o armazenamento de informações de conectividade, que no GROMACS são obtidas de arquivos separados de molécula e topologia do sistema. A extensão de arquivo típica para um arquivo GROMACS é .gro .
Formato CHARMM
O pacote de dinâmica molecular CHARMM pode ler e gravar vários formatos de arquivos químicos e bioquímicos padrão; no entanto, o CARD (coordenada) e o PSF ( arquivo de estrutura da proteína ) são amplamente exclusivos do CHARMM. O formato CARD tem largura de coluna fixa, lembra o formato PDB e é usado exclusivamente para armazenar coordenadas atômicas. O arquivo PSF contém informações de conectividade atômica (que descreve ligações atômicas) e é necessário antes de iniciar uma simulação. As extensões de arquivo típicas usadas são .crd e .psf, respectivamente.
Formato GSD
O formato de arquivo General Simulation Data (GSD) criado para leitura / gravação eficiente de simulações de partículas genéricas, principalmente - mas não restrito a - aquelas do HOOMD-blue . O pacote também contém um módulo python que lê e grava arquivos gsd de esquema hoomd com uma sintaxe fácil de usar. [1]
Formato de arquivo ghemical
O software Ghemical pode usar o OpenBabel para importar e exportar vários formatos de arquivo. No entanto, por padrão, ele usa o formato GPR. Este arquivo é composto de várias partes, separadas por uma tag (! Header,! Info,! Atoms,! Bonds,! Coord,! PartialCharges e! End).
O tipo MIME proposto para este formato é application / x-ghemical .
SYBYL Line Notation
SYBYL Line Notation (SLN) é uma notação de linha química . Baseado em SMILES, ele incorpora uma sintaxe completa para especificar a estereoquímica relativa. SLN tem uma sintaxe de consulta rica que permite a especificação de consultas de estrutura Markush . A sintaxe também suporta a especificação de bibliotecas combinatórias de ChemDraw.
SLNs de exemplo
Descrição | SLN String |
---|---|
Benzeno | C [1] H: CH: CH: CH: CH: CH: @ 1 |
Alanina | NH2C [s = n] H (CH3) C (= O) OH |
Consulta mostrando R sidechain | R1 [hac> 1] C [1]: C: C: C: C: C: @ 1 |
Consulta de amida / sulfamida | NHC = M1 {M1: O, S} |
SORRISOS
O S implified M olecular eu ntrada L ine E ntry S pecification (SMILES) é uma notação linha para moléculas. As sequências SMILES incluem conectividade, mas não incluem coordenadas 2D ou 3D.
Os átomos de hidrogênio não são representados. Outros átomos são representados por seus símbolos de elemento B, C, N, O, F, P, S, Cl, Br e I. O símbolo "=" representa ligações duplas e "#" representa ligações triplas. A ramificação é indicada por (). Os anéis são indicados por pares de dígitos.
Alguns exemplos são
Nome | Fórmula | String SMILES |
---|---|---|
Metano | CH 4 | C |
Etanol | C 2 H 6 O | CCO |
Benzeno | C 6 H 6 | C1 = CC = CC = C1 ou c1ccccc1 |
Etileno | C 2 H 4 | C = C |
XYZ
O formato de arquivo XYZ é um formato simples que geralmente fornece o número de átomos na primeira linha, um comentário na segunda, seguido por um número de linhas com símbolos atômicos (ou números atômicos) e coordenadas cartesianas.
Número MDL
O número MDL contém um número de identificação único para cada reação e variação. O formato é RXXXnnnnnnnn. R indica uma reação, XXX indica qual banco de dados contém o registro da reação. A parte numérica, nnnnnnnn, é um número de 8 dígitos.
Outros formatos comuns
Um dos padrões da indústria mais amplamente usados são os formatos de arquivo de tabela química , como os arquivos Structure Data Format (SDF). Eles são arquivos de texto que seguem um formato estrito para representar vários registros de estrutura química e campos de dados associados. O formato foi originalmente desenvolvido e publicado pela Molecular Design Limited (MDL). MOL é outro formato de arquivo do MDL. Ele está documentado no Capítulo 4 dos Formatos CTfile .
O PubChem também possui os formatos de arquivo XML e ASN1, que são opções de exportação do banco de dados online do PubChem. Ambos são baseados em texto (ASN1 geralmente é um formato binário).
Há um grande número de outros formatos listados na tabela abaixo
Conversão entre formatos
OpenBabel e JOELib são ferramentas de código aberto disponíveis gratuitamente projetadas especificamente para a conversão entre formatos de arquivo. Seus sistemas especialistas químicos oferecem suporte a grandes tabelas de conversão de tipo de átomo.
babel -i input_format input_file -o output_format output_file
Por exemplo, para converter o arquivo epinephrine.sdf em SDF para CML, use o comando
babel -i sdf epinephrine.sdf -o cml epinephrine.cml
O arquivo resultante é epinefrina.cml.
IOData é uma biblioteca Python gratuita e de código aberto para análise, armazenamento e conversão de vários formatos de arquivo comumente usados por programas de software de química quântica, dinâmica molecular e teoria funcional de densidade de onda plana. Ele também oferece suporte a uma estrutura flexível para gerar arquivos de entrada para vários pacotes de software. Para obter uma lista completa dos formatos suportados, vá para https://iodata.readthedocs.io/en/latest/formats.html .
Uma série de ferramentas destinadas a visualizar e editar estruturas moleculares são capazes de ler arquivos em vários formatos e gravá-los em outros formatos. As ferramentas JChemPaint (baseado no Chemistry Development Kit ), XDrawChem (baseado no OpenBabel ), Chime , Jmol , Mol2mol e Discovery Studio se enquadram nesta categoria.
O Projeto Químico MIME
"Chemical MIME" é uma abordagem de fato para adicionar tipos de MIME a fluxos químicos.
Este projeto começou em janeiro de 1994 e foi anunciado pela primeira vez durante o workshop de Química na Primeira Conferência Internacional WWW, realizada no CERN em maio de 1994. ... A primeira versão de um rascunho da Internet foi publicada durante maio-outubro de 1994, e a segunda versão revisada durante abril-setembro de 1995. Um documento apresentado ao CPEP (Comitê de Publicações Impressas e Eletrônicas) na reunião da IUPAC em agosto de 1996 está disponível para discussão.
Em 1998, o trabalho foi formalmente publicado no JCIM .
Extensão de arquivo | Tipo MIME | Nome própio | Descrição |
---|---|---|---|
alc | química / x-alquimia | Formato de alquimia | |
csf | químico / x-cache-csf | CAChe MolStruct CSF | |
cbin, cascii, ctab | químico / x-cactvs-binário | Formato CACTVS | |
cdx | químico / x-cdx | Arquivo ChemDraw eXchange | |
cer | químico / x-cerius | Formato MSI Cerius II | |
c3d | químico / x-chem3d | Formato Chem3D | |
chm | químico / x-chemdraw | Arquivo ChemDraw | |
cif | químico / x-cif | Arquivo de informações cristalográficas , estrutura de informações cristalográficas | Promulgado pela União Internacional de Cristalografia |
cmdf | químico / x-cmdf | Formato de dados CrystalMaker | |
cml | químico / x-cml | Linguagem de marcação química | Linguagem de marcação química baseada em XML . |
cpa | químico / bússola x | Programa de bússola do Takahashi | |
bsd | químico / x-fogo cruzado | Arquivo Crossfire | |
csm, csml | químico / x-csml | Linguagem de marcação de estilo químico | |
ctx | químico / x-ctx | Formato de arquivo CTX do grupo Gasteiger | |
cxf, cef | químico / x-cxf | Formato de troca química | |
emb, embl | químico / x-embl-dl-nucleotídeo | Formato de Nucleotídeo EMBL | |
spc | químico / x-galáctico-spc | Formato SPC para dados espectrais e cromatográficos | |
inp, gam, gamin | entrada química / x-gamess | Formato de entrada GAMESS | |
fch, fchk | químico / x-gaussian-checkpoint | Formato de ponto de verificação gaussiano | |
filhote | químico / cubo-gaussiano | Formato de cubo gaussiano (função de onda) | |
gau, gjc, gjf, com | entrada química / x-gaussiana | Formato de entrada gaussiano | |
gcg | química / sequência x-gcg8 | Formato de sequência de proteína | |
gen | químico / x-genbank | Formato ToGenBank | |
istr, ist | químico / x-isostar | Biblioteca IsoStar de Interações Intermoleculares | |
jdx, dx | químico / x-jcamp-dx | Formato de troca de dados espectroscópicos JCAMP | |
parente | químico / x-kinemage | Imagens cinéticas (estrutura proteica); Kinemage | |
mcm | químico / x-macmolécula | Formato de arquivo MacMolecule | |
mmd, mmod | química / x-macromodelo-entrada | Mecânica Molecular MacroModel | |
mol | químico / x-mdl-molfile | MDL Molfile | |
sorrisos, smi | quimico / x-dia-sorrisos | Especificação simplificada de entrada de linha de entrada molecular | Uma notação de linha para moléculas. |
sdf | químico / x-mdl-sdfile | Arquivo de Estrutura de Dados | |
el | químico / x-sketchel | SketchEl Molecule | |
ds | químico / x-datasheet | SketchEl XML DataSheet | |
inchi | químico / x-inchi | O Identificador Químico Internacional IUPAC | |
jsd, jsdraw | químico / x-jsdraw | Formato de arquivo nativo JSDraw | |
leme, ihelm | químico / x-elmo | String Pistoia Alliance HELM | Uma notação de linha para moléculas biológicas |
xhelm | químico / x-xhelm | Arquivo XML Pistoia Alliance XHELM | HELM baseado em XML, incluindo definições de monômero |
Apoio, suporte
Para Linux / Unix, os arquivos de configuração estão disponíveis como um pacote " chemical-mime-data " nos formatos .deb , RPM e tar.gz para registrar tipos químicos MIME em um servidor web. Os programas podem então se registrar como visualizador, editor ou processador para esses formatos, de modo que o suporte completo para tipos químicos MIME esteja disponível.
Fontes de dados químicos
Aqui está uma pequena lista de fontes de dados moleculares disponíveis gratuitamente. Existem muito mais recursos do que os listados aqui na Internet. Os links para essas fontes são fornecidos nas referências abaixo.
- O banco de dados PubChem do Instituto Nacional de Saúde dos EUA é uma grande fonte de dados químicos. Todos os dados estão em duas dimensões. Os dados incluem os formatos SDF, SMILES, PubChem XML e PubChem ASN1.
- O Protein Data Bank ( wwPDB ) mundial é uma excelente fonte de dados de coordenadas moleculares de proteínas e ácidos nucléicos. Os dados são tridimensionais e fornecidos no formato Protein Data Bank (PDB).
- eMolecules é um banco de dados comercial para dados moleculares. Os dados incluem um diagrama de estrutura bidimensional e uma string de smiles para cada composto. O eMolecules oferece suporte à busca rápida de subestrutura com base em partes da estrutura molecular.
- ChemExper é uma base de dados comercial para dados moleculares. Os resultados da pesquisa incluem um diagrama de estrutura bidimensional e um arquivo mole para muitos compostos.
- Biblioteca de Estruturas Moleculares 3-D da Universidade de Nova York .
- A Rede de Banco de Dados de Toxicidade de Estrutura Distribuída (DSSTox) da Agência de Proteção Ambiental dos EUA é um projeto do Programa de Toxicologia Computacional da EPA. O banco de dados fornece arquivos moleculares SDF com foco em substâncias cancerígenas e outras substâncias tóxicas.
Veja também
- Formato de arquivo
- OpenBabel , JOELib , OELib
- Kit de desenvolvimento de química
- Linguagem de marcação química
- Software para modelagem molecular
- Resolvedor de identificador químico NCI / CADD
Referências
links externos
- MDL Information Systems (junho de 2005), CTFile Formats (PDF) , San Leandro, Califórnia, Estados Unidos: MDL Information Systems , arquivado do original (PDF) em 30 de junho de 2007
- "Resolva um identificador de estrutura como SDF, CML, MRV, PDB" . NCI . NIH : CADD Group Chemoinformatics Tools and User Services (CACTUS). Julho de 2009.