Arquivo de tabela química - Chemical table file

O arquivo de tabela química (Arquivo CT) é uma família de formatos de arquivos químicos baseados em texto que descrevem moléculas e reações químicas. Um formato, por exemplo, lista cada átomo em uma molécula, as coordenadas xyz desse átomo e as ligações entre os átomos.

Formatos de arquivo

Existem vários formatos de arquivo na família.

Os formatos foram criados pela MDL Information Systems (MDL) , que foi adquirida pela Symyx Technologies e depois se fundiu com a Accelrys Corp., e agora se chama BIOVIA, uma subsidiária da Dassault Systemes do Dassault Group .

O arquivo CT é um formato aberto , a BIOVIA publica sua especificação. O BIOVIA exige que os usuários se registrem para baixar as especificações do formato CTFile.

Molfile

ctab
Extensão de nome de arquivo
.mol
Tipo de mídia da Internet
químico / x-mdl-molfile
Tipo de formato formato de arquivo químico

Um MDL Molfile é um formato de arquivo para armazenar informações sobre os átomos, ligações, conectividade e coordenadas de uma molécula.

O molfile consiste em algumas informações de cabeçalho, a Tabela de Conexão (CT) contendo informações do átomo, depois conexões e tipos de ligações, seguidas por seções para informações mais complexas.

O molfile é suficientemente comum para que a maioria, senão todos, os sistemas / aplicativos de software de quiminformática sejam capazes de ler o formato, embora nem sempre no mesmo grau. Também é suportado por alguns softwares computacionais como o Mathematica .

A versão padrão atual de fato é o molfile V2000, embora, mais recentemente, o formato V3000 tenha circulado amplamente o suficiente para apresentar um possível problema de compatibilidade para os aplicativos que ainda não são compatíveis com o V3000.

Os molfiles também são usados ​​em alguns jogos do PlayStation 3, especificamente na série LittleBigPlanet para modelos. Esses molfiles são completamente diferentes e difíceis de converter.

O conteúdo de um Molfile de L-Alanina
L-Alanine
Linha de título (pode estar em branco, mas deve existir linha) Bloco de Cabeçalho

(3 linhas)

  ABCDEFGH09071717443D
Linha de carimbo de data / hora do programa / arquivo

(Nome do programa de origem e um carimbo de data / hora do arquivo)

Exported
Linha de comentário (pode estar em branco, mas deve existir linha)
6 5 0 0 1 0 3 V2000
Linha de contagens Tabela de conexão
-0.6622  0.5342 0.0000 C 0 0 2 0 0 0
 0.6622 -0.3000 0.0000 C 0 0 0 0 0 0

-0.7207  2.0817 0.0000 C 1 0 0 0 0 0

-1.8622 -0.3695 0.0000 N 0 3 0 0 0 0

 0.6220 -1.8037 0.0000 O 0 0 0 0 0 0

 1.9464  0.4244 0.0000 O 0 5 0 0 0 0
Bloco atômico

(1 linha para cada átomo): x, y, z (em angstroms ), elemento, etc.

1 2 1 0 0 0
1 3 1 1 0 0

1 4 1 0 0 0

2 5 2 0 0 0

2 6 1 0 0 0
Bloco de ligação

(1 linha para cada ligação): 1º átomo, 2º átomo, tipo, etc.

M  CHG 2 4 1 6 -1
M  ISO 1 3 13
Bloco de propriedades
M  END
Fim da linha

(NOTA: alguns programas não gostam de uma linha em branco antes de M END)

FIM

Contagens de especificação de bloco de linha

Valor 6 6 0 0 0 1 V2000
Descrição número de átomos número de títulos número da lista de átomos Sinalizador quiral, 1 = quiral;

0 = não quiral

número de entradas stext número de linhas de

propriedades adicionais

versão mol
Modelo [Genérico] [Genérico] [Inquerir] [Genérico] [ISIS / Desktop] [Genérico]

Especificação do bloco de ligação

O Bond Block é composto por linhas de bond, uma linha por bond, com o seguinte formato:

111 222 ttt sss xxx rrr ccc

onde os valores são descritos na tabela a seguir:

Campo Significado Valores
111 número do primeiro átomo
222 segundo número do átomo
ttt tipo de vínculo 1 = Simples, 2 = Duplo, 3 = Triplo, 4 = Aromático, 5 = Simples ou Duplo, 6 = Simples ou Aromático, 7 = Duplo ou Aromático, 8 = Qualquer
sss ligação estéreo Para ligações simples:

0 = não estéreo; 1 = para cima; 4 = qualquer um, 6 = para baixo

Para ligações duplas:

0 = Use as coordenadas x-, y-, z do bloco de átomos para determinar cis ou trans; 3 = ligação dupla cis ou trans (qualquer)

xxx não usado
rrr topologia de ligação 0 = Ambos, 1 = Anel, 2 = Corrente
ccc status de centro de reação 0 = não marcado, 1 = um centro, -1 = não um centro, Adicional: 2 = nenhuma mudança, 4 = ligação feita / quebrada, 8 = alterações de ordem de ligação

12 = 4 + 8 (ambos feitos / quebrados e alterações);

5 = (4 + 1), 9 = (8 + 1) e 13 = (12 + 1) também são possíveis

Tabela de conexão estendida (V3000)

O molfile estendido (V3000) consiste em um molfile regular “sem estrutura” seguido por um único apêndice molfile que contém o corpo da tabela de conexão (Ctab). A figura a seguir mostra uma estrutura de alanina e o molfile estendido correspondente a ela.

Observe que "sem estrutura" é sinalizado com o "V3000" em vez do carimbo de versão "V2000". Existem duas outras alterações no cabeçalho, além da versão:

  • O número de linhas do apêndice é sempre escrito como 999, independentemente de quantas linhas realmente existem. (Todos os leitores atuais irão desconsiderar a contagem e parar em M END.)
  • O “código dimensional” é mantido de forma mais explícita. Portanto, "3D" realmente significa 3D, embora "2D" seja interpretado como 3D se quaisquer coordenadas Z diferentes de zero forem encontradas.

Ao contrário do molfile V2000, o molfile Rgroup estendido V3000 tem o mesmo formato de cabeçalho de um molfile não Rgroup.

L-Alanina para mol.jpg
L-Alanine
Descrição Bloco de cabeçalho
GSMACCS-II07189510252D 1 0.00366 0.00000 0
Cabeçalho com carimbo de data / hora
Figure 1, J. Chem. Inf. Comput. Sci., Vol 32, No. 3., 1992
Linha de comentário
0 0 0 0 0 999 V3000
Linha de compatibilidade V2000
M V30 BEGIN CTAB
Tabela de conexão
M V30 COUNTS 6 5 0 0 1
Linha de contagens
M V30 BEGIN ATOM
M V30 1 C -0.6622 0.5342 0 0 CFG=2

M V30 2 C 0.6622 -0.3 0 0

M V30 3 C -0.7207 2.0817 0 0 MASS=13

M V30 4 N -1.8622 -0.3695 0 0 CHG=1

M V30 5 O 0.622 -1.8037 0 0

M V30 6 O 1.9464 0.4244 0 0 CHG=-1

M V30 END ATOM
Bloco atômico
M V30 BEGIN BOND
M V30 1 1 1 2

M V30 2 1 1 3 CFG=1

M V30 3 1 1 4

M V30 4 2 2 5

M V30 5 1 2 6

M V30 END BOND
Bloco de ligação
M V30 END CTAB
M END

Linha de contagens

Uma linha de contagem é necessária e deve ser a primeira. Ele especifica o número de átomos, ligações, objetos 3D e Sgroups. Ele também especifica se o sinalizador CHIRAL está ou não definido. Opcionalmente, a linha de contagens pode especificar molregno. Isso só é usado quando o regno excede 999999 (o limite do formato na linha de cabeçalho do molfile). O formato da linha de contagem é:

M V30 COUNTS na nb nsg n3d chiral
M V30 CONTA n / D nb nsg n3d quiral [REGNO = regno]
M V30 CONTA 6 5 0 0 1
número de átomos
número de títulos
número de Sgroups
número de restrições 3D
se 1 = molécula é quiral
molécula ou modelo regno

SDF

ctab
Extensão de nome de arquivo
.sd , .sdf
Tipo de mídia da Internet
químico / x-mdl-sdfile
Tipo de formato formato de arquivo químico

SDF faz parte de uma família de formatos de arquivo de dados químicos desenvolvidos pela MDL; destina-se especialmente a informações estruturais. "SDF" significa arquivo de dados de estrutura, e os arquivos SDF, na verdade, envolvem o formato molfile ( MDL Molfile ). Vários compostos são delimitados por linhas que consistem em quatro cifrões ($$$$). Uma característica do formato SDF é sua capacidade de incluir dados associados.

Os itens de dados associados são indicados da seguinte forma:

>  <Unique_ID>
XCA3464366
 
>  <ClogP>
5.825

>  <Vendor>
Sigma

>  <Molecular Weight>
499.611

Itens de dados de várias linhas também são suportados. A especificação do formato MDL SDF requer que um caractere de retorno de carro rígido seja inserido se uma única linha de qualquer campo de texto exceder 200 caracteres. Este requisito é frequentemente violado na prática, visto que muitas strings SMILES e InChI excedem esse comprimento.

Outros formatos da família

Existem outros formatos da família menos usados:

  • RXNFile - para representar uma única reação química;
  • RDFile - para representar uma lista de registros com dados associados. Cada registro pode conter estruturas químicas, reações, dados textuais e tabulares;
  • RGFile - para representar as estruturas Markush (obsoleto, Molfile V3000 pode representar estruturas Markush);
  • XDFile - para representar informações químicas em formato XML .

Veja também

Referências

links externos

  • Software gratuito SDF Toolkit para processar arquivos SD (SDF).
  • NCI / CADD Chemical Identifier Resolver gera arquivos SD (SDF) de nomes químicos, números de registro CAS, SMILES, InChI, InChIKey, ....
  • O software livre KNIME para manipular dados e fazer datamining, também pode ler e escrever arquivos SD (SDF).
  • Serviço Comparative Toxicology Dashboard fornecido pela Agência de Proteção Ambiental (EPA) que gera arquivos SD (SDF) de nomes químicos, números de registro CAS, SMILES, InChI, InChIKey, ...