Arquivo de tabela química - Chemical table file
O arquivo de tabela química (Arquivo CT) é uma família de formatos de arquivos químicos baseados em texto que descrevem moléculas e reações químicas. Um formato, por exemplo, lista cada átomo em uma molécula, as coordenadas xyz desse átomo e as ligações entre os átomos.
Formatos de arquivo
Existem vários formatos de arquivo na família.
Os formatos foram criados pela MDL Information Systems (MDL) , que foi adquirida pela Symyx Technologies e depois se fundiu com a Accelrys Corp., e agora se chama BIOVIA, uma subsidiária da Dassault Systemes do Dassault Group .
O arquivo CT é um formato aberto , a BIOVIA publica sua especificação. O BIOVIA exige que os usuários se registrem para baixar as especificações do formato CTFile.
Molfile
Extensão de nome de arquivo |
.mol
|
---|---|
Tipo de mídia da Internet |
químico / x-mdl-molfile |
Tipo de formato | formato de arquivo químico |
Um MDL Molfile é um formato de arquivo para armazenar informações sobre os átomos, ligações, conectividade e coordenadas de uma molécula.
O molfile consiste em algumas informações de cabeçalho, a Tabela de Conexão (CT) contendo informações do átomo, depois conexões e tipos de ligações, seguidas por seções para informações mais complexas.
O molfile é suficientemente comum para que a maioria, senão todos, os sistemas / aplicativos de software de quiminformática sejam capazes de ler o formato, embora nem sempre no mesmo grau. Também é suportado por alguns softwares computacionais como o Mathematica .
A versão padrão atual de fato é o molfile V2000, embora, mais recentemente, o formato V3000 tenha circulado amplamente o suficiente para apresentar um possível problema de compatibilidade para os aplicativos que ainda não são compatíveis com o V3000.
Os molfiles também são usados em alguns jogos do PlayStation 3, especificamente na série LittleBigPlanet para modelos. Esses molfiles são completamente diferentes e difíceis de converter.
L-Alanine |
Linha de título (pode estar em branco, mas deve existir linha) |
Bloco de Cabeçalho
(3 linhas) |
---|---|---|
ABCDEFGH09071717443D |
Linha de carimbo de data / hora do programa / arquivo
(Nome do programa de origem e um carimbo de data / hora do arquivo) |
|
Exported |
Linha de comentário (pode estar em branco, mas deve existir linha) | |
6 5 0 0 1 0 3 V2000 |
Linha de contagens | Tabela de conexão |
-0.6622 0.5342 0.0000 C 0 0 2 0 0 0 0.6622 -0.3000 0.0000 C 0 0 0 0 0 0 -0.7207 2.0817 0.0000 C 1 0 0 0 0 0 -1.8622 -0.3695 0.0000 N 0 3 0 0 0 0 0.6220 -1.8037 0.0000 O 0 0 0 0 0 0 1.9464 0.4244 0.0000 O 0 5 0 0 0 0 |
Bloco atômico
(1 linha para cada átomo): x, y, z (em angstroms ), elemento, etc. |
|
1 2 1 0 0 0 1 3 1 1 0 0 1 4 1 0 0 0 2 5 2 0 0 0 2 6 1 0 0 0 |
Bloco de ligação
(1 linha para cada ligação): 1º átomo, 2º átomo, tipo, etc. |
|
M CHG 2 4 1 6 -1 M ISO 1 3 13 |
Bloco de propriedades | |
M END |
Fim da linha
(NOTA: alguns programas não gostam de uma linha em branco antes de M END) |
FIM |
Contagens de especificação de bloco de linha
Valor | 6 | 6 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Descrição | número de átomos | número de títulos | número da lista de átomos | Sinalizador quiral, 1 = quiral;
0 = não quiral |
número de entradas stext | número de linhas de
propriedades adicionais |
versão mol |
Modelo | [Genérico] | [Genérico] | [Inquerir] | [Genérico] | [ISIS / Desktop] | [Genérico] |
Especificação do bloco de ligação
O Bond Block é composto por linhas de bond, uma linha por bond, com o seguinte formato:
111 222 ttt sss xxx rrr ccc
onde os valores são descritos na tabela a seguir:
Campo | Significado | Valores |
---|---|---|
111 | número do primeiro átomo | |
222 | segundo número do átomo | |
ttt | tipo de vínculo | 1 = Simples, 2 = Duplo, 3 = Triplo, 4 = Aromático, 5 = Simples ou Duplo, 6 = Simples ou Aromático, 7 = Duplo ou Aromático, 8 = Qualquer |
sss | ligação estéreo | Para ligações simples:
0 = não estéreo; 1 = para cima; 4 = qualquer um, 6 = para baixo Para ligações duplas: 0 = Use as coordenadas x-, y-, z do bloco de átomos para determinar cis ou trans; 3 = ligação dupla cis ou trans (qualquer) |
xxx | não usado | |
rrr | topologia de ligação | 0 = Ambos, 1 = Anel, 2 = Corrente |
ccc | status de centro de reação | 0 = não marcado, 1 = um centro, -1 = não um centro, Adicional: 2 = nenhuma mudança, 4 = ligação feita / quebrada, 8 = alterações de ordem de ligação
12 = 4 + 8 (ambos feitos / quebrados e alterações); 5 = (4 + 1), 9 = (8 + 1) e 13 = (12 + 1) também são possíveis |
Tabela de conexão estendida (V3000)
O molfile estendido (V3000) consiste em um molfile regular “sem estrutura” seguido por um único apêndice molfile que contém o corpo da tabela de conexão (Ctab). A figura a seguir mostra uma estrutura de alanina e o molfile estendido correspondente a ela.
Observe que "sem estrutura" é sinalizado com o "V3000" em vez do carimbo de versão "V2000". Existem duas outras alterações no cabeçalho, além da versão:
- O número de linhas do apêndice é sempre escrito como 999, independentemente de quantas linhas realmente existem. (Todos os leitores atuais irão desconsiderar a contagem e parar em M END.)
- O “código dimensional” é mantido de forma mais explícita. Portanto, "3D" realmente significa 3D, embora "2D" seja interpretado como 3D se quaisquer coordenadas Z diferentes de zero forem encontradas.
Ao contrário do molfile V2000, o molfile Rgroup estendido V3000 tem o mesmo formato de cabeçalho de um molfile não Rgroup.
L-Alanine |
Descrição | Bloco de cabeçalho |
---|---|---|
GSMACCS-II07189510252D 1 0.00366 0.00000 0 |
Cabeçalho com carimbo de data / hora | |
Figure 1, J. Chem. Inf. Comput. Sci., Vol 32, No. 3., 1992 |
Linha de comentário | |
0 0 0 0 0 999 V3000 |
Linha de compatibilidade V2000 | |
M V30 BEGIN CTAB |
Tabela de conexão | |
M V30 COUNTS 6 5 0 0 1 |
Linha de contagens | |
M V30 BEGIN ATOM M V30 1 C -0.6622 0.5342 0 0 CFG=2 M V30 2 C 0.6622 -0.3 0 0 M V30 3 C -0.7207 2.0817 0 0 MASS=13 M V30 4 N -1.8622 -0.3695 0 0 CHG=1 M V30 5 O 0.622 -1.8037 0 0 M V30 6 O 1.9464 0.4244 0 0 CHG=-1 M V30 END ATOM |
Bloco atômico | |
M V30 BEGIN BOND M V30 1 1 1 2 M V30 2 1 1 3 CFG=1 M V30 3 1 1 4 M V30 4 2 2 5 M V30 5 1 2 6 M V30 END BOND |
Bloco de ligação | |
M V30 END CTAB M END |
Linha de contagens
Uma linha de contagem é necessária e deve ser a primeira. Ele especifica o número de átomos, ligações, objetos 3D e Sgroups. Ele também especifica se o sinalizador CHIRAL está ou não definido. Opcionalmente, a linha de contagens pode especificar molregno. Isso só é usado quando o regno excede 999999 (o limite do formato na linha de cabeçalho do molfile). O formato da linha de contagem é:
M V30 CONTA | n / D | nb | nsg | n3d | quiral | [REGNO = regno] |
M V30 CONTA | 6 | 5 | 0 | 0 | 1 | |
SDF
Extensão de nome de arquivo |
.sd , .sdf
|
---|---|
Tipo de mídia da Internet |
químico / x-mdl-sdfile |
Tipo de formato | formato de arquivo químico |
SDF faz parte de uma família de formatos de arquivo de dados químicos desenvolvidos pela MDL; destina-se especialmente a informações estruturais. "SDF" significa arquivo de dados de estrutura, e os arquivos SDF, na verdade, envolvem o formato molfile ( MDL Molfile ). Vários compostos são delimitados por linhas que consistem em quatro cifrões ($$$$). Uma característica do formato SDF é sua capacidade de incluir dados associados.
Os itens de dados associados são indicados da seguinte forma:
> <Unique_ID>
XCA3464366
> <ClogP>
5.825
> <Vendor>
Sigma
> <Molecular Weight>
499.611
Itens de dados de várias linhas também são suportados. A especificação do formato MDL SDF requer que um caractere de retorno de carro rígido seja inserido se uma única linha de qualquer campo de texto exceder 200 caracteres. Este requisito é frequentemente violado na prática, visto que muitas strings SMILES e InChI excedem esse comprimento.
Outros formatos da família
Existem outros formatos da família menos usados:
- RXNFile - para representar uma única reação química;
- RDFile - para representar uma lista de registros com dados associados. Cada registro pode conter estruturas químicas, reações, dados textuais e tabulares;
- RGFile - para representar as estruturas Markush (obsoleto, Molfile V3000 pode representar estruturas Markush);
- XDFile - para representar informações químicas em formato XML .
Veja também
Referências
links externos
- Software gratuito SDF Toolkit para processar arquivos SD (SDF).
- NCI / CADD Chemical Identifier Resolver gera arquivos SD (SDF) de nomes químicos, números de registro CAS, SMILES, InChI, InChIKey, ....
- O software livre KNIME para manipular dados e fazer datamining, também pode ler e escrever arquivos SD (SDF).
- Serviço Comparative Toxicology Dashboard fornecido pela Agência de Proteção Ambiental (EPA) que gera arquivos SD (SDF) de nomes químicos, números de registro CAS, SMILES, InChI, InChIKey, ...