Sistema simplificado de entrada de linha de entrada molecular - Simplified molecular-input line-entry system

SORRISOS
Extensão de nome de arquivo
.smi
Tipo de mídia da Internet
quimico / x-dia-sorrisos
Tipo de formato formato de arquivo químico
Algoritmo de geração de SMILES para Ciprofloxacina : interromper os ciclos e, em seguida, gravar como ramificações de um backbone principal

O sistema simplificado de entrada de linha de entrada molecular ( SMILES ) é uma especificação na forma de uma notação de linha para descrever a estrutura de espécies químicas usando strings ASCII curtas . As sequências SMILES podem ser importadas pela maioria dos editores de moléculas para conversão de volta em desenhos bidimensionais ou modelos tridimensionais das moléculas.

A especificação SMILES original foi iniciada na década de 1980. Desde então, ele foi modificado e ampliado. Em 2007, um padrão aberto chamado OpenSMILES foi desenvolvido na comunidade química de código aberto. Outras notações lineares incluem a notação de linha de Wiswesser (WLN), ROSDAL e notação de linha SYBYL (SLN).

História

A especificação original do SMILES foi iniciada por David Weininger no Laboratório da Divisão de Ecologia do Continente Médio da USEPA em Duluth na década de 1980. Reconhecidos por suas partes no desenvolvimento inicial foram "Gilman Veith e Rose Russo (USEPA) e Albert Leo e Corwin Hansch (Pomona College) por apoiar o trabalho, e Arthur Weininger (Pomona; Daylight CIS) e Jeremy Scofield (Cedar River Software, Renton, WA) pela assistência na programação do sistema. " A Agência de Proteção Ambiental financiou o projeto inicial para desenvolver SMILES.

Desde então, foi modificado e ampliado por outros, mais notavelmente por Daylight Chemical Information Systems . Em 2007, um padrão aberto chamado "OpenSMILES" foi desenvolvido pela comunidade de química de código aberto Blue Obelisk . Outras notações 'lineares' incluem a Notação de Linha de Wiswesser (WLN), ROSDAL e SLN (Tripos Inc).

Em julho de 2006, a IUPAC introduziu o InChI como um padrão para representação de fórmulas. Em geral, considera-se que o SMILES tem a vantagem de ser mais legível por humanos do que o InChI; ele também tem uma ampla base de suporte de software com amplo suporte teórico (como a teoria dos grafos ).

Terminologia

O termo SMILES refere-se a uma notação de linha para codificação de estruturas moleculares e instâncias específicas devem ser estritamente chamadas de strings SMILES. No entanto, o termo SMILES também é comumente usado para se referir a uma única string SMILES e a várias strings SMILES; o significado exato geralmente é aparente a partir do contexto. Os termos "canônico" e "isomérico" podem levar a alguma confusão quando aplicados ao SMILES. Os termos descrevem diferentes atributos de strings SMILES e não são mutuamente exclusivos.

Normalmente, várias sequências SMILES igualmente válidas podem ser escritas para uma molécula. Por exemplo, CCO, OCCe C(O)Ctodas especificar a estrutura de etanol . Algoritmos foram desenvolvidos para gerar a mesma string SMILES para uma determinada molécula; das muitas cadeias de caracteres possíveis, esses algoritmos escolhem apenas uma delas. Este SMILES é único para cada estrutura, embora dependa do algoritmo de canonicalização usado para gerá-lo, e é denominado SMILES canônico. Esses algoritmos primeiro convertem o SMILES em uma representação interna da estrutura molecular; um algoritmo examina essa estrutura e produz uma string SMILES exclusiva. Vários algoritmos para gerar SMILES canônicos foram desenvolvidos e incluem os da Daylight Chemical Information Systems , do OpenEye Scientific Software , do MEDIT , do Chemical Computing Group , do MolSoft LLC e do Chemistry Development Kit . Uma aplicação comum do SMILES canônico é indexar e garantir a exclusividade das moléculas em um banco de dados .

O artigo original que descreveu o algoritmo CANGEN afirmava gerar strings SMILES exclusivas para gráficos que representam moléculas, mas o algoritmo falha em uma série de casos simples (por exemplo , cuneane , 1,2-diciclopropiletano) e não pode ser considerado um método correto para representar um gráfico canonicamente. Atualmente, não há comparação sistemática entre software comercial para testar se tais falhas existem nesses pacotes.

A notação SMILES permite a especificação da configuração em centros tetraédricos e geometria de ligação dupla. Esses são recursos estruturais que não podem ser especificados apenas pela conectividade e, portanto, os SMILES que codificam essas informações são chamados de SMILES isoméricos. Uma característica notável dessas regras é que elas permitem uma especificação parcial rigorosa da quiralidade. O termo SMILES isomérico também é aplicado a SMILES em que os isômeros são especificados.

Definição baseada em gráfico

Em termos de um procedimento computacional baseado em gráfico, SMILES é uma string obtida pela impressão dos nós de símbolo encontrados em uma travessia de árvore em profundidade de um gráfico químico . O gráfico químico é primeiro aparado para remover átomos de hidrogênio e os ciclos são interrompidos para transformá-lo em uma árvore geradora . Onde os ciclos foram interrompidos, rótulos de sufixo numéricos são incluídos para indicar os nós conectados. Os parênteses são usados ​​para indicar pontos de ramificação na árvore.

O formulário SMILES resultante depende das escolhas:

  • das ligações escolhidas para quebrar os ciclos,
  • do átomo inicial usado para a travessia em profundidade, e
  • da ordem em que os ramos são listados quando encontrados.

Definição de SMILES como strings de uma linguagem livre de contexto

Do ponto de vista de uma teoria formal da linguagem, SMILES é uma palavra. Um SMILES é analisável com um analisador independente de contexto. O uso desta representação tem sido na previsão de propriedades bioquímicas (incluindo toxicidade e biodegradabilidade ) com base no princípio principal da quimioinformática de que moléculas semelhantes têm propriedades semelhantes. Os modelos preditivos implementaram uma abordagem de reconhecimento de padrão sintático (que envolveu a definição de uma distância molecular), bem como um esquema mais robusto baseado no reconhecimento de padrão estatístico.

Descrição

Átomos

Os átomos são representados pela abreviatura padrão dos elementos químicos , entre colchetes, como [Au]para o ouro . Os colchetes podem ser omitidos no caso comum de átomos que:

  1. estão no "subconjunto orgânico" de B , C , N , O , P , S , F , Cl , Br ou I , e
  2. não tem cobrança formal , e
  3. têm o número de hidrogênios anexados implícito no modelo de valência SMILES (normalmente sua valência normal, mas para N e P é 3 ou 5, e para S é 2, 4 ou 6), e
  4. são os isótopos normais , e
  5. não são centros quirais.

Todos os outros elementos devem ser colocados entre colchetes e ter cargas e hidrogênios mostrados explicitamente. Por exemplo, os SMILES para água podem ser escritos como Oou [OH2]. O hidrogênio também pode ser escrito como um átomo separado; água também pode ser escrita como [H]O[H].

Quando os colchetes são usados, o símbolo Hé adicionado se o átomo entre colchetes estiver ligado a um ou mais hidrogênio, seguido pelo número de átomos de hidrogênio se maior que 1, então pelo sinal +para uma carga positiva ou por -para uma carga negativa. Por exemplo, [NH4+]para amônio ( NH+
4
) Se houver mais de uma cobrança, normalmente ela é escrita como um dígito; entretanto, também é possível repetir o sinal tantas vezes quantas as cargas do íon: pode-se escrever [Ti+4]ou [Ti++++]para titânio (IV) Ti 4+ . Assim, o hidróxido de anião ( OH - ) é representada por , o hidrónio catiónica ( H[OH-]
3
O+
) é [OH3+]e o cátion cobalto (III) (Co 3+ ) é ou . [Co+3][Co+++]

Títulos

Um vínculo é representado por um dos símbolos . - = # $ : / \.

As ligações entre átomos alifáticos são consideradas únicas, a menos que seja especificado de outra forma e estejam implícitas na adjacência na string SMILES. Embora as ligações simples possam ser escritas como -, isso geralmente é omitido. Por exemplo, o SMILES para etanol pode ser escrito como C-C-O, CC-Oou C-CO, mas geralmente é escrito CCO.

Duplos, triplos e quádruplos ligações são representadas pelos símbolos =, #e $, respectivamente, como ilustrado pela SMILES O=C=O( dióxido de carbono CO
2
), C#N( cianeto de hidrogênio HCN) e [Ga+]$[As-]( arsenieto de gálio ).

Um tipo adicional de ligação é uma "não ligação", indicada com ., para indicar que duas partes não estão ligadas entre si. Por exemplo, cloreto de sódio aquoso pode ser escrito [Na+].[Cl-]para mostrar a dissociação.

Uma ligação "uma e meia" aromática pode ser indicada com :; ver § Aromaticidade abaixo.

As ligações simples adjacentes às ligações duplas podem ser representadas usando /ou \para indicar a configuração estereoquímica; consulte § Estereoquímica abaixo.

argolas

Estruturas de anel são escritas quebrando cada anel em um ponto arbitrário (embora algumas escolhas levem a um SMILES mais legível do que outras) para fazer uma estrutura acíclica e adicionar rótulos de fechamento de anel numérico para mostrar a conectividade entre átomos não adjacentes.

Por exemplo, ciclohexano e dioxano podem ser escritos como C1CCCCC1e O1CCOCC1respectivamente. Para um segundo anel, o rótulo será 2. Por exemplo, decalin (decahidronaftaleno) pode ser escrito como C1CCCC2C1CCCC2.

O SMILES não exige que os números de toque sejam usados ​​em nenhuma ordem específica e permite o número de toque zero, embora raramente seja usado. Além disso, é permitido reutilizar números de toque após o primeiro toque ter fechado, embora isso geralmente torne as fórmulas mais difíceis de ler. Por exemplo, biciclohexil geralmente é escrito como C1CCCCC1C2CCCCC2, mas também pode ser escrito como C0CCCCC0C0CCCCC0.

Vários dígitos após um único átomo indicam várias ligações de fechamento do anel. Por exemplo, uma notação SMILES alternativa para decalina é C1CCCC2CCCCC12, onde o carbono final participa em ambas as ligações de fechamento de anel 1 e 2. Se números de anel de dois dígitos são necessários, o rótulo é precedido por %, então C%12é uma única ligação de fechamento de anel de anel 12.

Um ou ambos os dígitos podem ser precedidos por um tipo de vínculo para indicar o tipo de vínculo de fechamento do anel. Por exemplo, o ciclopropeno é normalmente escrito C1=CC1, mas se a dupla ligação é escolhida como a ligação de fecho do anel, que pode ser escrito como C=1CC1, C1CC=1, ou C=1CC=1. (A primeira forma é preferível.) C=1CC-1É ilegal, pois especifica explicitamente os tipos conflitantes para o vínculo de fechamento do anel.

Títulos de fechamento de anel não podem ser usados ​​para denotar títulos múltiplos. Por exemplo, C1C1não é uma alternativa válida C=Cpara o etileno . No entanto, eles podem ser usados ​​com não obrigações; C1.C2.C12é uma forma alternativa peculiar, mas legal, de escrever propano , mais comumente escrita CCC.

A escolha de um ponto de quebra de anel adjacente a grupos anexados pode levar a uma forma SMILES mais simples, evitando ramificações. Por exemplo, ciclohexano-1,2-diol é mais simplesmente escrito como OC1CCCCC1O; escolher um local de quebra de anel diferente produz uma estrutura ramificada que requer parênteses para escrever.

Aromaticidade

Os anéis aromáticos , como o benzeno, podem ser escritos em uma das três formas:

  1. Na forma Kekulé com ligações alternadas simples e duplas, por exemplo C1=CC=CC=C1,
  2. Usando o símbolo de ligação aromática :, por exemplo C1:C:C:C:C:C1, ou
  3. Mais comumente, escrevendo o componente B, átomos de C, N, O, P e S, em formas minúsculas b, c, n, o, pe s, respectivamente.

No último caso, as ligações entre dois átomos aromáticos são assumidas (se não explicitamente mostradas) como ligações aromáticas. Assim, benzeno , piridina e furano podem ser representados respectivamente pelos SMILES c1ccccc1, n1ccccc1e o1cccc1.

O nitrogênio aromático ligado ao hidrogênio, como encontrado no pirrol, deve ser representado como [nH]; assim, o imidazol é escrito na notação SMILES como n1c[nH]cc1.

Quando átomos de aromáticos estão individualmente ligados um ao outro, tal como em bifenilo , uma ligação simples deve ser mostrado explicitamente: c1ccccc1-c2ccccc2. Este é um dos poucos casos em que o símbolo de ligação simples -é necessário. (Na verdade, a maioria dos softwares SMILES pode inferir corretamente que a ligação entre os dois anéis não pode ser aromática e, portanto, aceitará a forma não padrão c1ccccc1c2ccccc2.)

Os algoritmos Daylight e OpenEye para gerar SMILES canônicos diferem em seu tratamento de aromaticidade.

Visualização de 3-cianoanisol como COc(c1)cccc1C#N.

Ramificação

Os ramos são descritos entre parênteses, como no CCC(=O)Ocaso do ácido propiônico e FC(F)Fdo fluorofórmio . O primeiro átomo entre parênteses e o primeiro átomo após o grupo entre parênteses estão ambos ligados ao mesmo átomo de ponto de ramificação. O símbolo de vínculo deve aparecer entre parênteses; fora (por exemplo:) CCC=(O)Oé inválido.

Os anéis substituídos podem ser escritos com o ponto de ramificação no anel, conforme ilustrado por SMILES COc(c1)cccc1C#N( ver ilustração ) e COc(cc1)ccc1C#N( ver ilustração ) que codificam os isômeros 3 e 4-cianoanisol. Escrever SMILES para anéis substituídos dessa maneira pode torná-los mais legíveis por humanos.

Os ramos podem ser escritos em qualquer ordem. Por exemplo, bromochlorodifluoromethane pode ser escrito como FC(Br)(Cl)F, BrC(F)(F)Cl, C(F)(Cl)(F)Br, ou semelhante. Geralmente, um formulário SMILES é mais fácil de ler se o ramo mais simples vier primeiro, com a parte final sem parênteses sendo a mais complexa. As únicas ressalvas a tais rearranjos são:

  • Se os números de toque forem reutilizados, eles serão pareados de acordo com sua ordem de aparecimento na sequência SMILES. Alguns ajustes podem ser necessários para preservar o emparelhamento correto.
  • Se a estereoquímica for especificada, ajustes devem ser feitos; veja Estereoquímica § Notas abaixo.

A única forma de ramificação que não requer parênteses são as ligações de fechamento de anel. A escolha adequada das ligações de fechamento do anel pode reduzir o número de parênteses necessários. Por exemplo, tolueno é normalmente escrito como Cc1ccccc1ou c1ccccc1C, evitando os parênteses necessários se escrito como c1cc(C)ccc1ou c1cc(ccc1)C.

Estereoquímica

trans -1,2-difluoroetileno

SMILES permite, mas não exige, a especificação de estereoisômeros .

A configuração em torno de ligações duplas é especificada usando os caracteres /e \para mostrar ligações simples direcionais adjacentes a uma ligação dupla. Por exemplo, F/C=C/F( ver representação ) é uma representação de trans - 1,2-difluoroetileno , em que os átomos de flúor estão em lados opostos da ligação dupla (como mostrado na figura), enquanto F/C=C\F( ver representação ) é uma representação possível de cis -1,2-difluoroetileno, em que os flúores estão no mesmo lado da ligação dupla.

Os símbolos de direção de ligação sempre vêm em grupos de pelo menos dois, dos quais o primeiro é arbitrário. Ou seja, F\C=C\Fé o mesmo que F/C=C/F. Quando ligações duplas simples alternadas estão presentes, os grupos são maiores do que dois, com os símbolos direcionais do meio sendo adjacentes a duas ligações duplas. Por exemplo, a forma comum de (2,4) -hexadieno é escrita C/C=C/C=C/C.

Beta-caroteno , com as onze ligações duplas destacadas.

Como um exemplo mais complexo, o beta-caroteno tem uma estrutura muito longa de ligações simples e duplas alternadas, que podem ser escritas CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C.

A configuração no carbono tetraédrico é especificada por @ou @@. Considere os quatro títulos na ordem em que aparecem, da esquerda para a direita, na forma SMILES. Olhando em direção ao carbono central da perspectiva da primeira ligação, as outras três são no sentido horário ou anti-horário. Esses casos são indicados com @@e @, respectivamente (porque o @próprio símbolo é uma espiral no sentido anti-horário).

L -Alanine

Por exemplo, considere o aminoácido alanina . Um de seus formulários SMILES é NC(C)C(=O)O, mais completamente escrito como N[CH](C)C(=O)O. L- alanina , o enantiômero mais comum , é escrito como N[C@@H](C)C(=O)O( veja a ilustração ). Olhando a partir da ligação nitrogênio-carbono, os grupos hidrogênio ( H), metil ( C) e carboxilato ( C(=O)O) aparecem no sentido horário. D -Alanine pode ser escrito como N[C@H](C)C(=O)O( veja a ilustração ).

Embora a ordem em que os ramos são especificados em SMILES normalmente não seja importante, neste caso é importante; trocar quaisquer dois grupos requer a reversão do indicador de quiralidade. Se os ramos forem invertidos de forma que alanina seja escrita como NC(C(=O)O)C, a configuração também se inverte; A L- alanina é escrita como N[C@H](C(=O)O)C( veja a ilustração ). Outras maneiras de escrevê-lo incluem C[C@H](N)C(=O)O, OC(=O)[C@@H](N)Ce OC(=O)[C@H](C)N.

Normalmente, a primeira das quatro ligações aparece à esquerda do átomo de carbono, mas se o SMILES for escrito começando com o carbono quiral, como C(C)(N)C(=O)O, então, todas as quatro estão à direita, mas a primeira a aparecer (a [CH]ligação neste caso) é usada como referência para pedir os três seguintes: L- alanina também pode ser escrita [C@@H](C)(N)C(=O)O.

A especificação SMILES inclui elaborações sobre o @símbolo para indicar estereoquímica em torno de centros quirais mais complexos, como geometria molecular trigonal bipiramidal .

Isótopos

Os isótopos são especificados com um número igual à massa isotópica inteira precedendo o símbolo atômico. O benzeno no qual um átomo é carbono-14 é escrito como [14c]1ccccc1e deuteroclorofórmio é [2H]C(Cl)(Cl)Cl.

Exemplos

Molécula Estrutura Fórmula SMILES
Dinitrogênio N≡N N#N
Isocianato de metila (MIC) CH 3 −N = C = O CN=C=O
Sulfato de cobre (II) Cu 2+ SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
Vanilina Estrutura molecular da vanilina O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
Melatonina (C 13 H 16 N 2 O 2 ) Estrutura molecular da melatonina CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
Flavopereirina (C 17 H 15 N 2 ) Estrutura molecular da flavopereirina CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
Nicotina (C 10 H 14 N 2 ) Estrutura molecular da nicotina CN1CCC[C@H]1c2cccnc2
Enantotoxina (C 17 H 22 O 2 ) Estrutura molecular da enantotoxina CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
Piretrina II (C 22 H 28 O 5 ) Estrutura molecular da piretrina II CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
Aflatoxina B 1 (C 17 H 12 O 6 ) Estrutura molecular da aflatoxina B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glicose (β- D- glucopiranose) (C 6 H 12 O 6 ) Estrutura molecular da glucopiranose OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
Bergenina (cuscutina, uma resina ) (C 14 H 16 O 9 ) Estrutura molecular da cuscutina (bergenina) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Um feromônio do inseto da escala californiana Acetato de (3Z, 6R) -3-metil-6- (prop-1-en-2-il) deca-3,9-dien-1-il CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2 S , 5 R ) - Chalcogran : um feromônio do besouro da casca Pityogenes chalcographus (2S, 5R) -2-etil-1,6-dioxaspiro [4,4] nonano CC[C@H](O1)CC[C@@]12CCCO2
α-tujona (C 10 H 16 O) Estrutura molecular da tujona CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamina (vitamina B 1 , C 12 H 17 N 4 OS + ) Estrutura molecular da tiamina OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

Para ilustrar uma molécula com mais de 9 anéis, considerar cefalostatina -1, um 13-rodeado steroidic pirazina com a fórmula empírica C 54 H 74 N 2 O 10 isolado a partir do Oceano Índico hemichordata Cephalodiscus gilchristi :

Estrutura molecular da cefalostatina-1

Começando com o grupo metil mais à esquerda na figura:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

Observe que %aparece na frente do índice das etiquetas de fechamento de anel acima de 9; veja § Anéis acima.

Outros exemplos de SMILES

A notação SMILES é descrita extensivamente no manual da teoria SMILES fornecido pela Daylight Chemical Information Systems e uma série de exemplos ilustrativos são apresentados. O utilitário de representação da luz do dia fornece aos usuários os meios para verificar seus próprios exemplos de SMILES e é uma ferramenta educacional valiosa.

Extensões

SMARTS é uma notação linear para especificação de padrões subestruturais em moléculas. Embora use muitos dos mesmos símbolos que SMILES, também permite a especificação de átomos e ligações curinga , que podem ser usados ​​para definir consultas subestruturais para pesquisas em bancos de dados químicos . Um equívoco comum é que a pesquisa subestrutural baseada em SMARTS envolve a correspondência de strings SMILES e SMARTS. Na verdade, ambas as strings SMILES e SMARTS são primeiro convertidas em representações gráficas internas que são pesquisadas por isomorfismo de subgráfico .

SMIRKS, um superconjunto de "reação SMARTS" e um subconjunto de "reação SMARTS", é uma notação de linha para especificar transformadas de reação. A sintaxe geral para as extensões de reação é REACTANT>AGENT>PRODUCT(sem espaços), onde qualquer um dos campos pode ser deixado em branco ou preenchido com várias moléculas delimitadas com um ponto ( .) e outras descrições dependendo do idioma de base. Além disso, os átomos podem ser identificados com um número (por exemplo [C:1]) para mapeamento, por exemplo em [CH2:1]=[CH:2][CH:3]=[CH:4][CH2:5][H:6]>>[H:6][CH2:1][CH:2]=[CH:3][CH:4]=[CH2:5].

Conversão

SMILES pode ser convertido de volta para representações bidimensionais usando algoritmos de geração de diagrama de estrutura (SDG). Essa conversão nem sempre é inequívoca. A conversão para representação tridimensional é alcançada por abordagens de minimização de energia. Existem muitos utilitários de conversão para download e baseados na web.

Veja também

Referências