Relação quantitativa estrutura-atividade - Quantitative structure–activity relationship

Modelos quantitativos de relação estrutura-atividade (modelos QSAR ) são modelos de regressão ou classificação usados ​​nas ciências químicas e biológicas e na engenharia. Como outros modelos de regressão, os modelos de regressão QSAR relacionam um conjunto de variáveis ​​"preditoras" (X) à potência da variável de resposta (Y), enquanto os modelos de classificação QSAR relacionam as variáveis ​​preditoras a um valor categórico da variável de resposta.

Na modelagem QSAR, os preditores consistem em propriedades físico-químicas ou descritores moleculares teóricos de produtos químicos; a variável de resposta QSAR pode ser uma atividade biológica dos produtos químicos. Os modelos QSAR primeiro resumem uma suposta relação entre estruturas químicas e atividade biológica em um conjunto de dados de produtos químicos. Em segundo lugar, os modelos QSAR prevêem as atividades de novos produtos químicos.

Os termos relacionados incluem relações quantitativas de estrutura-propriedade ( QSPR ) quando uma propriedade química é modelada como a variável de resposta. "Diferentes propriedades ou comportamentos de moléculas químicas foram investigados no campo de QSPR. Alguns exemplos são relações quantitativas estrutura-reatividade (QSRRs), relações quantitativas estrutura-cromatografia (QSCRs) e relações quantitativas estrutura-toxicidade (QSTRs), estrutura quantitativa –Relações eletroquímicas (QSERs) e estrutura quantitativa– relações de biodegradabilidade (QSBRs). "

Como exemplo, a atividade biológica pode ser expressa quantitativamente como a concentração de uma substância necessária para dar uma determinada resposta biológica. Além disso, quando as propriedades ou estruturas físico-químicas são expressas por números, pode-se encontrar uma relação matemática, ou relação quantitativa estrutura-atividade, entre as duas. A expressão matemática, se validada cuidadosamente, pode ser usada para prever a resposta modelada de outras estruturas químicas.

Um QSAR tem a forma de um modelo matemático :

  • Atividade = f (propriedades físico-químicas e / ou propriedades estruturais) + erro

O erro inclui o erro do modelo ( viés ) e a variabilidade observacional, ou seja, a variabilidade nas observações mesmo em um modelo correto.

Etapas essenciais em estudos QSAR

Principais etapas do QSAR / QSPR incluindo (i) Seleção do conjunto de dados e extração de descritores estruturais / empíricos (ii) seleção de variáveis, (iii) construção do modelo e (iv) avaliação da validação. "

SAR e o paradoxo SAR

A suposição básica para todas as hipóteses baseadas em moléculas é que moléculas semelhantes têm atividades semelhantes. Este princípio também é denominado Relação Estrutura-Atividade ( SAR ). O problema subjacente é, portanto, como definir uma pequena diferença em um nível molecular, uma vez que cada tipo de atividade, por exemplo , capacidade de reação , capacidade de biotransformação , solubilidade , atividade alvo e assim por diante, pode depender de outra diferença. Exemplos foram dados nas revisões de bioisosterismo por Patanie / LaVoie e Brown.

Em geral, está mais interessado em encontrar tendências fortes . As hipóteses criadas geralmente dependem de um número finito de produtos químicos, portanto, deve-se tomar cuidado para evitar o sobreajuste : a geração de hipóteses que se ajustam muito aos dados de treinamento, mas apresentam desempenho insatisfatório quando aplicadas a novos dados.

O paradoxo SAR refere-se ao fato de que nem todas as moléculas semelhantes têm atividades semelhantes.

Tipos

Baseado em fragmentos (contribuição do grupo)

Analogamente, o " coeficiente de partição " - uma medição da solubilidade diferencial e ele próprio um componente das previsões QSAR - pode ser previsto por métodos atômicos (conhecidos como "XLogP" ou "ALogP") ou por métodos de fragmentos químicos (conhecidos como "CLogP" e outras variações). Foi demonstrado que o logP do composto pode ser determinado pela soma de seus fragmentos; métodos baseados em fragmentos são geralmente aceitos como melhores preditores do que métodos baseados em átomos. Os valores fragmentários foram determinados estatisticamente, com base em dados empíricos para valores logP conhecidos. Este método fornece resultados mistos e geralmente não é confiável para ter uma precisão de mais de ± 0,1 unidades.

O QSAR baseado em grupo ou fragmento também é conhecido como GQSAR. GQSAR permite flexibilidade para estudar vários fragmentos moleculares de interesse em relação à variação na resposta biológica. Os fragmentos moleculares podem ser substituintes em vários locais de substituição em conjuntos congenéricos de moléculas ou podem ser com base em regras químicas predefinidas no caso de conjuntos não congenéricos. O GQSAR também considera descritores de fragmento de termos cruzados, o que pode ser útil na identificação de interações de fragmento chave na determinação da variação da atividade. A descoberta de chumbo usando Fragnomics é um paradigma emergente. Neste contexto, o FB-QSAR prova ser uma estratégia promissora para o projeto de biblioteca de fragmentos e em esforços de identificação de fragmento para conduzir.

Uma abordagem avançada em fragmento ou QSAR baseado em grupo com base no conceito de similaridade de farmacóforo é desenvolvida. Este método, QSAR baseado em similaridade de farmacóforo (PS-QSAR) usa descritores farmacofóricos topológicos para desenvolver modelos QSAR. Esta predição de atividade pode auxiliar na contribuição de certas características farmacóforas codificadas pelos respectivos fragmentos para a melhoria da atividade e / ou efeitos prejudiciais.

3D-QSAR

A sigla 3D-QSAR ou 3-D QSAR refere-se à aplicação de cálculos de campo de força que requerem estruturas tridimensionais de um determinado conjunto de pequenas moléculas com atividades conhecidas (conjunto de treinamento). O conjunto de treinamento precisa ser sobreposto (alinhado) por dados experimentais (por exemplo, com base em cristalografia de ligante-proteína ) ou software de sobreposição de moléculas . Ele usa potenciais computados, por exemplo, o potencial de Lennard-Jones , ao invés de constantes experimentais e se preocupa com a molécula geral ao invés de um único substituinte. O primeiro QSAR 3-D foi denominado Análise de Campo Molecular Comparativo (CoMFA) por Cramer et al. Ele examinou os campos estéricos (forma da molécula) e os campos eletrostáticos que foram correlacionados por meio de regressão de mínimos quadrados parciais (PLS).

O espaço de dados criado é geralmente reduzido por uma extração de recursos a seguir (consulte também redução de dimensionalidade ). O método de aprendizado a seguir pode ser qualquer um dos métodos de aprendizado de máquina já mencionados , por exemplo, máquinas de vetores de suporte . Uma abordagem alternativa usa aprendizado de múltiplas instâncias codificando moléculas como conjuntos de instâncias de dados, cada uma representando uma possível conformação molecular. Um rótulo ou resposta é atribuído a cada conjunto correspondente à atividade da molécula, que se presume ser determinada por pelo menos uma instância no conjunto (isto é, alguma conformação da molécula).

Em 18 de junho de 2011, a patente Comparative Molecular Field Analysis (CoMFA) retirou qualquer restrição ao uso de tecnologias GRID e de mínimos quadrados parciais (PLS).

Com base em descritor químico

Nesta abordagem, descritores que quantificam várias propriedades eletrônicas, geométricas ou estéricas de uma molécula são calculados e usados ​​para desenvolver um QSAR. Essa abordagem é diferente da abordagem de fragmento (ou contribuição de grupo), pois os descritores são calculados para o sistema como um todo, e não a partir das propriedades de fragmentos individuais. Esta abordagem é diferente da abordagem 3D-QSAR em que os descritores são calculados a partir de quantidades escalares (por exemplo, energias, parâmetros geométricos) em vez de campos 3D.

Um exemplo dessa abordagem são os QSARs desenvolvidos para a polimerização de olefinas por meio de compostos sanduíche .

Modelagem

Na literatura pode-se frequentemente constatar que os químicos têm preferência pelos métodos de mínimos quadrados parciais (PLS), uma vez que aplica a extração e indução de características em uma única etapa.

Abordagem de mineração de dados

Os modelos de SAR de computador geralmente calculam um número relativamente grande de recursos. Como esses carecem de habilidade de interpretação estrutural, as etapas de pré-processamento enfrentam um problema de seleção de recursos (ou seja, quais recursos estruturais devem ser interpretados para determinar a relação estrutura-atividade). A seleção de recursos pode ser realizada por inspeção visual (seleção qualitativa por um ser humano); por mineração de dados; ou por mineração de moléculas.

Uma previsão típica baseada em mineração de dados usa, por exemplo , máquinas de vetores de suporte , árvores de decisão , redes neurais artificiais para induzir um modelo de aprendizado preditivo.

As abordagens de mineração de moléculas , um caso especial de abordagens de mineração de dados estruturados , aplicam uma previsão baseada em matriz de similaridade ou um esquema de fragmentação automática em subestruturas moleculares. Além disso, também existem abordagens que usam o máximo de pesquisas de subgráficos comuns ou núcleos de gráficos .

Protocolo QSAR

Análise de pares moleculares combinados

Normalmente, os modelos QSAR derivados do aprendizado de máquina não linear são vistos como uma "caixa preta", que falha em orientar os químicos medicinais. Recentemente, existe um conceito relativamente novo de análise de pares moleculares combinados ou MMPA orientado por predição que é acoplado ao modelo QSAR para identificar precipícios de atividade.

Avaliação da qualidade dos modelos QSAR

A modelagem QSAR produz modelos preditivos derivados da aplicação de ferramentas estatísticas correlacionando a atividade biológica (incluindo efeito terapêutico desejável e efeitos colaterais indesejáveis) ou propriedades físico-químicas em modelos QSPR de produtos químicos (drogas / tóxicos / poluentes ambientais) com descritores representativos da estrutura ou propriedades moleculares . Os QSARs estão sendo aplicados em muitas disciplinas, por exemplo: avaliação de risco , previsão de toxicidade e decisões regulatórias, além da descoberta de medicamentos e otimização de leads . A obtenção de um modelo QSAR de boa qualidade depende de muitos fatores, como a qualidade dos dados de entrada, a escolha de descritores e métodos estatísticos para modelagem e validação. Qualquer modelagem QSAR deve levar a modelos estatisticamente robustos e preditivos capazes de fazer previsões precisas e confiáveis ​​da resposta modelada de novos compostos.

Para validação de modelos QSAR, geralmente várias estratégias são adotadas:

  1. validação interna ou validação cruzada (na verdade, ao extrair dados, a validação cruzada é uma medida da robustez do modelo, quanto mais um modelo é robusto (q2 maior), menos a extração de dados perturba o modelo original);
  2. validação externa dividindo o conjunto de dados disponível em conjunto de treinamento para desenvolvimento de modelo e conjunto de predição para verificação de predictividade de modelo;
  3. validação externa cega pela aplicação do modelo em novos dados externos e
  4. randomização de dados ou embaralhamento Y para verificar a ausência de correlação casual entre a resposta e os descritores de modelagem.

O sucesso de qualquer modelo QSAR depende da precisão dos dados de entrada, seleção de descritores apropriados e ferramentas estatísticas e, mais importante, validação do modelo desenvolvido. Validação é o processo pelo qual a confiabilidade e a relevância de um procedimento são estabelecidas para um propósito específico; para modelos QSAR, a validação deve ser principalmente para robustez, desempenho de previsão e domínio de aplicabilidade (AD) dos modelos.

Algumas metodologias de validação podem ser problemáticas. Por exemplo, deixar uma validação cruzada de fora geralmente leva a uma superestimativa da capacidade preditiva. Mesmo com a validação externa, é difícil determinar se a seleção de conjuntos de treinamento e teste foi manipulada para maximizar a capacidade preditiva do modelo que está sendo publicado.

Diferentes aspectos da validação de modelos QSAR que precisam de atenção incluem métodos de seleção de compostos de conjunto de treinamento, definição do tamanho do conjunto de treinamento e impacto da seleção de variável para modelos de conjunto de treinamento para determinar a qualidade da predição. O desenvolvimento de novos parâmetros de validação para julgar a qualidade dos modelos QSAR também é importante.

Aplicativo

Químico

Uma das primeiras aplicações históricas de QSAR foi prever pontos de ebulição .

É bem conhecido, por exemplo, que dentro de uma família particular de compostos químicos , especialmente da química orgânica , existem fortes correlações entre a estrutura e as propriedades observadas. Um exemplo simples é a relação entre o número de carbonos em alcanos e seus pontos de ebulição . Há uma tendência clara de aumento do ponto de ebulição com o aumento do número de carbonos, e isso serve como meio para prever os pontos de ebulição dos alcanos superiores .

Uma aplicação ainda muito interessante é a equação de Hammett , equação de Taft e métodos de predição de pKa .

Biológico

A atividade biológica das moléculas é geralmente medida em ensaios para estabelecer o nível de inibição de transdução de sinal particular ou vias metabólicas . A descoberta de drogas frequentemente envolve o uso de QSAR para identificar estruturas químicas que podem ter bons efeitos inibitórios em alvos específicos e têm baixa toxicidade (atividade não específica). De especial interesse é a previsão do coeficiente de partição log P , que é uma medida importante usada na identificação de " semelhança com drogas " de acordo com a Regra dos Cinco de Lipinski .

Embora muitas análises quantitativas de relação de atividade de estrutura envolvam as interações de uma família de moléculas com uma enzima ou local de ligação ao receptor , o QSAR também pode ser usado para estudar as interações entre os domínios estruturais das proteínas. As interações proteína-proteína podem ser analisadas quantitativamente quanto a variações estruturais resultantes da mutagênese dirigida ao local .

Faz parte do método de aprendizado de máquina para reduzir o risco de um paradoxo SAR, especialmente levando em consideração que apenas uma quantidade finita de dados está disponível (consulte também MVUE ). Em geral, todos os problemas QSAR podem ser divididos em codificação e aprendizagem .

Formulários

Modelos (Q) SAR têm sido usados ​​para gerenciamento de risco . QSARS são sugeridos por autoridades regulatórias; na União Europeia , os QSARs são sugeridos pelo regulamento REACH , onde "REACH" abrevia "Registro, Avaliação, Autorização e Restrição de Produtos Químicos". A aplicação regulamentar dos métodos QSAR inclui a avaliação toxicológica in silico de impurezas genotóxicas. O software de avaliação QSAR comumente usado, como DEREK ou CASE Ultra (MultiCASE), é usado para genotoxicidade de impurezas de acordo com ICH M7 .

O espaço descritor químico cujo casco convexo é gerado por um conjunto de treinamento específico de produtos químicos é chamado de domínio de aplicabilidade do conjunto de treinamento . A previsão de propriedades de novos produtos químicos localizados fora do domínio de aplicabilidade usa extrapolação e, portanto, é menos confiável (em média) do que a previsão dentro do domínio de aplicabilidade. A avaliação da confiabilidade das previsões QSAR permanece um tópico de pesquisa.

As equações QSAR podem ser usadas para prever atividades biológicas de moléculas mais novas antes de sua síntese.

Exemplos de ferramentas de aprendizado de máquina para modelagem QSAR incluem:

S.No. Nome Algoritmos Link externo
1 R RF, SVM, Naïve Bayesian e ANN "R: O Projeto R para Computação Estatística" .
2 libSVM SVM "LIBSVM - Uma biblioteca para máquinas de vetores de suporte" .
3 laranja RF, SVM e Naïve Bayesian "Mineração de dados de laranja" .
4 RapidMiner SVM, RF, Naïve Bayes, DT, ANN e k-NN "RapidMiner | # 1 Open Source Predictive Analytics Platform" .
5 Weka RF, SVM e Naïve Bayes "Weka 3 - Data Mining com Open Source Machine Learning Software em Java" .
6 Knime DT, Naïve Bayes e SVM "KNIME | Open for Innovation" .
7 AZOrange RT, SVM, ANN e RF "AZCompTox / AZOrange: complementos AstraZeneca para Orange" . GitHub . 19/09/2018.
8 Tanagra SVM, RF, Naïve Bayes e DT “TANAGRA - Um software gratuito de DATA MINING para ensino e pesquisa” .
9 Elki k-NN "Estrutura de mineração de dados ELKI" . Arquivado do original em 19/11/2016.
10 MALHO "Página inicial do MALLET" .
11 MOA "MOA Massive Online Analysis | Real Time Analytics for Data Streams" . Arquivado do original em 19/06/2017.
12 Deep Chem Regressão logística, Naive Bayes, RF, ANN e outros "DeepChem" . deepchem.io . Retirado em 20 de outubro de 2017 .
13 alvaModel OLS , k-NN "alvaModel: uma ferramenta de software para criar modelos QSAR / QSPR" . alvascience.com .

Veja também

Referências

Leitura adicional

links externos