Quimiometria - Chemometrics

A quimiometria é a ciência de extrair informações de sistemas químicos por meios orientados por dados. A quimiometria é inerentemente interdisciplinar, usando métodos frequentemente empregados em disciplinas analíticas de dados centrais, como estatística multivariada , matemática aplicada e ciência da computação , a fim de resolver problemas em química , bioquímica , medicina , biologia e engenharia química . Dessa forma, espelha outros campos interdisciplinares, como a psicometria e a econometria .

Introdução

A quimiometria é aplicada para resolver problemas descritivos e preditivos em ciências naturais experimentais, especialmente em química. Em aplicações descritivas, as propriedades dos sistemas químicos são modeladas com a intenção de aprender as relações e a estrutura subjacentes do sistema (ou seja, compreensão e identificação do modelo). Em aplicações preditivas, propriedades de sistemas químicos são modeladas com a intenção de prever novas propriedades ou comportamento de interesse. Em ambos os casos, os conjuntos de dados podem ser pequenos, mas geralmente são muito grandes e altamente complexos, envolvendo centenas a milhares de variáveis ​​e centenas a milhares de casos ou observações.

As técnicas quimiométricas são particularmente usadas em química analítica e metabolômica , e o desenvolvimento de métodos quimiométricos aprimorados de análise também continua a avançar o estado da arte em instrumentação analítica e metodologia. É uma disciplina voltada para a aplicação e, portanto, embora as metodologias quimiométricas padrão sejam amplamente utilizadas industrialmente, os grupos acadêmicos se dedicam ao desenvolvimento contínuo da teoria quimiométrica, do método e do desenvolvimento de aplicações.

Origens

Embora se possa argumentar que mesmo os primeiros experimentos analíticos em química envolveram uma forma de quimiometria, o campo é geralmente reconhecido como tendo surgido na década de 1970, à medida que os computadores se tornaram cada vez mais explorados para a investigação científica. O termo 'quimiometria' foi cunhado por Svante Wold em um pedido de subsídio em 1971, e a International Chemometrics Society foi formada logo em seguida por Svante Wold e Bruce Kowalski, dois pioneiros no campo. Wold foi professor de química orgânica na Universidade de Umeå , na Suécia, e Kowalski foi professor de química analítica na Universidade de Washington, Seattle.

Muitas aplicações iniciais envolviam classificação multivariada, seguidas de numerosas aplicações preditivas quantitativas e, no final da década de 1970 e início da década de 1980, uma ampla variedade de dados e análises químicas conduzidas por computador estavam ocorrendo.

A análise multivariada foi uma faceta crítica, mesmo nas primeiras aplicações da quimiometria. Os dados da espectroscopia de infravermelho e UV / visível são frequentemente contados em milhares de medições por amostra. Os experimentos de espectrometria de massa, ressonância magnética nuclear, emissão / absorção atômica e cromatografia são todos altamente multivariados por natureza. A estrutura desses dados foi considerada favorável ao uso de técnicas como análise de componentes principais (PCA) e mínimos quadrados parciais (PLS). Isso ocorre principalmente porque, embora os conjuntos de dados possam ser altamente multivariados, há uma estrutura de classificação baixa forte e frequentemente linear presente. PCA e PLS mostraram-se ao longo do tempo muito eficazes em modelar empiricamente a estrutura de classificação inferior mais quimicamente interessante, explorando as inter-relações ou 'variáveis ​​latentes' nos dados e fornecendo sistemas de coordenadas compactas alternativas para posterior análise numérica, como regressão , agrupamento , e reconhecimento de padrões . Os mínimos quadrados parciais, em particular, foram muito usados ​​em aplicações quimiométricas por muitos anos antes de começar a encontrar uso regular em outros campos.

Durante a década de 1980, três periódicos dedicados apareceram no campo: Journal of Chemometrics , Chemometrics and Intelligent Laboratory Systems e Journal of Chemical Information and Modeling . Essas revistas continuam a cobrir pesquisas fundamentais e metodológicas em quimiometria. No momento, a maioria das aplicações de rotina de métodos quimiométricos existentes são comumente publicadas em periódicos orientados para aplicações (por exemplo, Applied Spectroscopy, Analytical Chemistry , Anal. Chim. Acta. , Talanta ). Vários livros / monografias importantes sobre quimiometria também foram publicados pela primeira vez na década de 1980, incluindo a primeira edição de Malinowski's Factor Analysis in Chemistry , Sharaf, Illman e Kowalski's Chemometrics , Massart et al. Chemometrics: a textbook , and Multivariate Calibration by Martens and Naes.

Algumas grandes áreas de aplicação quimiométrica passaram a representar novos domínios, como modelagem molecular e QSAR , quiminformática , campos '-omics' da genômica , proteômica , metabonômica e metabolômica , modelagem de processos e tecnologia analítica de processos .

Um relato do início da história da quimiometria foi publicado como uma série de entrevistas por Geladi e Esbensen.

Técnicas

Calibração multivariada

Muitos problemas químicos e aplicações da quimiometria envolvem calibração . O objetivo é desenvolver modelos que possam ser usados ​​para prever propriedades de interesse com base nas propriedades medidas do sistema químico, como pressão, vazão, temperatura, infravermelho , Raman , espectros de RMN e espectros de massa . Os exemplos incluem o desenvolvimento de modelos multivariados relacionando 1) resposta espectral de múltiplos comprimentos de onda à concentração de analito, 2) descritores moleculares à atividade biológica, 3) condições / estados multivariados do processo aos atributos do produto final. O processo requer uma calibração ou conjunto de dados de treinamento, que inclui valores de referência para as propriedades de interesse para previsão e os atributos medidos que se acredita corresponderem a essas propriedades. Para o caso 1), por exemplo, pode-se reunir dados de uma série de amostras, incluindo concentrações para um analito de interesse para cada amostra (a referência) e o espectro infravermelho correspondente dessa amostra. Técnicas de calibração multivariada, como regressão de mínimos quadrados parciais ou regressão de componente principal (e quase incontáveis ​​outros métodos), são então usadas para construir um modelo matemático que relaciona a resposta multivariada (espectro) à concentração do analito de interesse, e tal modelo pode ser usado para prever com eficiência as concentrações de novas amostras.

As técnicas de calibração multivariada são frequentemente categorizadas como métodos clássicos ou inversos. A principal diferença entre essas abordagens é que na calibração clássica os modelos são resolvidos de modo que sejam ótimos na descrição das respostas analíticas medidas (por exemplo, espectros) e podem, portanto, ser considerados descritores ótimos, enquanto nos métodos inversos os modelos são resolvidos para serem ótimos na previsão das propriedades de interesse (por exemplo, concentrações, preditores ideais). Os métodos inversos geralmente requerem menos conhecimento físico do sistema químico e, pelo menos em teoria, fornecem previsões superiores no sentido do erro médio quadrático e, portanto, as abordagens inversas tendem a ser mais frequentemente aplicadas na calibração multivariada contemporânea.

As principais vantagens do uso de técnicas de calibração multivariada é que medições analíticas rápidas, baratas ou não destrutivas (como espectroscopia óptica) podem ser usadas para estimar as propriedades da amostra que de outra forma exigiriam testes demorados, caros ou destrutivos (como LC-MS ). Igualmente importante é que a calibração multivariada permite uma análise quantitativa precisa na presença de forte interferência de outros analitos. A seletividade do método analítico é fornecida tanto pela calibração matemática, quanto pelas modalidades de medição analítica. Por exemplo, os espectros de infravermelho próximo, que são extremamente amplos e não seletivos em comparação com outras técnicas analíticas (como espectro infravermelho ou Raman), podem frequentemente ser usados ​​com sucesso em conjunto com métodos de calibração multivariada cuidadosamente desenvolvidos para prever concentrações de analitos em muito matrizes complexas.

Classificação, reconhecimento de padrões, agrupamento

As técnicas de classificação multivariada supervisionada estão intimamente relacionadas às técnicas de calibração multivariada, em que uma calibração ou conjunto de treinamento é usado para desenvolver um modelo matemático capaz de classificar amostras futuras. As técnicas empregadas em quimiometria são semelhantes às usadas em outros campos - análise discriminante multivariada, regressão logística, redes neurais, árvores de regressão / classificação. O uso de técnicas de redução de classificação em conjunto com esses métodos de classificação convencionais é rotina em quimiometria, por exemplo, análise discriminante em componentes principais ou pontuações de mínimos quadrados parciais .

Uma família de técnicas, conhecida como modelagem de classe ou classificadores de uma classe , é capaz de construir modelos para uma classe individual de interesse. Esses métodos são particularmente úteis no caso de controle de qualidade e verificação de autenticidade de produtos.

A classificação não supervisionada (também chamada de análise de cluster ) também é comumente usada para descobrir padrões em conjuntos de dados complexos e, novamente, muitas das técnicas básicas usadas em quimiometria são comuns a outros campos, como aprendizado de máquina e aprendizado estatístico.

Resolução de curva multivariada

No jargão quimiométrico, a resolução de curva multivariada busca desconstruir conjuntos de dados com informações de referência limitadas ou ausentes e conhecimento do sistema. Alguns dos primeiros trabalhos sobre essas técnicas foram feitos por Lawton e Sylvestre no início dos anos 1970. Essas abordagens também são chamadas de análise de mistura de auto-modelagem, separação cega de fonte / sinal e desmistura espectral. Por exemplo, a partir de um conjunto de dados compreendendo espectros de fluorescência de uma série de amostras, cada uma contendo vários fluoróforos, métodos de resolução de curva multivariada podem ser usados ​​para extrair os espectros de fluorescência dos fluoróforos individuais, juntamente com suas concentrações relativas em cada uma das amostras, essencialmente desmisturando o espectro de fluorescência total nas contribuições dos componentes individuais. O problema é geralmente mal determinado devido à ambigüidade rotacional (muitas soluções possíveis podem representar equivalentemente os dados medidos), então a aplicação de restrições adicionais é comum, como não negatividade, unimodalidade ou inter-relações conhecidas entre os componentes individuais (por exemplo, restrições cinéticas ou de equilíbrio de massa).

Outras técnicas

O projeto experimental continua sendo uma área central de estudo em quimiometria e várias monografias são especificamente dedicadas ao projeto experimental em aplicações químicas. Princípios sólidos de projeto experimental foram amplamente adotados na comunidade quimiométrica, embora muitos experimentos complexos sejam puramente observacionais e possa haver pouco controle sobre as propriedades e inter-relações das amostras e propriedades da amostra.

O processamento de sinal também é um componente crítico de quase todas as aplicações quimiométricas, particularmente o uso de pré-tratamentos de sinal para condicionar os dados antes da calibração ou classificação. As técnicas comumente empregadas em quimiometria estão frequentemente relacionadas àquelas usadas em campos relacionados. O pré-processamento do sinal pode afetar a maneira como os resultados do processamento final dos dados podem ser interpretados.

Caracterização de desempenho e figuras de mérito Como a maioria das arenas nas ciências físicas, a quimiometria é orientada quantitativamente, portanto, ênfase considerável é colocada na caracterização de desempenho, seleção de modelo, verificação e validação e figuras de mérito . O desempenho dos modelos quantitativos é geralmente especificado pela raiz do erro quadrático médio na previsão do atributo de interesse, e o desempenho dos classificadores como pares de taxa verdadeiro-positivo / falso-positivo (ou uma curva ROC completa). Um relatório recente de Olivieri et al. fornece uma visão geral abrangente de figuras de estimativa de mérito e incerteza em calibração multivariada, incluindo definições multivariadas de seletividade, sensibilidade, SNR e estimativa de intervalo de predição. A seleção do modelo quimiométrico geralmente envolve o uso de ferramentas como reamostragem (incluindo bootstrap, permutação, validação cruzada).

Controle estatístico multivariado de processo (MSPC) , modelagem e otimização são responsáveis ​​por uma quantidade substancial de desenvolvimento quimiométrico histórico. A espectroscopia tem sido usada com sucesso para monitoramento online de processos de fabricação por 30–40 anos, e esses dados de processo são altamente passíveis de modelagem quimiométrica. Especificamente em termos de MSPC, a modelagem multifacetada de processos em lote e contínuos é cada vez mais comum na indústria e continua sendo uma área ativa de pesquisa em quimiometria e engenharia química. Química analítica de processos como foi originalmente denominada, ou o termo mais recente , tecnologia analítica de processos continua a se basear fortemente em métodos quimiométricos e MSPC.

Os métodos de múltiplas vias são amplamente usados ​​em aplicações quimiométricas. Essas são extensões de ordem superior de métodos mais amplamente usados. Por exemplo, enquanto a análise de uma tabela (matriz ou array de segunda ordem) de dados é rotina em vários campos, os métodos de múltiplas vias são aplicados a conjuntos de dados que envolvem 3ª, 4ª ou ordens superiores. Dados desse tipo são muito comuns em química, por exemplo, um sistema de cromatografia líquida / espectrometria de massa (LC-MS) gera uma grande matriz de dados (tempo de eluição versus m / z) para cada amostra analisada. Os dados em várias amostras, portanto, constituem um cubo de dados . A modelagem de processos em lote envolve conjuntos de dados que têm tempo versus variáveis ​​de processo versus número de lote. Os métodos matemáticos de múltiplas vias aplicados a esses tipos de problemas incluem PARAFAC , decomposição trilinear e PLS e PCA de múltiplas vias.

Referências

Leitura adicional

  • Beebe, KR; Pell, RJ; Seasholtz, MB (1998). Chemometrics: A Practical Guide . Wiley.
  • Brereton, RG (2007). Quimometria aplicada para cientistas . Wiley.
  • Brown, SD; Tauler, R .; Walczak, B., eds. (2009). Quimiometria Abrangente: Análise de Dados Químicos e Bioquímicos . Conjunto de 4 volumes. Elsevier.
  • Gemperline, PJ, ed. (2006). Practical Guide to Chemometrics (2ª ed.). CRC Press.
  • Kramer, R. (1998). Técnicas quimiométricas para análise quantitativa . CRC Press.
  • Maeder, M .; Neuhold, Y.-M. (2007). Análise Prática de Dados em Química . Elsevier.
  • Mark, H .; Workman, J. (2007). Chemometrics in Spectroscopy . Academic Press-Elsevier.
  • Martens, H .; Naes, T. (1989). Calibração multivariada . Wiley.
  • Massart, DL; Vandeginste, BGM; Deming, SM; Michotte, Y .; Kaufman, L. (1988). Chemometrics: A Textbook . Elsevier.
  • Otto, M. (2007). Chemometrics: Statistics and Computer Application in Analytical Chemistry (2ª ed.). Wiley-VCH.
  • Vandeginste, BGM; Massart, DL; Buydens, LMC; De Jong, S .; Lewi, PJ; Smeyers-Verbeke, J. (1998). Livro de mão de Quimiometria e Qualimetrics: Parte A e Parte B . Elsevier.

links externos