Regressão de mínimos quadrados parciais - Partial least squares regression

A regressão de mínimos quadrados parcial ( regressão PLS ) é um método estatístico que tem alguma relação com a regressão de componentes principais ; em vez de encontrar hiperplanos de variância máxima entre a resposta e as variáveis ​​independentes, ele encontra um modelo de regressão linear projetando as variáveis ​​preditas e as variáveis ​​observáveis em um novo espaço. Como os dados X e Y são projetados em novos espaços, a família de métodos PLS é conhecida como modelos de fator bilinear. A análise discriminante de mínimos quadrados parciais (PLS-DA) é uma variante usada quando o Y é categórico.

PLS é usado para encontrar as relações fundamentais entre duas matrizes ( X e Y ), ou seja, uma abordagem de variável latente para modelar as estruturas de covariância nesses dois espaços. Um modelo PLS tentará encontrar a direção multidimensional no espaço X que explica a direção de variância multidimensional máxima no espaço Y. A regressão PLS é particularmente adequada quando a matriz de preditores tem mais variáveis ​​do que observações e quando há multicolinearidade entre os valores de X. Em contraste, a regressão padrão falhará nesses casos (a menos que seja regularizada ).

Os mínimos quadrados parciais foram introduzidos pelo estatístico sueco Herman OA Wold , que o desenvolveu com seu filho, Svante Wold. Um termo alternativo para PLS (e mais correto de acordo com Svante Wold) é a projeção para estruturas latentes , mas o termo mínimos quadrados parciais ainda é dominante em muitas áreas. Embora as aplicações originais fossem nas ciências sociais, a regressão PLS é hoje mais amplamente usada em quimiometria e áreas relacionadas. Também é usado em bioinformática , sensometria , neurociência e antropologia .

Modelo subjacente

O modelo geral subjacente de PLS multivariado é

onde X é uma matriz de preditores, Y é uma matriz de respostas; T e U são matrizes que são, respectivamente, projeções de X (a pontuação X , matriz de componente ou fator ) e projeções de Y (as pontuações Y ); P e Q são, respectivamente, e ortogonal de carga de matrizes; e as matrizes E e F são os termos de erro, assumidos como variáveis ​​normais aleatórias independentes e distribuídas de forma idêntica. As decomposições de X e Y são feitas de modo a maximizar a covariância entre T e U .

Algoritmos

Um certo número de variantes de PLS existe para calcular o factor de carregamento e matrizes T, L, P e Q . A maioria deles constrói estimativas da regressão linear entre X e Y como . Alguns algoritmos de PLS são apenas apropriadas para o caso em que Y é um vector de coluna, enquanto outros lidar com o caso geral de uma matriz Y . Os algoritmos também diferem quanto ao fato de estimarem a matriz de fator T como uma matriz ortogonal (isto é, ortonormal ) ou não. A previsão final será a mesma para todas essas variedades de PLS, mas os componentes serão diferentes.

PLS1

PLS1 é um algoritmo amplamente usado apropriado para o caso Y do vetor . Ele estima T como uma matriz ortonormal. Em pseudocódigo, é expresso abaixo (letras maiúsculas são matrizes, letras minúsculas são vetores se forem sobrescritos e escalares se forem subscritos)

 1 function PLS1(X, y, l)
 2     
 3     , an initial estimate of w.
 4     for  to 
 5         
 6          (note this is a scalar)
 7         
 8         
 9          (note this is a scalar)
10         if 
11             , break the for loop
12         if 
13             
14             
15     end for
16     define W to be the matrix with columns .
       Do the same to form the P matrix and q vector.
17     
18     
19     return 

Esta forma do algoritmo não requer a centralização da entrada X e Y , pois isso é feito implicitamente pelo algoritmo. Este algoritmo apresenta 'deflação' da matriz X (subtração de ), mas a deflação do vetor y não é realizada, pois não é necessária (pode-se provar que esvaziar y produz os mesmos resultados que não esvaziar). A variável fornecida pelo usuário l é o limite do número de fatores latentes na regressão; se for igual à classificação da matriz X , o algoritmo produzirá as estimativas de regressão de mínimos quadrados para B e

Extensões

Em 2002 foi publicado um novo método denominado projeções ortogonais para estruturas latentes (OPLS). No OPLS, os dados variáveis ​​contínuos são separados em informações preditivas e não correlacionadas. Isso leva a diagnósticos aprimorados, bem como a uma visualização mais facilmente interpretada. No entanto, essas mudanças apenas melhoram a interpretabilidade, não a previsibilidade, dos modelos PLS. L-PLS estende a regressão PLS para 3 blocos de dados conectados. Da mesma forma, OPLS-DA (Análise Discriminante) pode ser aplicada quando se trabalha com variáveis ​​discretas, como em estudos de classificação e biomarcadores.

Em 2015, os mínimos quadrados parciais foram relacionados a um procedimento denominado filtro de regressão de três passagens (3PRF). Supondo que o número de observações e variáveis ​​seja grande, o 3PRF (e, portanto, o PLS) é assintoticamente normal para a "melhor" previsão implícita por um modelo de fator latente linear. Em dados do mercado de ações, o PLS demonstrou fornecer previsões precisas de retornos e crescimento do fluxo de caixa fora da amostra.

Uma versão PLS baseada na decomposição de valor singular (SVD) fornece uma implementação eficiente de memória que pode ser usada para resolver problemas de alta dimensão, como relacionar milhões de marcadores genéticos a milhares de recursos de imagem em genética de imagem, em hardware de nível de consumidor.

A correlação PLS (PLSC) é outra metodologia relacionada à regressão PLS, que tem sido usada em neuroimagem e, mais recentemente, na ciência do esporte, para quantificar a força da relação entre conjuntos de dados. Normalmente, o PLSC divide os dados em dois blocos (subgrupos), cada um contendo uma ou mais variáveis ​​e, em seguida, usa a decomposição de valor singular (SVD) para estabelecer a força de qualquer relacionamento (ou seja, a quantidade de informações compartilhadas) que pode existir entre os dois subgrupos componentes. Ele faz isso usando SVD para determinar a inércia (ou seja, a soma dos valores singulares) da matriz de covariância dos subgrupos em consideração.

Veja também

Leitura adicional

  • Kramer, R. (1998). Técnicas quimiométricas para análise quantitativa . Marcel-Dekker. ISBN 978-0-8247-0198-7.
  • Frank, Ildiko E .; Friedman, Jerome H. (1993). "Uma visão estatística de algumas ferramentas de regressão quimiométrica". Tecnometria . 35 (2): 109–148. doi : 10.1080 / 00401706.1993.10485033 .
  • Haenlein, Michael; Kaplan, Andreas M. (2004). "Um Guia para Iniciantes para Análise de Mínimos Quadrados Parciais". Compreendendo as estatísticas . 3 (4): 283–297. doi : 10.1207 / s15328031us0304_4 .
  • Henseler, Joerg; Fassott, Georg (2005). "Testando efeitos moderadores em modelos de caminho PLS. Uma ilustração dos procedimentos disponíveis". Citar diário requer |journal=( ajuda )
  • Lingjærde, Ole-Christian; Christophersen, Nils (2000). "Estrutura de encolhimento de mínimos quadrados parciais". Scandinavian Journal of Statistics . 27 (3): 459–473. doi : 10.1111 / 1467-9469.00201 .
  • Tenenhaus, Michel (1998). La Régression PLS: Théorie et Pratique. Paris: Technip .
  • Rosipal, romano; Kramer, Nicole (2006). "Visão geral e avanços recentes em mínimos quadrados parciais, em subespaço, estrutura latente e técnicas de seleção de recursos": 34–51. Citar diário requer |journal=( ajuda )
  • Helland, Inge S. (1990). "Regressão PLS e modelos estatísticos". Scandinavian Journal of Statistics . 17 (2): 97-114. JSTOR  4616159 .
  • Wold, Herman (1966). "Estimativa de componentes principais e modelos relacionados por mínimos quadrados iterativos". Em Krishnaiaah, PR (ed.). Análise multivariada . Nova York: Academic Press. pp. 391–420.
  • Wold, Herman (1981). A abordagem de ponto fixo para sistemas interdependentes . Amsterdã: Holanda do Norte.
  • Wold, Herman (1985). "Mínimos quadrados parciais". Em Kotz, Samuel; Johnson, Norman L. (eds.). Enciclopédia de ciências estatísticas . 6 . Nova York: Wiley. pp. 581–591.
  • Wold, Svante; Ruhe, Axel; Wold, Herman; Dunn, WJ (1984). "O problema da colinearidade na regressão linear. A abordagem dos mínimos quadrados parciais (PLS) para inversos generalizados". SIAM Journal on Scientific and Statistical Computing . 5 (3): 735–743. doi : 10.1137 / 0905052 .
  • Garthwaite, Paul H. (1994). "Uma interpretação dos mínimos quadrados parciais". Journal of the American Statistical Association . 89 (425): 122–7. doi : 10.1080 / 01621459.1994.10476452 . JSTOR  2291207 .
  • Wang, H., ed. (2010). Handbook of Partial Least Squares . ISBN 978-3-540-32825-4.
  • Stone, M .; Brooks, RJ (1990). "Regressão contínua: Predição construída sequencialmente com validação cruzada envolvendo mínimos quadrados ordinários, mínimos quadrados parciais e regressão de componentes principais". Journal of Royal Statistical Society, Série B . 52 (2): 237–269. JSTOR  2345437 .

Referências

links externos