Regressão de componente principal - Principal component regression

Em estatística , a regressão de componente principal ( PCR ) é uma técnica de análise de regressão baseada na análise de componente principal (PCA). Mais especificamente, o PCR é usado para estimar os coeficientes de regressão desconhecidos em um modelo de regressão linear padrão .

Na PCR, em vez de regredir a variável dependente diretamente nas variáveis ​​explicativas, os componentes principais das variáveis ​​explicativas são usados ​​como regressores . Normalmente, usa-se apenas um subconjunto de todos os componentes principais para a regressão, tornando o PCR uma espécie de procedimento regularizado e também um tipo de estimador de encolhimento .

Freqüentemente, os componentes principais com variâncias mais altas (aqueles baseados em autovetores correspondentes aos autovalores mais altos da matriz de variância-covariância de amostra das variáveis ​​explicativas) são selecionados como regressores. No entanto, para fins de previsão do resultado, os componentes principais com baixas variâncias também podem ser importantes, em alguns casos até mais importantes.

Um dos principais usos do PCR reside na superação do problema de multicolinearidade que surge quando duas ou mais das variáveis ​​explicativas estão perto de serem colineares . O PCR pode lidar adequadamente com tais situações, excluindo alguns dos componentes principais de baixa variância na etapa de regressão. Além disso, geralmente regredindo em apenas um subconjunto de todos os componentes principais, o PCR pode resultar na redução da dimensão por meio da redução substancial do número efetivo de parâmetros que caracterizam o modelo subjacente. Isso pode ser particularmente útil em configurações com covariáveis ​​de alta dimensão . Além disso, por meio da seleção apropriada dos componentes principais a serem usados ​​para a regressão, o PCR pode levar a uma previsão eficiente do resultado com base no modelo assumido.

O princípio

O método de PCR pode ser amplamente dividido em três etapas principais:

1. Execute PCA na matriz de dados observada para as variáveis ​​explicativas para obter os componentes principais e, em seguida, (normalmente) selecione um subconjunto, com base em alguns critérios apropriados, dos componentes principais assim obtidos para uso posterior.
2. Agora regredir o vetor de resultados observado nos componentes principais selecionados como covariáveis, usando regressão de mínimos quadrados ordinários ( regressão linear ) para obter um vetor de coeficientes de regressão estimados (com dimensão igual ao número de componentes principais selecionados).
3. Agora transforme este vetor de volta à escala das covariáveis ​​reais, usando os carregamentos PCA selecionados (os autovetores correspondentes aos componentes principais selecionados) para obter o estimador de PCR final (com dimensão igual ao número total de covariáveis) para estimar o coeficientes de regressão que caracterizam o modelo original.

Detalhes do método

Representação de dados: Deixe denotar o vetor de resultados observados e denotar a matriz de dados correspondente de covariáveis ​​observadas onde, e denotar o tamanho da amostra observada e o número de covariáveis ​​respectivamente, com . Cada uma das linhas de denota um conjunto de observações para a covariável dimensional e a respectiva entrada de denota o resultado observado correspondente.

Pré-processamento de dados: Suponha que e cada uma das colunas de já tenha sido centrada de forma que todas elas tenham nenhuma média empírica . Essa etapa de centralização é crucial (pelo menos para as colunas de ), uma vez que o PCR envolve o uso de PCA em e o PCA é sensível à centralização dos dados.

Modelo subjacente: após a centralização, o modelo de regressão linear Gauss-Markov padrão para on pode ser representado como: onde denota o vetor de parâmetro desconhecido de coeficientes de regressão e denota o vetor de erros aleatórios com e para algum parâmetro de variância desconhecido

Objetivo: o objetivo principal é obter um estimador eficiente para o parâmetro , com base nos dados. Uma abordagem freqüentemente usada para isso é a regressão de mínimos quadrados ordinária que, assumindo que é a classificação da coluna completa , dá o estimador imparcial : de . O PCR é outra técnica que pode ser usada com o mesmo propósito de estimativa .

Etapa de PCA: o PCR começa executando uma PCA na matriz de dados centralizada . Para isso, deixe denotam a decomposição do valor singular de onde, com denotando as não-negativos valores singulares de , enquanto que as colunas de e são os dois conjuntos ortogonais de vectores que denotam os vectores singulares esquerdo e direito de respectivamente.

Os componentes principais: dá uma decomposição espectral de onde com denotando os valores próprios não-negativos (também conhecido como os valores principais ) de , enquanto que as colunas de designam o conjunto ortonormal de vectores próprios correspondente. Então, e respectivamente denotam o componente principal e a direção do componente principal (ou carregamento de PCA ) correspondendo ao maior valor principal para cada um .

Covariáveis ​​derivadas: Para qualquer , vamos denotar a matriz com colunas ortonormais consistindo nas primeiras colunas de . Vamos denotar a matriz tendo os primeiros componentes principais como suas colunas. pode ser visto como a matriz de dados obtida usando as covariáveis transformadas em vez de usar as covariáveis ​​originais .

O estimador de PCR: Deixe denotar o vetor de coeficientes de regressão estimados obtidos por regressão de mínimos quadrados ordinários do vetor de resposta na matriz de dados . Então, para qualquer , o estimador de PCR final de base sobre o uso dos primeiros componentes principais é dado por: .

Características fundamentais e aplicações do estimador PCR

Duas propriedades básicas

O processo de ajuste para obter o estimador de PCR envolve a regressão do vetor de resposta na matriz de dados derivada que tem colunas ortogonais para qualquer uma, uma vez que os componentes principais são mutuamente ortogonais entre si. Assim, na etapa de regressão, realizar uma regressão linear múltipla conjuntamente nos componentes principais selecionados como covariáveis ​​é equivalente a realizar regressões lineares simples independentes (ou regressões univariadas) separadamente em cada um dos componentes principais selecionados como uma covariável.

Quando todos os componentes principais são selecionados para regressão de modo que , o estimador de PCR é equivalente ao estimador de mínimos quadrados ordinários. Assim ,. Isso é facilmente percebido pelo fato de e também pela observação que se trata de uma matriz ortogonal .

Redução de variância

Para qualquer um , a variância de é dada por

Em particular:

Portanto, para todos nós temos:

Assim, para todos nós temos:

onde indica que uma matriz quadrada simétrica é definida não negativa . Consequentemente, qualquer forma linear do estimador PCR tem uma variância menor em comparação com a mesma forma linear do estimador de mínimos quadrados ordinários.

Lidando com a multicolinearidade

Sob multicolinearidade , duas ou mais das covariáveis ​​são altamente correlacionadas , de modo que uma pode ser prevista linearmente a partir das outras com um grau não trivial de precisão. Consequentemente, as colunas da matriz de dados que correspondem às observações para essas covariáveis ​​tendem a se tornar linearmente dependentes e, portanto, tendem a se tornar deficientes em classificação, perdendo sua estrutura de classificação de coluna completa. Mais quantitativamente, um ou mais dos autovalores menores de se torna (s) muito próximo ou se (s) exatamente igual (is) em tais situações. As expressões de variância acima indicam que esses pequenos valores próprios têm o efeito máximo de inflação sobre a variância do estimador de mínimos quadrados, desestabilizando assim o estimador significativamente quando estão próximos de . Esse problema pode ser resolvido de forma eficaz por meio do uso de um estimador de PCR obtido pela exclusão dos componentes principais correspondentes a esses pequenos valores próprios.

Redução de dimensão

O PCR também pode ser usado para realizar a redução de dimensão . Para ver isso, vamos denotar qualquer matriz com colunas ortonormais, para qualquer. Suponha agora que queremos aproximar cada uma das observações de covariável por meio da transformação linear de classificação para alguns .

Então, pode-se mostrar que

é minimizado na matriz com as primeiras direções do componente principal como colunas e as covariáveis ​​derivadas dimensionais correspondentes . Assim, os componentes principais dimensionais fornecem a melhor aproximação linear de classificação da matriz de dados observada .

O erro de reconstrução correspondente é dado por:

Assim, qualquer redução de dimensão potencial pode ser alcançada escolhendo o número de componentes principais a serem usados, por meio de limiares apropriados na soma cumulativa dos valores próprios de . Uma vez que os autovalores menores não contribuem significativamente para a soma cumulativa, os componentes principais correspondentes podem continuar a ser eliminados, desde que o limite desejado não seja excedido. Os mesmos critérios também podem ser usados ​​para abordar a questão da multicolinearidade , em que os componentes principais correspondentes aos autovalores menores podem ser ignorados, desde que o limite seja mantido.

Efeito de regularização

Como o estimador de PCR normalmente usa apenas um subconjunto de todos os componentes principais para a regressão, ele pode ser visto como uma espécie de procedimento regularizado . Mais especificamente, para qualquer um , o estimador de PCR denota a solução regularizada para o seguinte problema de minimização restrita :

A restrição pode ser escrita de forma equivalente:

Onde:

Assim, quando apenas um subconjunto adequado de todos os componentes principais é selecionado para regressão, o estimador de PCR assim obtido é baseado em uma forma rígida de regularização que restringe a solução resultante ao espaço da coluna das direções do componente principal selecionado e, consequentemente, restringe para ser ortogonal às direções excluídas.

Optimalidade de PCR entre uma classe de estimadores regularizados

Dado o problema de minimização restrita conforme definido acima, considere a seguinte versão generalizada dele:

onde, denota qualquer matriz de classificação de coluna completa de ordem com .

Deixe denotar a solução correspondente. Desse modo

Então, a escolha ótima da matriz de restrição para a qual o estimador correspondente atinge o erro mínimo de predição é dada por:

Onde

Muito claramente, o estimador ótimo resultante é então simplesmente dado pelo estimador PCR com base nos primeiros componentes principais.

Eficiência

Uma vez que o estimador de mínimos quadrados ordinários é imparcial para , temos

onde, MSE denota o erro quadrático médio . Agora, se para alguns , temos adicionalmente:, então o correspondente também é imparcial para e, portanto,

Já vimos isso

o que então implica:

para aquele particular . Assim, nesse caso, o correspondente seria um estimador mais eficiente de em comparação com , com base no uso do erro quadrático médio como critério de desempenho. Além disso, qualquer forma linear do correspondente também teria um erro quadrático médio mais baixo em comparação com a mesma forma linear de .

Agora, suponha que seja um dado . Então, o correspondente é tendencioso para . No entanto, desde

ainda é possível que , especialmente se for tal, que os componentes principais excluídos correspondam aos autovalores menores, resultando assim em viés inferior .

A fim de garantir uma estimativa eficiente e desempenho de previsão de PCR como um estimador de , Park (1981) propõe a seguinte diretriz para selecionar os componentes principais a serem usados ​​para a regressão: Abandone o componente principal se e somente se Implementação prática desta diretriz, é claro requer estimativas para os parâmetros desconhecidos do modelo e . Em geral, eles podem ser estimados usando as estimativas de mínimos quadrados irrestritos obtidas do modelo completo original. Park (1981), entretanto, fornece um conjunto ligeiramente modificado de estimativas que podem ser mais adequadas para esse propósito.

Ao contrário dos critérios baseados na soma cumulativa dos autovalores de , que é provavelmente mais adequado para abordar o problema de multicolinearidade e para realizar a redução de dimensão, os critérios acima realmente tentam melhorar a eficiência de previsão e estimativa do estimador de PCR envolvendo tanto o resultado bem como as covariáveis ​​no processo de seleção dos componentes principais a serem usados ​​na etapa de regressão. Abordagens alternativas com objetivos semelhantes incluem a seleção dos componentes principais com base na validação cruzada ou nos critérios C p de Mallow . Freqüentemente, os componentes principais também são selecionados com base em seu grau de associação com o resultado.

Efeito de encolhimento do PCR

Em geral, PCR é essencialmente um estimador de redução que geralmente retém os componentes principais de alta variância (correspondendo aos autovalores mais elevados de ) como covariáveis ​​no modelo e descarta os componentes de baixa variância restantes (correspondentes aos autovalores mais baixos de ). Assim, ele exerce um efeito de retração discreto nos componentes de baixa variância anulando sua contribuição completamente no modelo original. Em contraste, o estimador de regressão de crista exerce um efeito de encolhimento suave por meio do parâmetro de regularização (ou o parâmetro de ajuste) inerentemente envolvido em sua construção. Embora não descarte completamente nenhum dos componentes, ele exerce um efeito de retração sobre todos eles de maneira contínua, de modo que a extensão da retração seja maior para os componentes de baixa variância e menor para os componentes de alta variância. Frank e Friedman (1993) concluem que para o propósito de predição em si, o estimador de crista, devido ao seu efeito de retração suave, é talvez uma escolha melhor em comparação com o estimador de PCR com um efeito de retração discreto.

Além disso, os componentes principais são obtidos da autodescomposição de que envolve as observações apenas para as variáveis ​​explicativas. Portanto, o estimador de PCR resultante obtido do uso desses componentes principais como covariáveis ​​não precisa necessariamente ter um desempenho preditivo satisfatório para o resultado. Um estimador um tanto semelhante que tenta resolver esse problema por meio de sua própria construção é o estimador de mínimos quadrados parciais (PLS). Semelhante ao PCR, o PLS também usa covariáveis ​​derivadas de dimensões inferiores. No entanto, ao contrário da PCR, as covariáveis ​​derivadas para PLS são obtidas com base no uso do resultado e das covariáveis. Enquanto o PCR busca as direções de alta variância no espaço das covariáveis, o PLS busca as direções no espaço da covariável que são mais úteis para a previsão do resultado.

Recentemente, uma variante do PCR clássico conhecido como PCR supervisionado foi proposta por Bair, Hastie, Paul e Tibshirani (2006). Em um espírito semelhante ao do PLS, ele tenta obter covariáveis ​​derivadas de dimensões inferiores com base em um critério que envolve tanto o resultado quanto as covariáveis. O método começa executando um conjunto de regressões lineares simples (ou regressões univariadas) em que o vetor de resultado é regredido separadamente em cada uma das covariáveis ​​tomadas uma de cada vez. Então, para alguns , as primeiras covariáveis ​​que acabam sendo as mais correlacionadas com o resultado (com base no grau de significância dos coeficientes de regressão estimados correspondentes) são selecionadas para uso posterior. Um PCR convencional, conforme descrito anteriormente, é então realizado, mas agora é baseado apenas na matriz de dados correspondente às observações para as covariáveis ​​selecionadas. O número de covariáveis ​​usadas: e o número subsequente de componentes principais usados: são normalmente selecionados por validação cruzada .

Generalização para configurações do kernel

O método de PCR clássico, conforme descrito acima, é baseado no PCA clássico e considera um modelo de regressão linear para prever o resultado com base nas covariáveis. No entanto, ele pode ser facilmente generalizado para uma configuração de máquina de kernel em que a função de regressão não precisa ser necessariamente linear nas covariáveis, mas em vez disso pode pertencer ao Espaço de Hilbert do Kernel Reprodutor associado a qualquer arbitrário (possivelmente não linear ), simétrico positivo- kernel definido . O modelo de regressão linear acaba sendo um caso especial dessa configuração quando a função kernel é escolhida para ser o kernel linear .

Em geral, sob a máquina de kernel configuração, o vector de co-variáveis é primeiro mapeados em um de alta dimensional (potencialmente infinito-dimensional ) espaço de características caracterizado pela função de núcleo escolhida. O mapeamento assim obtido é conhecido como mapa de feições e cada uma de suas coordenadas , também conhecidas como elementos de feições , corresponde a uma feição (pode ser linear ou não linear ) das covariáveis. A função de regressão é então considerada uma combinação linear desses elementos de recurso . Assim, o modelo de regressão subjacente na configuração da máquina do kernel é essencialmente um modelo de regressão linear com o entendimento de que, em vez do conjunto original de covariáveis, os preditores agora são dados pelo vetor (potencialmente infinito-dimensional ) de elementos de característica obtidos pela transformação do covariáveis ​​reais usando o mapa de recursos .

No entanto, o truque do kernel realmente nos permite operar no espaço de recursos sem nunca computar explicitamente o mapa de recursos . Acontece que é apenas suficiente calcular os produtos internos dos pares entre os mapas de características para os vetores covariáveis ​​observados e esses produtos internos são simplesmente dados pelos valores da função kernel avaliada nos pares correspondentes de vetores covariáveis. Os produtos internos emparelhados assim obtidos podem, portanto, ser representados na forma de uma matriz definida não negativa simétrica, também conhecida como matriz de kernel .

O PCR na configuração da máquina do kernel pode agora ser implementado primeiro centralizando apropriadamente esta matriz do kernel (K, digamos) em relação ao espaço de recursos e, em seguida, realizando um PCA do kernel na matriz do kernel centralizado (K ', digamos) em que uma decomposição automática de K ' é obtido. Kernel PCR prossegue então (normalmente) selecionando um subconjunto de todos os autovetores assim obtidos e, em seguida, executando uma regressão linear padrão do vetor de resultado nesses autovetores selecionados . Os autovetores a serem usados ​​para a regressão são geralmente selecionados por meio de validação cruzada . Os coeficientes de regressão estimados (tendo a mesma dimensão que o número de autovetores selecionados) junto com os autovetores selecionados correspondentes são então usados ​​para prever o resultado para uma observação futura. No aprendizado de máquina , essa técnica também é conhecida como regressão espectral .

Claramente, o PCR do kernel tem um efeito de retração discreto nos autovetores de K ', bastante semelhante ao efeito de retração discreto do PCR clássico nos componentes principais, como discutido anteriormente. No entanto, o mapa de recursos associado ao kernel escolhido pode ser potencialmente infinito e, portanto, os componentes principais correspondentes e as direções dos componentes principais também podem ser infinitos. Portanto, essas quantidades são quase sempre intratáveis ​​na configuração da máquina do kernel. O PCR de kernel basicamente resolve esse problema considerando uma formulação dupla equivalente com base no uso da decomposição espectral da matriz de kernel associada. Sob o modelo de regressão linear (que corresponde a escolher a função kernel como o kernel linear), isso equivale a considerar uma decomposição espectral da matriz kernel correspondente e, em seguida, regredir o vetor de resultado em um subconjunto selecionado dos autovetores assim obtidos. Pode ser facilmente mostrado que isso é o mesmo que regredir o vetor de resultado nos componentes principais correspondentes (que são de dimensão finita, neste caso), conforme definido no contexto do PCR clássico. Assim, para o kernel linear, o PCR do kernel baseado em uma formulação dupla é exatamente equivalente ao PCR clássico baseado em uma formulação primária. No entanto, para kernels arbitrários (e possivelmente não lineares), esta formulação primária pode se tornar intratável devido à dimensionalidade infinita do mapa de características associado. Assim, o PCR clássico torna-se praticamente inviável nesse caso, mas o PCR do kernel com base na formulação dupla ainda permanece válido e computacionalmente escalável.

Veja também

Referências

Leitura adicional