Regressão de ângulo mínimo - Least-angle regression

Coeficientes padronizados mostrados em função da proporção de retração.

Em estatística , a regressão de ângulo mínimo (LARS) é um algoritmo para ajustar modelos de regressão linear a dados de alta dimensão, desenvolvido por Bradley Efron , Trevor Hastie , Iain Johnstone e Robert Tibshirani .

Suponha que esperemos que uma variável de resposta seja determinada por uma combinação linear de um subconjunto de covariáveis ​​potenciais. Em seguida, o algoritmo LARS fornece um meio de produzir uma estimativa de quais variáveis ​​incluir, bem como seus coeficientes.

Em vez de fornecer um resultado vetorial, a solução LARS consiste em uma curva denotando a solução para cada valor da norma L1 do vetor de parâmetros. O algoritmo é semelhante à regressão stepwise forward , mas em vez de incluir variáveis ​​em cada etapa, os parâmetros estimados são aumentados em uma direção equiangular às correlações de cada um com o resíduo.

Prós e contras

As vantagens do método LARS são:

  1. É computacionalmente tão rápido quanto a seleção direta.
  2. Ele produz um caminho de solução linear completo por partes, que é útil na validação cruzada ou em tentativas semelhantes de ajustar o modelo.
  3. Se duas variáveis ​​são quase igualmente correlacionadas com a resposta, então seus coeficientes devem aumentar aproximadamente na mesma taxa. O algoritmo, portanto, se comporta como a intuição esperaria e também é mais estável.
  4. Ele é facilmente modificado para produzir algoritmos eficientes para outros métodos que produzem resultados semelhantes, como o laço e a regressão progressiva de estágio.
  5. É eficaz em contextos onde p  >>  n (ou seja, quando o número de preditores p é significativamente maior do que o número de pontos n )

As desvantagens do método LARS incluem:

  1. Com qualquer quantidade de ruído na variável dependente e com variáveis ​​independentes multicolineares de alta dimensão , não há razão para acreditar que as variáveis ​​selecionadas terão uma alta probabilidade de serem as variáveis ​​causais subjacentes reais. Este problema não é exclusivo do LARS, pois é um problema geral com abordagens de seleção de variáveis ​​que procuram encontrar componentes determinísticos subjacentes. No entanto, como o LARS é baseado em um reajuste iterativo dos resíduos, ele parece ser especialmente sensível aos efeitos do ruído. Este problema é discutido em detalhes por Weisberg na seção de discussão do Efron et al. (2004) Artigo do Annals of Statistics. Weisberg fornece um exemplo empírico baseado na reanálise dos dados originalmente usados ​​para validar o LARS, de que a seleção de variáveis ​​parece ter problemas com variáveis ​​altamente correlacionadas.
  2. Uma vez que quase todos os dados dimensionais elevados no mundo real irão, por acaso, exibir algum grau razoável de colinearidade em pelo menos algumas variáveis, o problema que o LARS tem com variáveis ​​correlacionadas pode limitar sua aplicação a dados dimensionais elevados.

Algoritmo

As etapas básicas do algoritmo de regressão de ângulo mínimo são:

  • Comece com todos os coeficientes iguais a zero.
  • Encontre o preditor mais correlacionado com
  • Aumente o coeficiente na direção do sinal de sua correlação com . Pegue os resíduos ao longo do caminho. Pare quando algum outro preditor tiver tanta correlação com o quanto .
  • Aumente ( , ) na direção dos mínimos quadrados da junta, até que algum outro preditor tenha tanta correlação com o residual .
  • Aumentar ( , , ) em sua direção conjunta de mínimos quadrados, até que algum outro preditor tem correlação tanto com o residual .
  • Continue até: todos os preditores estão no modelo

Implementação de software

A regressão de ângulo mínimo é implementada em R por meio do pacote lars , em Python com o pacote scikit-learn e em SAS por meio do procedimento GLMSELECT .

Veja também

Referências