Regressão robusta - Robust regression

Em estatísticas robustas , a regressão robusta é uma forma de análise de regressão projetada para superar algumas limitações dos métodos paramétricos e não paramétricos tradicionais . A análise de regressão procura encontrar a relação entre uma ou mais variáveis ​​independentes e uma variável dependente . Certos métodos de regressão amplamente usados, como os mínimos quadrados ordinários , têm propriedades favoráveis ​​se suas suposições subjacentes forem verdadeiras, mas podem dar resultados enganosos se essas suposições não forem verdadeiras; assim, os mínimos quadrados ordinários não são robustos a violações de suas premissas. Métodos de regressão robustos são projetados para não serem excessivamente afetados por violações de suposições pelo processo de geração de dados subjacente.

Em particular, as estimativas de mínimos quadrados para modelos de regressão são altamente sensíveis a outliers . Embora não haja uma definição precisa de um outlier, outliers são observações que não seguem o padrão das outras observações. Isso normalmente não é um problema se o valor discrepante for simplesmente uma observação extrema tirada da cauda de uma distribuição normal, mas se o valor discrepante resultar de um erro de medição não normal ou alguma outra violação das suposições de mínimos quadrados ordinários padrão, então ele compromete a validade dos resultados da regressão se uma técnica de regressão não robusta for usada.

Formulários

Erros heterocedásticos

Um caso em que uma estimativa robusta deve ser considerada é quando há uma forte suspeita de heterocedasticidade . No modelo homocedástico , assume-se que a variância do termo de erro é constante para todos os valores de x . A heterocedasticidade permite que a variância seja dependente de x , o que é mais preciso para muitos cenários reais. Por exemplo, a variância das despesas costuma ser maior para indivíduos com renda mais alta do que para indivíduos com renda mais baixa. Os pacotes de software geralmente assumem um modelo homocedástico, embora tal modelo possa ser menos preciso do que um modelo heterocedástico. Uma abordagem simples ( Tofallis, 2008 ) é aplicar os mínimos quadrados aos erros percentuais, pois isso reduz a influência dos valores maiores da variável dependente em comparação com os mínimos quadrados ordinários.

Presença de outliers

Outra situação comum em que uma estimativa robusta é usada ocorre quando os dados contêm outliers. Na presença de outliers que não vêm do mesmo processo de geração de dados que o restante dos dados, a estimativa de mínimos quadrados é ineficiente e pode ser enviesada. Como as previsões de mínimos quadrados são arrastadas para os valores discrepantes e a variância das estimativas é artificialmente inflada, o resultado é que os valores discrepantes podem ser mascarados. (Em muitas situações, incluindo algumas áreas da geoestatística e estatísticas médicas, são precisamente os valores discrepantes que interessam.)

Embora às vezes seja afirmado que os mínimos quadrados (ou métodos estatísticos clássicos em geral) são robustos, eles são robustos apenas no sentido de que a taxa de erro tipo I não aumenta sob violações do modelo. Na verdade, a taxa de erro do tipo I tende a ser menor do que o nível nominal quando há outliers, e muitas vezes há um aumento dramático na taxa de erro do tipo II . A redução da taxa de erro tipo I foi rotulada como o conservadorismo dos métodos clássicos.

História e impopularidade de regressão robusta

Apesar de seu desempenho superior sobre a estimativa de mínimos quadrados em muitas situações, métodos robustos de regressão ainda não são amplamente utilizados. Vários motivos podem ajudar a explicar sua impopularidade ( Hampel et al. 1986, 2005 ). Uma possível razão é que existem vários métodos concorrentes e o campo teve muitos começos falsos. Além disso, o cálculo de estimativas robustas é muito mais intensivo em termos de computação do que a estimativa de mínimos quadrados; nos últimos anos, no entanto, essa objeção tornou-se menos relevante, à medida que o poder de computação aumentou muito. Outra razão pode ser que alguns pacotes de software estatístico populares falharam na implementação dos métodos ( Stromberg, 2004 ). A crença de muitos estatísticos de que os métodos clássicos são robustos pode ser outro motivo.

Embora a absorção de métodos robustos tenha sido lenta, os livros de texto de estatística convencionais modernos muitas vezes incluem a discussão desses métodos (por exemplo, os livros de Seber e Lee e de Faraway; para uma boa descrição geral de como os vários métodos de regressão robustos desenvolvidos a partir de um outro, veja o livro de Andersen). Além disso, pacotes de software estatístico modernos, como R , Statsmodels , Stata e S-PLUS incluem funcionalidade considerável para estimativa robusta (ver, por exemplo, os livros de Venables e Ripley e de Maronna et al.).

Métodos para regressão robusta

Alternativas de mínimos quadrados

O método mais simples de estimar parâmetros em um modelo de regressão menos sensível a valores discrepantes do que as estimativas de quadrados mínimos é usar os desvios absolutos mínimos . Mesmo assim, outliers grosseiros ainda podem ter um impacto considerável no modelo, motivando pesquisas em abordagens ainda mais robustas.

Em 1964, Huber introduziu a estimativa M para regressão. OM na estimativa M significa "tipo de máxima verossimilhança". O método é robusto a outliers na variável de resposta, mas acabou não sendo resistente a outliers nas variáveis ​​explicativas ( pontos de alavancagem ). Na verdade, quando há outliers nas variáveis ​​explicativas, o método não tem vantagem sobre os mínimos quadrados.

Na década de 1980, várias alternativas para a estimativa M foram propostas como tentativas de superar a falta de resistência. Veja o livro de Rousseeuw e Leroy para uma revisão muito prática. Os mínimos quadrados aparados (LTS) é uma alternativa viável e atualmente (2007) a escolha preferida de Rousseeuw e Ryan (1997, 2008). O estimador de Theil-Sen tem um ponto de decomposição mais baixo do que o LTS, mas é estatisticamente eficiente e popular. Outra solução proposta foi a estimativa S. Este método encontra uma linha (plano ou hiperplano) que minimiza uma estimativa robusta da escala (a partir da qual o método obtém o S em seu nome) dos resíduos. Este método é altamente resistente a pontos de alavancagem e robusto a outliers na resposta. No entanto, esse método também foi considerado ineficiente.

A estimativa MM tenta manter a robustez e resistência da estimativa S, enquanto ganha a eficiência da estimativa M. O método prossegue encontrando uma estimativa S altamente robusta e resistente que minimiza uma estimativa M da escala dos resíduos (o primeiro M no nome do método). A escala estimada é então mantida constante enquanto uma estimativa próxima de M dos parâmetros é localizada (o segundo M).

Alternativas paramétricas

Outra abordagem para estimativa robusta de modelos de regressão é substituir a distribuição normal por uma distribuição de cauda pesada. Uma distribuição t com 4–6 graus de liberdade foi relatada como uma boa escolha em várias situações práticas. A regressão robusta bayesiana, sendo totalmente paramétrica, depende fortemente de tais distribuições.

Sob a suposição de resíduos t -distribuídos, a distribuição é uma família de escala de localização. Ou seja ,. Os graus de liberdade da distribuição t são algumas vezes chamados de parâmetro de curtose . Lange, Little e Taylor (1989) discutem este modelo com alguma profundidade de um ponto de vista não bayesiano. Um relato bayesiano aparece em Gelman et al. (2003).

Uma abordagem paramétrica alternativa é assumir que os resíduos seguem uma mistura de distribuições normais ( Daemi et al. 2019 ); em particular, uma distribuição normal contaminada na qual a maioria das observações é de uma distribuição normal especificada, mas uma pequena proporção é de uma distribuição normal com variância muito maior. Ou seja, os resíduos têm probabilidade de vir de uma distribuição normal com variância , onde é pequeno, e probabilidade de vir de uma distribuição normal com variância para alguns :

Normalmente ,. Isso às vezes é chamado de modelo de contaminação.

As abordagens paramétricas têm a vantagem de que a teoria da probabilidade fornece uma abordagem " pronta para uso" para inferência (embora para modelos de mistura, como o modelo de contaminação, as condições de regularidade usuais possam não se aplicar), e é possível construir modelos de simulação a partir de o ajuste. No entanto, esses modelos paramétricos ainda presumem que o modelo subjacente é literalmente verdadeiro. Como tal, eles não levam em consideração distribuições residuais distorcidas ou precisões de observação finitas.

Pesos unitários

Outro método robusto é o uso de pesos unitários ( Wainer & Thissen, 1976), um método que pode ser aplicado quando existem vários preditores de um único resultado. Ernest Burgess (1928) usou pesos unitários para prever o sucesso na liberdade condicional. Ele pontuou 21 fatores positivos como presentes (por exemplo, "sem prisão anterior" = 1) ou ausentes ("prisão anterior" = 0), então somados para produzir uma pontuação de preditor, que se mostrou um indicador útil do sucesso da condicional. Samuel S. Wilks (1938) mostrou que quase todos os conjuntos de pesos de regressão somam compostos que são altamente correlacionados uns com os outros, incluindo pesos unitários, um resultado conhecido como teorema de Wilks (Ree, Carretta, & Earles, 1998). Robyn Dawes (1979) examinou a tomada de decisão em ambientes aplicados, mostrando que modelos simples com pesos unitários freqüentemente superavam os especialistas humanos. Bobko, Roth e Buster (2007) revisaram a literatura sobre pesos unitários e concluíram que décadas de estudos empíricos mostram que os pesos unitários têm desempenho semelhante aos pesos de regressão comuns na validação cruzada.

Exemplo: dados do fígado BUPA

Os dados do fígado do BUPA foram estudados por vários autores, incluindo Breiman (2001). Os dados podem ser encontrados na página de conjuntos de dados clássicos e há alguma discussão no artigo sobre a transformação Box-Cox . Um gráfico dos logs de ALT versus os logs de γGT aparece abaixo. As duas linhas de regressão são aquelas estimadas por mínimos quadrados ordinários (OLS) e por estimativa MM robusta. A análise foi realizada em R por meio do software disponibilizado por Venables e Ripley (2002).

OLSandMM.JPG

As duas linhas de regressão parecem ser muito semelhantes (e isso não é incomum em um conjunto de dados desse tamanho). No entanto, a vantagem da abordagem robusta vem à tona quando as estimativas da escala residual são consideradas. Para mínimos quadrados ordinários, a estimativa da escala é 0,420, em comparação com 0,373 para o método robusto. Assim, a eficiência relativa de mínimos quadrados ordinários para estimativa de MM neste exemplo é 1,266. Essa ineficiência leva à perda de poder nos testes de hipóteses e a intervalos de confiança desnecessariamente amplos nos parâmetros estimados.

Detecção de outlier

Outra consequência da ineficiência do ajuste de mínimos quadrados ordinários é que vários valores discrepantes são mascarados porque a estimativa da escala residual é inflada; os resíduos escalonados são empurrados para mais perto de zero do que quando uma estimativa de escala mais apropriada é usada. Os gráficos dos resíduos escalonados dos dois modelos aparecem abaixo. A variável no eixo x é apenas o número da observação conforme apareceu no conjunto de dados. Rousseeuw e Leroy (1986) contém muitos desses enredos.

ResidualPlots.JPG

As linhas de referência horizontais estão em 2 e -2, de modo que qualquer resíduo escalonado observado além desses limites pode ser considerado um outlier. Claramente, o método dos mínimos quadrados leva a muitas observações interessantes sendo mascaradas.

Enquanto em uma ou duas dimensões a detecção de outliers usando métodos clássicos pode ser realizada manualmente, com grandes conjuntos de dados e em dimensões altas, o problema de mascaramento pode tornar a identificação de muitos outliers impossível. Métodos robustos detectam automaticamente essas observações, oferecendo uma grande vantagem sobre os métodos clássicos quando há outliers.

Veja também

Referências

  • Liu, J .; Cosman, PC; Rao, BD (2018). "Robust Linear Regression via L0 Regularization" . Transações IEEE no processamento de sinais . 66 (3): 698–713. doi : 10.1109 / TSP.2017.2771720 .
  • Andersen, R. (2008). Métodos modernos para regressão robusta . Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-152.
  • Ben-Gal I., detecção de outlier , In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers, "Kluwer Academic Publishers, 2005, ISBN   0-387-24435 -2 .
  • Bobko, P., Roth, PL e Buster, MA (2007). "A utilidade dos pesos unitários na criação de pontuações compostas: uma revisão da literatura, aplicação à validade do conteúdo e meta-análise". Métodos de pesquisa organizacional , volume 10, páginas 689-709. doi : 10.1177 / 1094428106294734
  • Daemi, Atefeh, Hariprasad Kodamana e Biao Huang. "Modelagem de processo gaussiano com probabilidade de mistura gaussiana." Journal of Process Control 81 (2019): 209-220. doi : 10.1016 / j.jprocont.2019.06.007
  • Breiman, L. (2001). "Modelagem Estatística: as Duas Culturas" . Ciência Estatística . 16 (3): 199–231. doi : 10.1214 / ss / 1009213725 . JSTOR   2676681 .
  • Burgess, EW (1928). "Fatores que determinam o sucesso ou o fracasso em liberdade condicional". Em AA Bruce (Ed.), The Workings of the Indeterminate Sentença Law and Parole in Illinois (pp. 205-249). Springfield, Illinois: Illinois State Parole Board. Livros do Google
  • Dawes, Robyn M. (1979). “A beleza robusta de modelos lineares inadequados na tomada de decisão”. American Psychologist , volume 34, páginas 571-582. doi : 10.1037 / 0003-066X.34.7.571 . pdf arquivado
  • Draper, David (1988). "Análise Robusta Baseada em Classificação de Modelos Lineares. I. Exposição e Revisão" . Ciência Estatística . 3 (2): 239–257. doi : 10.1214 / ss / 1177012915 . JSTOR   2245578 .
  • Faraway, JJ (2004). Modelos Lineares com R . Chapman & Hall / CRC.
  • Fornalski, KW (2015). "Aplicações da análise de regressão Bayesiana robusta". International Journal of Society Systems Science . 7 (4): 314–333. doi : 10.1504 / IJSSS.2015.073223 .
  • Gelman, A .; JB Carlin; HS Stern; DB Rubin (2003). Bayesian Data Analysis (Segunda ed.). Chapman & Hall / CRC.
  • Hampel, FR; EM Ronchetti; PJ Rousseeuw; WA Stahel (2005) [1986]. Estatísticas robustas: a abordagem baseada em funções de influência . Wiley.
  • Lange, KL; RJA Little; JMG Taylor (1989). "Modelagem estatística robusta usando a distribuição t " . Journal of the American Statistical Association . 84 (408): 881–896. doi : 10.2307 / 2290063 . JSTOR   2290063 .
  • Lerman, G .; McCoy, M .; Tropp, JA; Zhang T. (2012). "Cálculo robusto de modelos lineares ou como encontrar uma agulha em um palheiro" , arXiv : 1202.4044 .
  • Maronna, R .; D. Martin; V. Yohai (2006). Estatística robusta: teoria e métodos . Wiley.
  • McKean, Joseph W. (2004). "Análise robusta de modelos lineares" . Ciência Estatística . 19 (4): 562–570. doi : 10.1214 / 088342304000000549 . JSTOR   4144426 .
  • Radchenko SG (2005). Métodos robustos para estimação de modelos estatísticos: Monografia. (no idioma russo) . Kiev: РР «Sanspariel». p. 504. ISBN   978-966-96574-0-4 .
  • Ree, MJ, Carretta, TR e Earles, JA (1998). "Nas decisões de cima para baixo, as variáveis ​​de ponderação não importam: uma consequência do teorema de Wilk. Métodos de pesquisa organizacional , volume 1 (4), páginas 407-420. Doi : 10.1177 / 109442819814003
  • Rousseeuw, PJ ; AM Leroy (2003) [1986]. Regressão robusta e detecção de outlier . Wiley.
  • Ryan, TP (2008) [1997]. Métodos de regressão modernos . Wiley.
  • Seber, GAF; AJ Lee (2003). Análise de regressão linear (segunda edição). Wiley.
  • Stromberg, AJ (2004). “Por que escrever software estatístico? O caso de métodos estatísticos robustos” . Journal of Statistical Software . 10 (5). doi : 10.18637 / jss.v010.i05 .
  • Strutz, T. (2016). Ajuste de dados e incerteza (uma introdução prática aos mínimos quadrados ponderados e além) . Springer Vieweg. ISBN   978-3-658-11455-8 .
  • Tofallis, Chris (2008). "Regressão percentual dos mínimos quadrados". Journal of Modern Applied Statistical Methods . 7 : 526-534. doi : 10.2139 / ssrn.1406472 . SSRN   1406472 .
  • Venables, WN; BD Ripley (2002). Estatística Aplicada moderno com S . Springer.
  • Wainer, H. , & Thissen, D. (1976). "Três passos para uma regressão robusta." Psychometrika , volume 41 (1), páginas 9–34. doi : 10.1007 / BF02291695
  • Wilks, SS (1938). "Sistemas de ponderação para funções lineares de variáveis ​​correlacionadas quando não há variável dependente". Psychometrika , volume 3, páginas 23-40. doi : 10.1007 / BF02287917

links externos