Regressão Stepwise - Stepwise regression

Em estatística , a regressão stepwise é um método de ajuste de modelos de regressão em que a escolha das variáveis ​​preditivas é realizada por um procedimento automático. Em cada etapa, uma variável é considerada para adição ou subtração do conjunto de variáveis ​​explicativas com base em algum critério pré-especificado. Normalmente, isso assume a forma de uma sequência para frente, para trás ou combinada de F -tests ou t -tests .

A prática frequente de ajustar o modelo final selecionado seguido por estimativas de relatórios e intervalos de confiança sem ajustá-los para levar em conta o processo de construção de modelo levou a chamadas para parar de usar a construção de modelo passo a passo ou pelo menos garantir que a incerteza do modelo seja refletida corretamente. Alternativas incluem outros selecção modelo de técnicas, tais como ajustado R 2 , Akaike critério de informação , Bayesiana critério de informação , de Mallows C p , PRESS , ou taxa de detecção falsa .

Neste exemplo de engenharia, condições necessárias e suficientes são normalmente determinadas por testes F . Para consideração adicional, ao planejar um experimento , simulação de computador ou pesquisa científica para coletar dados para este modelo , deve-se ter em mente o número de parâmetros , P , para estimar e ajustar o tamanho da amostra de acordo. Para variáveis K , P  = 1 (Início)  +  K (Estágio I)  + ( K 2  -  K ) / 2 (Estágio II)  + 3 K (Estágio III) = 0,5 K 2  + 3,5 K  + 1. Para K  <17 , existe um projeto eficiente de experimentos para este tipo de modelo, um projeto Box-Behnken , aumentado com pontos axiais positivos e negativos de comprimento min (2, (int (1,5 +  K / 4)) 1/2 ), ponto positivo ( s) na origem. Existem projetos mais eficientes , exigindo menos execuções, mesmo para K  > 16.

Principais abordagens

As principais abordagens para regressão stepwise são:

  • Seleção direta , que envolve começar sem variáveis ​​no modelo, testar a adição de cada variável usando um critério de ajuste do modelo escolhido, adicionar a variável (se houver) cuja inclusão dá a melhoria estatisticamente significativa do ajuste e repetir este processo até nenhum melhora o modelo de forma estatisticamente significativa.
  • Eliminação reversa , que envolve começar com todas as variáveis ​​candidatas, testar a exclusão de cada variável usando um critério de ajuste do modelo escolhido, excluir a variável (se houver) cuja perda dá a deterioração estatisticamente insignificante do ajuste do modelo e repetir este processo até não outras variáveis ​​podem ser excluídas sem uma perda de ajuste estatisticamente insignificante.
  • Eliminação bidirecional , uma combinação das opções acima, testando em cada etapa as variáveis ​​a serem incluídas ou excluídas.

Alternativas

Um algoritmo amplamente usado foi proposto pela primeira vez por Efroymson (1960). Este é um procedimento automático para seleção de modelo estatístico nos casos em que há um grande número de variáveis ​​explicativas potenciais e nenhuma teoria subjacente na qual basear a seleção do modelo. O procedimento é usado principalmente na análise de regressão , embora a abordagem básica seja aplicável em muitas formas de seleção de modelo. Esta é uma variação da seleção direta. A cada etapa do processo, após a adição de uma nova variável, é feito um teste para verificar se algumas variáveis ​​podem ser excluídas sem aumentar sensivelmente a soma dos quadrados residuais (RSS). O procedimento termina quando a medida é (localmente) maximizada ou quando a melhoria disponível cai abaixo de algum valor crítico.

Um dos principais problemas com a regressão stepwise é que ela pesquisa um grande espaço de modelos possíveis. Portanto, é propenso a sobreajuste dos dados. Em outras palavras, a regressão stepwise muitas vezes se ajusta muito melhor na amostra do que em novos dados fora da amostra. Casos extremos foram observados em que os modelos alcançaram significância estatística trabalhando com números aleatórios. Esse problema pode ser mitigado se o critério para adicionar (ou excluir) uma variável for rígido o suficiente. A linha-chave na areia está no que pode ser considerado o ponto de Bonferroni : a saber, quão significativa a melhor variável espúria deve ser baseada apenas no acaso. Em uma escala estatística t , isso ocorre por volta de , onde p é o número de preditores. Infelizmente, isso significa que muitas variáveis ​​que realmente transportam o sinal não serão incluídas. Essa cerca acaba sendo a compensação certa entre o excesso de ajuste e o sinal ausente. Se olharmos para o risco de diferentes pontos de corte, o uso desse limite estará dentro do fator de melhor risco possível. Qualquer outro corte acabará tendo uma inflação de risco maior .

Precisão do modelo

Uma forma de testar os erros em modelos criados por regressão passo a passo é não confiar na estatística F , significância ou R múltiplo do modelo, mas sim avaliar o modelo em relação a um conjunto de dados que não foi usado para criar o modelo . Isso geralmente é feito construindo um modelo baseado em uma amostra do conjunto de dados disponível (por exemplo, 70%) - o " conjunto de treinamento " - e usar o restante do conjunto de dados (por exemplo, 30%) como um conjunto de validação para avaliar a precisão do modelo. A precisão é então frequentemente medida como o erro padrão real (SE), MAPE ( erro percentual absoluto médio ) ou erro médio entre o valor previsto e o valor real na amostra de validação. Este método é particularmente valioso quando os dados são coletados em ambientes diferentes (por exemplo, momentos diferentes, situações sociais versus situações solitárias) ou quando os modelos são considerados generalizáveis.

Crítica

Os procedimentos de regressão stepwise são usados ​​na mineração de dados , mas são controversos. Vários pontos de crítica foram feitos.

  • Os próprios testes são tendenciosos, uma vez que se baseiam nos mesmos dados. Wilkinson e Dallal (1981) computaram pontos percentuais do coeficiente de correlação múltipla por simulação e mostraram que uma regressão final obtida por seleção direta, dita pelo procedimento F ser significativa a 0,1%, era de fato significativa apenas a 5%.
  • Ao estimar os graus de liberdade , o número de variáveis ​​independentes candidatas do melhor ajuste selecionado pode ser menor do que o número total de variáveis ​​do modelo final, fazendo com que o ajuste pareça melhor do que quando ajusta o valor de r 2 para o número de graus de liberdade. É importante considerar quantos graus de liberdade foram usados ​​em todo o modelo, não apenas contar o número de variáveis ​​independentes no ajuste resultante.
  • Os modelos criados podem ser simplificações excessivas dos modelos reais dos dados.

Essas críticas, baseadas nas limitações da relação entre um modelo e procedimento e o conjunto de dados usado para ajustá-lo, são geralmente tratadas por meio da verificação do modelo em um conjunto de dados independente, como no procedimento PRESS .

Os críticos consideram o procedimento como um exemplo paradigmático de dragagem de dados , a computação intensa frequentemente sendo um substituto inadequado para a especialização na área de assunto. Além disso, os resultados da regressão stepwise são frequentemente usados ​​incorretamente, sem ajustá-los para a ocorrência de seleção de modelo. Especialmente a prática de ajustar o modelo final selecionado como se nenhuma seleção de modelo tivesse ocorrido e relatar estimativas e intervalos de confiança como se a teoria dos mínimos quadrados fosse válida para eles, foi descrita como um escândalo. O uso incorreto generalizado e a disponibilidade de alternativas, como aprendizagem em conjunto , deixando todas as variáveis ​​no modelo ou usando a opinião de especialistas para identificar variáveis ​​relevantes, levaram a pedidos para evitar totalmente a seleção de modelo por etapas.

Veja também

Referências