Estatística Durbin – Watson - Durbin–Watson statistic

Em estatística , a estatística Durbin – Watson é uma estatística de teste usada para detectar a presença de autocorrelação no atraso 1 nos resíduos (erros de predição) de uma análise de regressão . Tem o nome de James Durbin e Geoffrey Watson . A pequena distribuição da amostra desta proporção foi derivada por John von Neumann (von Neumann, 1941). Durbin e Watson (1950, 1951) aplicaram essa estatística aos resíduos de regressões de mínimos quadrados e desenvolveram testes de limites para a hipótese nula de que os erros não são serialmente correlacionados contra a alternativa de que seguem um processo autorregressivo de primeira ordem . Observe que a distribuição dessa estatística de teste não depende dos coeficientes de regressão estimados e da variância dos erros.

Uma avaliação semelhante também pode ser realizada com o teste de Breusch-Godfrey e o teste de Ljung-Box .

Computando e interpretando a estatística Durbin – Watson

Se e t é o resíduo dado pela estatística de Durbin-Watson afirma que a hipótese nula:, hipótese alternativa , então a estatística de teste é

onde T é o número de observações. Se tivermos uma amostra extensa, isso pode ser mapeado linearmente para a correlação de Pearson dos dados da série temporal com seus atrasos. Como d é aproximadamente igual a 2 (1 -  ), onde é a autocorrelação da amostra dos resíduos, d  = 2 indica que não há autocorrelação. O valor de d sempre está entre 0 e 4. Se a estatística Durbin – Watson for substancialmente menor que 2, há evidência de correlação serial positiva. Como regra geral, se Durbin – Watson for menor que 1,0, pode haver motivo para alarme. Valores pequenos de d indicam que os termos de erro sucessivos estão positivamente correlacionados. Se d  > 2, os termos de erro sucessivos são correlacionados negativamente. Em regressões, isso pode implicar uma subestimação do nível de significância estatística .

Para testar a autocorrelação positiva com significância α , a estatística de teste d é comparada aos valores críticos inferiores e superiores ( d L, α e d U, α ):

  • Se d < d L, α , há evidência estatística de que os termos de erro são positivamente autocorrelacionados.
  • Se d > d U, α , não evidência estatística de que os termos de erro são positivamente autocorrelacionados.
  • Se d L, α < d < d U, α , o teste é inconclusivo.

Correlação serial positiva é a correlação serial em que um erro positivo para uma observação aumenta as chances de um erro positivo para outra observação.

Para testar a autocorrelação negativa com significância α , a estatística de teste (4 -  d ) é comparada aos valores críticos inferiores e superiores ( d L, α e d U, α ):

  • Se (4 - d ) < d L, α , há evidência estatística de que os termos de erro são negativamente autocorrelacionados.
  • Se (4 -  d )> d U, α , não evidência estatística de que os termos de erro são negativamente autocorrelacionados.
  • Se d L, α <(4 - d ) < d U, α , o teste é inconclusivo.

A correlação serial negativa implica que um erro positivo para uma observação aumenta a chance de um erro negativo para outra observação e um erro negativo para uma observação aumenta as chances de um erro positivo para outra.

Os valores críticos, d G, a- e d L, ct , pode variar segundo o nível de significância ( α ) e os graus de liberdade na equação de regressão. Sua derivação é complexa - os estatísticos normalmente os obtêm dos apêndices de textos estatísticos.

Se a matriz de design da regressão for conhecida, os valores críticos exatos para a distribuição sob a hipótese nula de nenhuma correlação serial podem ser calculados. Sob a hipótese nula é distribuído como

onde n é o número de observações ek o número de variáveis ​​de regressão; o são variáveis aleatórias normais padrão independentes; e são os autovalores diferentes de zero de onde está a matriz que transforma os resíduos na estatística, ou seja . Vários algoritmos computacionais para encontrar percentis dessa distribuição estão disponíveis.

Embora a correlação serial não afete a consistência dos coeficientes de regressão estimados, ela afeta nossa capacidade de conduzir testes estatísticos válidos. Primeiro, a estatística F para testar a significância geral da regressão pode ser inflada sob a correlação serial positiva porque o erro quadrático médio (MSE) tenderá a subestimar a variância do erro populacional. Em segundo lugar, a correlação serial positiva normalmente faz com que os erros padrão de mínimos quadrados ordinários (OLS) para os coeficientes de regressão subestimem os verdadeiros erros padrão. Como consequência, se a correlação serial positiva estiver presente na regressão, a análise de regressão linear padrão normalmente nos levará a calcular erros padrão artificialmente pequenos para o coeficiente de regressão. Esses pequenos erros padrão farão com que a estatística t estimada seja inflada, sugerindo significância onde talvez não haja nenhuma. A estatística t inflada, por sua vez, pode nos levar a rejeitar incorretamente as hipóteses nulas sobre os valores populacionais dos parâmetros do modelo de regressão com mais frequência do que faríamos se os erros padrão fossem estimados corretamente.

Se a estatística Durbin-Watson indicar a presença de correlação serial dos resíduos, isso pode ser remediado usando o procedimento Cochrane-Orcutt .

A estatística Durbin – Watson, embora exibida por muitos programas de análise de regressão, não é aplicável em certas situações. Por exemplo, quando variáveis ​​dependentes defasadas são incluídas nas variáveis ​​explicativas, é inapropriado usar este teste. O teste h de Durbin (veja abaixo) ou testes de razão de verossimilhança, que são válidos em grandes amostras, devem ser usados.

Estatística h de Durbin

A estatística Durbin-Watson é tendenciosa para modelos de média móvel autorregressiva , de modo que a autocorrelação é subestimada. Mas, para grandes amostras, pode-se facilmente calcular a estatística h imparcial normalmente distribuída :

usando a estatística de Durbin-Watson d e a variância estimada

do coeficiente de regressão da variável dependente defasada, desde que

Implementações em pacotes de estatísticas

  1. R : a dwtestfunção no pacote lmtest, durbinWatsonTest(ou, para abreviar dwt) função no pacote de carro, e pdwteste pbnftestpara o painel de modelos no pacote PLM.
  2. MATLAB : a função dwtest na caixa de ferramentas de estatísticas.
  3. Mathematica : a estatística Durbin – Watson ( d ) está incluída como uma opção na função LinearModelFit.
  4. SAS : é uma saída padrão ao usar o modelo proc e é uma opção (dw) ao usar o reg proc.
  5. EViews : calculados automaticamente ao usar a regressão OLS
  6. gretl : Calculado automaticamente ao usar a regressão OLS
  7. Stata : o comando estat dwatson, seguindo os regressdados da série temporal. O teste LM de Engle para heteroscedasticidade condicional autorregressiva (ARCH), um teste para volatilidade dependente do tempo, o teste de Breusch-Godfrey e o teste alternativo de Durbin para correlação serial também estão disponíveis. Todos (exceto -dwatson-) testa separadamente para correlações seriais de ordem superior. O teste de Breusch-Godfrey e o teste alternativo de Durbin também permitem regressores que não são estritamente exógenos.
  8. Excel : embora o Microsoft Excel 2007 não tenha uma função Durbin – Watson específica, a estatística d pode ser calculada usando=SUMXMY2(x_array,y_array)/SUMSQ(array)
  9. Minitab : a opção de relatar a estatística na janela Session pode ser encontrada na caixa "Opções" em Regressão e na caixa "Resultados" em Regressão geral.
  10. Python : uma função durbin_watson está incluída no pacote statsmodels ( statsmodels.stats.stattools.durbin_watson), mas as tabelas estatísticas para valores críticos não estão disponíveis lá.
  11. SPSS : Incluído como opção na função de regressão.
  12. Julia : a função DurbinWatsonTest está disponível no pacote HypothesisTests .

Veja também

Notas

Referências

links externos