Estatística Durbin – Watson - Durbin–Watson statistic
Em estatística , a estatística Durbin – Watson é uma estatística de teste usada para detectar a presença de autocorrelação no atraso 1 nos resíduos (erros de predição) de uma análise de regressão . Tem o nome de James Durbin e Geoffrey Watson . A pequena distribuição da amostra desta proporção foi derivada por John von Neumann (von Neumann, 1941). Durbin e Watson (1950, 1951) aplicaram essa estatística aos resíduos de regressões de mínimos quadrados e desenvolveram testes de limites para a hipótese nula de que os erros não são serialmente correlacionados contra a alternativa de que seguem um processo autorregressivo de primeira ordem . Observe que a distribuição dessa estatística de teste não depende dos coeficientes de regressão estimados e da variância dos erros.
Uma avaliação semelhante também pode ser realizada com o teste de Breusch-Godfrey e o teste de Ljung-Box .
Computando e interpretando a estatística Durbin – Watson
Se e t é o resíduo dado pela estatística de Durbin-Watson afirma que a hipótese nula:, hipótese alternativa , então a estatística de teste é
onde T é o número de observações. Se tivermos uma amostra extensa, isso pode ser mapeado linearmente para a correlação de Pearson dos dados da série temporal com seus atrasos. Como d é aproximadamente igual a 2 (1 - ), onde é a autocorrelação da amostra dos resíduos, d = 2 indica que não há autocorrelação. O valor de d sempre está entre 0 e 4. Se a estatística Durbin – Watson for substancialmente menor que 2, há evidência de correlação serial positiva. Como regra geral, se Durbin – Watson for menor que 1,0, pode haver motivo para alarme. Valores pequenos de d indicam que os termos de erro sucessivos estão positivamente correlacionados. Se d > 2, os termos de erro sucessivos são correlacionados negativamente. Em regressões, isso pode implicar uma subestimação do nível de significância estatística .
Para testar a autocorrelação positiva com significância α , a estatística de teste d é comparada aos valores críticos inferiores e superiores ( d L, α e d U, α ):
- Se d < d L, α , há evidência estatística de que os termos de erro são positivamente autocorrelacionados.
- Se d > d U, α , não há evidência estatística de que os termos de erro são positivamente autocorrelacionados.
- Se d L, α < d < d U, α , o teste é inconclusivo.
Correlação serial positiva é a correlação serial em que um erro positivo para uma observação aumenta as chances de um erro positivo para outra observação.
Para testar a autocorrelação negativa com significância α , a estatística de teste (4 - d ) é comparada aos valores críticos inferiores e superiores ( d L, α e d U, α ):
- Se (4 - d ) < d L, α , há evidência estatística de que os termos de erro são negativamente autocorrelacionados.
- Se (4 - d )> d U, α , não há evidência estatística de que os termos de erro são negativamente autocorrelacionados.
- Se d L, α <(4 - d ) < d U, α , o teste é inconclusivo.
A correlação serial negativa implica que um erro positivo para uma observação aumenta a chance de um erro negativo para outra observação e um erro negativo para uma observação aumenta as chances de um erro positivo para outra.
Os valores críticos, d G, a- e d L, ct , pode variar segundo o nível de significância ( α ) e os graus de liberdade na equação de regressão. Sua derivação é complexa - os estatísticos normalmente os obtêm dos apêndices de textos estatísticos.
Se a matriz de design da regressão for conhecida, os valores críticos exatos para a distribuição sob a hipótese nula de nenhuma correlação serial podem ser calculados. Sob a hipótese nula é distribuído como
onde n é o número de observações ek o número de variáveis de regressão; o são variáveis aleatórias normais padrão independentes; e são os autovalores diferentes de zero de onde está a matriz que transforma os resíduos na estatística, ou seja . Vários algoritmos computacionais para encontrar percentis dessa distribuição estão disponíveis.
Embora a correlação serial não afete a consistência dos coeficientes de regressão estimados, ela afeta nossa capacidade de conduzir testes estatísticos válidos. Primeiro, a estatística F para testar a significância geral da regressão pode ser inflada sob a correlação serial positiva porque o erro quadrático médio (MSE) tenderá a subestimar a variância do erro populacional. Em segundo lugar, a correlação serial positiva normalmente faz com que os erros padrão de mínimos quadrados ordinários (OLS) para os coeficientes de regressão subestimem os verdadeiros erros padrão. Como consequência, se a correlação serial positiva estiver presente na regressão, a análise de regressão linear padrão normalmente nos levará a calcular erros padrão artificialmente pequenos para o coeficiente de regressão. Esses pequenos erros padrão farão com que a estatística t estimada seja inflada, sugerindo significância onde talvez não haja nenhuma. A estatística t inflada, por sua vez, pode nos levar a rejeitar incorretamente as hipóteses nulas sobre os valores populacionais dos parâmetros do modelo de regressão com mais frequência do que faríamos se os erros padrão fossem estimados corretamente.
Se a estatística Durbin-Watson indicar a presença de correlação serial dos resíduos, isso pode ser remediado usando o procedimento Cochrane-Orcutt .
A estatística Durbin – Watson, embora exibida por muitos programas de análise de regressão, não é aplicável em certas situações. Por exemplo, quando variáveis dependentes defasadas são incluídas nas variáveis explicativas, é inapropriado usar este teste. O teste h de Durbin (veja abaixo) ou testes de razão de verossimilhança, que são válidos em grandes amostras, devem ser usados.
Estatística h de Durbin
A estatística Durbin-Watson é tendenciosa para modelos de média móvel autorregressiva , de modo que a autocorrelação é subestimada. Mas, para grandes amostras, pode-se facilmente calcular a estatística h imparcial normalmente distribuída :
usando a estatística de Durbin-Watson d e a variância estimada
do coeficiente de regressão da variável dependente defasada, desde que
Implementações em pacotes de estatísticas
-
R : a
dwtest
função no pacote lmtest,durbinWatsonTest
(ou, para abreviar dwt) função no pacote de carro, epdwtest
epbnftest
para o painel de modelos no pacote PLM. - MATLAB : a função dwtest na caixa de ferramentas de estatísticas.
- Mathematica : a estatística Durbin – Watson ( d ) está incluída como uma opção na função LinearModelFit.
- SAS : é uma saída padrão ao usar o modelo proc e é uma opção (dw) ao usar o reg proc.
- EViews : calculados automaticamente ao usar a regressão OLS
- gretl : Calculado automaticamente ao usar a regressão OLS
-
Stata : o comando
estat dwatson
, seguindo osregress
dados da série temporal. O teste LM de Engle para heteroscedasticidade condicional autorregressiva (ARCH), um teste para volatilidade dependente do tempo, o teste de Breusch-Godfrey e o teste alternativo de Durbin para correlação serial também estão disponíveis. Todos (exceto -dwatson-) testa separadamente para correlações seriais de ordem superior. O teste de Breusch-Godfrey e o teste alternativo de Durbin também permitem regressores que não são estritamente exógenos. -
Excel : embora o Microsoft Excel 2007 não tenha uma função Durbin – Watson específica, a estatística d pode ser calculada usando
=SUMXMY2(x_array,y_array)/SUMSQ(array)
- Minitab : a opção de relatar a estatística na janela Session pode ser encontrada na caixa "Opções" em Regressão e na caixa "Resultados" em Regressão geral.
-
Python : uma função durbin_watson está incluída no pacote statsmodels (
statsmodels.stats.stattools.durbin_watson
), mas as tabelas estatísticas para valores críticos não estão disponíveis lá. - SPSS : Incluído como opção na função de regressão.
- Julia : a função DurbinWatsonTest está disponível no pacote HypothesisTests .
Veja também
- Regressão de série temporal
- ACF / PACF
- Dimensão de correlação
- Teste de Breusch-Godfrey
- Teste de Ljung-Box
Notas
Referências
- Durbin, J .; Watson, GS (1950). "Testing for Serial Correlation in Least Squares Regression, I". Biometrika . 37 (3–4): 409–428. doi : 10.1093 / biomet / 37.3-4.409 . JSTOR 2332391 .
- Durbin, J .; Watson, GS (1951). "Testing for Serial Correlation in Least Squares Regression, II". Biometrika . 38 (1–2): 159–179. doi : 10.1093 / biomet / 38.1-2.159 . JSTOR 2332325 .
- Gujarati, Damodar N .; Porter, Dawn C. (2009). Econometria básica (5ª ed.). Boston: McGraw-Hill Irwin. ISBN 978-0-07-337577-9.
- Kmenta, Jan (1986). Elements of Econometrics (segunda edição). Nova York: Macmillan. pp. 328 -332. ISBN 0-02-365070-2.
- Neumann, John von (1941). "Distribuição da razão da diferença média quadrática sucessiva para a variância" . Annals of Mathematical Statistics . 12 (4): 367–395. doi : 10.1214 / aoms / 1177731677 . JSTOR 2235951 .
- Verbeek, Marno (2012). A Guide to Modern Econometrics (4ª ed.). Chichester: John Wiley & Sons. pp. 117-118. ISBN 978-1-119-95167-4.