Erros e residuais - Errors and residuals

Em estatística e otimização , erros e resíduos são duas medidas estreitamente relacionadas e facilmente confundidas do desvio de um valor observado de um elemento de uma amostra estatística de seu "valor teórico". O erro (ou perturbação ) de um valor observado é o desvio do valor observado do valor verdadeiro (não observável) de uma quantidade de interesse (por exemplo, uma média populacional ), e o resíduo de um valor observado é a diferença entre o valor observado e o valor estimado da quantidade de interesse (por exemplo, uma média amostral ). A distinção é mais importante na análise de regressão , onde os conceitos são chamados às vezes os erros da regressão e resíduos da regressão e onde eles levam ao conceito de resíduos estudantizado .

Introdução

Suponha que haja uma série de observações de uma distribuição univariada e queremos estimar a média dessa distribuição (o chamado modelo de localização ). Nesse caso, os erros são os desvios das observações da média da população, enquanto os resíduos são os desvios das observações da média da amostra.

Um erro estatístico (ou perturbação ) é o valor pelo qual uma observação difere de seu valor esperado , sendo este último baseado em toda a população da qual a unidade estatística foi escolhida aleatoriamente. Por exemplo, se a altura média em uma população de homens de 21 anos é 1,75 metros, e um homem escolhido aleatoriamente tem 1,80 metros de altura, então o "erro" é 0,05 metros; se o homem escolhido aleatoriamente tiver 1,70 metros de altura, o "erro" será de -0,05 metros. O valor esperado, sendo a média de toda a população, normalmente não é observável e, portanto, o erro estatístico também não pode ser observado.

Um resíduo (ou desvio de ajuste), por outro lado, é uma estimativa observável do erro estatístico não observável. Considere o exemplo anterior com as alturas dos homens e suponha que temos uma amostra aleatória de n pessoas. A média da amostra pode servir como um bom estimador da média da população . Então nós temos:

  • A diferença entre a altura de cada homem na amostra e a média da população não observável é um erro estatístico , enquanto
  • A diferença entre a altura de cada homem na amostra e a média da amostra observável é um resíduo .

Observe que, devido à definição da média da amostra, a soma dos resíduos dentro de uma amostra aleatória é necessariamente zero e, portanto, os resíduos não são necessariamente independentes . Os erros estatísticos, por outro lado, são independentes e sua soma na amostra aleatória quase certamente não é zero.

Pode-se padronizar os erros estatísticos (especialmente de uma distribuição normal ) em um escore z (ou "escore padrão") e padronizar os resíduos em uma estatística t ou, mais geralmente, os resíduos estudentizados .

Em distribuições univariadas

Se assumirmos uma população normalmente distribuída com média μ e desvio padrão σ, e escolhermos indivíduos de forma independente, então temos

e a média da amostra

é uma variável aleatória distribuída de modo que:

Os erros estatísticos são então

com valores esperados de zero, enquanto os resíduos são

A soma dos quadrados dos erros estatísticos , dividida por σ 2 , tem uma distribuição qui-quadrada com n graus de liberdade :

No entanto, esta quantidade não é observável porque a média da população é desconhecida. A soma dos quadrados dos resíduos , por outro lado, é observável. O quociente dessa soma por σ 2 tem uma distribuição qui-quadrada com apenas n  - 1 graus de liberdade:

Esta diferença entre n e n  - 1 grau de liberdade resulta na correção de Bessel para a estimativa da variância da amostra de uma população com média desconhecida e variância desconhecida. Nenhuma correção é necessária se a média da população for conhecida.

Observação

É notável que a soma dos quadrados dos resíduos e a média da amostra podem ser mostradas como independentes uma da outra, usando, por exemplo, o teorema de Basu . Esse fato e as distribuições normal e qui-quadrado fornecidas acima formam a base dos cálculos que envolvem a estatística t :

onde representa os erros, representa o desvio padrão da amostra para uma amostra de tamanho n e σ desconhecido , e o termo denominador representa o desvio padrão dos erros de acordo com:

As distribuições de probabilidade do numerador e do denominador separadamente dependem do valor do desvio padrão da população não observável σ , mas σ aparece no numerador e no denominador e é cancelado. Isso é bom porque significa que, embora não saibamos  σ , sabemos a distribuição de probabilidade desse quociente: ele tem uma distribuição t de Student com n  - 1 grau de liberdade. Portanto, podemos usar esse quociente para encontrar um intervalo de confiança para  μ . Essa estatística t pode ser interpretada como "o número de erros padrão fora da linha de regressão."

Regressões

Na análise de regressão , a distinção entre erros e resíduos é sutil e importante e leva ao conceito de resíduos estudentizados . Dada uma função não observável que relaciona a variável independente à variável dependente - digamos, uma linha - os desvios das observações da variável dependente desta função são os erros não observáveis. Se alguém executar uma regressão em alguns dados, então os desvios das observações da variável dependente da função ajustada são os resíduos. Se o modelo linear for aplicável, um gráfico de dispersão de resíduos plotados contra a variável independente deve ser aleatório em torno de zero, sem tendência para os resíduos. Se os dados exibirem uma tendência, o modelo de regressão provavelmente está incorreto; por exemplo, a verdadeira função pode ser um polinômio quadrático ou de ordem superior. Se eles forem aleatórios, ou não tiverem tendência, mas "se espalharem" - eles exibem um fenômeno chamado heterocedasticidade . Se todos os resíduos forem iguais ou não se espalharem , eles exibem homocedasticidade .

No entanto, surge uma diferença terminológica na expressão erro quadrático médio (MSE). O erro médio quadrático de uma regressão é um número calculado a partir da soma dos quadrados dos resíduos calculados , e não dos erros não observáveis . Se essa soma dos quadrados for dividida por n , o número de observações, o resultado é a média dos resíduos quadrados. Uma vez que esta é uma estimativa tendenciosa da variância dos erros não observados, o viés é removido dividindo a soma dos resíduos quadrados por df = n  -  p  - 1, em vez de n , onde df é o número de graus de liberdade ( n menos o número de parâmetros (excluindo a interceptação) p sendo estimado - 1). Isso forma uma estimativa imparcial da variância dos erros não observados e é chamada de erro quadrático médio.

Outro método para calcular o quadrado médio do erro ao analisar a variância da regressão linear usando uma técnica como a usada em ANOVA (eles são os mesmos porque ANOVA é um tipo de regressão), a soma dos quadrados dos resíduos (também conhecida como soma dos quadrados do erro) é dividido pelos graus de liberdade (onde os graus de liberdade são iguais a n  -  p  - 1, onde p é o número de parâmetros estimados no modelo (um para cada variável na equação de regressão, sem incluir o intercepto) ) Pode-se então calcular o quadrado médio do modelo dividindo a soma dos quadrados do modelo menos os graus de liberdade, que é apenas o número de parâmetros. Em seguida, o valor F pode ser calculado dividindo o quadrado médio do modelo pelo quadrado médio do erro, e podemos então determinar a significância (é por isso que você deseja que os quadrados médios comecem).

No entanto, devido ao comportamento do processo de regressão, as distribuições de resíduos em diferentes pontos de dados (da variável de entrada) podem variar mesmo se os próprios erros forem distribuídos de forma idêntica. Concretamente, em uma regressão linear onde os erros são distribuídos de forma idêntica, a variabilidade dos resíduos das entradas no meio do domínio será maior do que a variabilidade dos resíduos nas extremidades do domínio: as regressões lineares se ajustam aos desfechos melhor do que o meio. Isso também se reflete nas funções de influência de vários pontos de dados nos coeficientes de regressão : os pontos finais têm mais influência.

Assim, para comparar os resíduos em diferentes entradas, é necessário ajustar os resíduos pela variabilidade esperada dos resíduos, o que é chamado de estudentização . Isso é particularmente importante no caso de detecção de outliers , onde o caso em questão é de alguma forma diferente do outro em um conjunto de dados. Por exemplo, um grande resíduo pode ser esperado no meio do domínio, mas considerado um outlier no final do domínio.

Outros usos da palavra "erro" em estatísticas

O uso do termo "erro" conforme discutido nas seções acima é no sentido de um desvio de um valor de um valor hipotético não observado. Pelo menos dois outros usos também ocorrem nas estatísticas, ambos se referindo a erros de predição observáveis:

O erro quadrático médio (MSE) refere-se ao valor pelo qual os valores previstos por um estimador diferem das quantidades sendo estimadas (normalmente fora da amostra a partir da qual o modelo foi estimado). A raiz quadrada média do erro (RMSE) é a raiz quadrada de MSE. A soma dos quadrados dos erros (SSE) é o MSE multiplicado pelo tamanho da amostra.

A soma dos quadrados dos resíduos (SSR) é a soma dos quadrados dos desvios dos valores reais em relação aos valores previstos, dentro da amostra usada para a estimativa. Esta é a base para aestimativa de mínimos quadrados , onde os coeficientes de regressão são escolhidos de forma que o SSR seja mínimo (ou seja, sua derivada é zero).

Da mesma forma, a soma dos erros absolutos (SAE) é a soma dos valores absolutos dos resíduos, que é minimizada na abordagem dos menores desvios absolutos para a regressão.

O erro médio (ME) é o viés . O resíduo médio (MR) é sempre zero para estimadores de mínimos quadrados.

Veja também

Referências

links externos