Resíduo estudentizado - Studentized residual

Em estatística , um resíduo estudentizado é o quociente resultante da divisão de um resíduo por uma estimativa de seu desvio padrão . É uma forma de Student t -statistic , com a estimativa de erro variando entre os pontos.

Esta é uma técnica importante na detecção de outliers . Está entre vários nomeados em homenagem a William Sealey Gosset , que escreveu sob o pseudônimo de Estudante . A divisão de uma estatística por um desvio padrão amostral é chamada de estudentização, em analogia com a padronização e a normalização .

Motivação

A principal razão para a estudentização é que, na análise de regressão de uma distribuição multivariada , as variâncias dos resíduos em diferentes valores de variáveis ​​de entrada podem diferir, mesmo se as variâncias dos erros nesses diferentes valores de variáveis ​​de entrada forem iguais. A questão é a diferença entre erros e resíduos nas estatísticas , particularmente o comportamento dos resíduos nas regressões.

Considere o modelo de regressão linear simples

Dada uma amostra aleatória ( X i Y i ), i  = 1, ...,  n , cada par ( X i Y i ) satisfaz

onde os erros , são independentes e todos têm a mesma variância . Os resíduos não são os erros verdadeiros, mas sim estimativas , com base nos dados observáveis. Quando o método dos mínimos quadrados é usado para estimar e , então, os resíduos , ao contrário dos erros , não podem ser independentes, pois satisfazem as duas restrições

e

(Aqui ε i é o i ésimo erro e é o i ésimo resíduo.)

Os resíduos, ao contrário dos erros, não têm todos a mesma variância: a variância diminui à medida que o valor x correspondente se afasta do valor x médio . Esta não é uma característica dos dados em si, mas dos valores de melhor ajuste da regressão nas extremidades do domínio. Também se reflete nas funções de influência de vários pontos de dados nos coeficientes de regressão : os pontos finais têm mais influência. Isso também pode ser visto porque os residuais nos pontos finais dependem muito da inclinação de uma linha ajustada, enquanto os residuais no meio são relativamente insensíveis à inclinação. O fato de as variâncias dos resíduos diferirem, mesmo que as variâncias dos erros verdadeiros sejam todas iguais entre si, é a principal razão para a necessidade de estudentização.

Não é simplesmente uma questão de os parâmetros populacionais (média e desvio padrão) serem desconhecidos - é que as regressões produzem diferentes distribuições de resíduos em diferentes pontos de dados, ao contrário de estimadores pontuais de distribuições univariadas , que compartilham uma distribuição comum para resíduos.

fundo

Para este modelo simples, a matriz de design é

e a matriz de chapéu H é a matriz da projeção ortogonal no espaço da coluna da matriz de design:

A alavancagem h II é o i th entrada diagonal na matriz de chapéu. A variância do i ésimo residual é

No caso da matriz de design X ter apenas duas colunas (como no exemplo acima), isso é igual a

No caso de uma média aritmética , a matriz de design X tem apenas uma coluna (um vetor de uns ), e é simplesmente:

Cálculo

Dadas as definições acima, o resíduo estudentizado é então

onde h ii é a alavancagem , onde é uma estimativa apropriada de σ (veja abaixo).

No caso de uma média, isso é igual a:

Estudantização interna e externa

A estimativa usual de σ 2 é o resíduo estudentizado internamente

onde m é o número de parâmetros no modelo (2 em nosso exemplo).

Mas se  houver suspeita de que o i- ésimo caso seja improvávelmente grande, ele também não seria normalmente distribuído. Portanto, é prudente excluir a i-  ésima observação do processo de estimativa da variância quando se está considerando se o i-  ésimo caso pode ser um outlier e, em vez disso, usar o resíduo estudantizado externamente , que é

com base em todos os resíduos, exceto o suspeito i é o  resíduo. Aqui é para enfatizar que para suspeito i são computados com i o  caso excluído.

Se a estimativa σ 2 inclui o i  ésimo caso, então ela é chamada de resíduo estudentizado internamente (também conhecido como resíduo padronizado ). Se a estimativa é usada em vez disso, excluindo o i  th caso, então ele é chamado o externamente studentized , .

Distribuição

Se os erros são independentes e normalmente distribuídos com valor esperado 0 e variância σ 2 , então a distribuição de probabilidade do i ésimo resíduo estudentizado externamente é uma distribuição t de Student com n  -  m  - 1 graus de liberdade e pode variar de a .

Por outro lado, os resíduos estudentizados internamente estão na faixa , onde ν = n  -  m é o número de graus de liberdade residuais. Se t i representa o resíduo estudentizado internamente, e novamente assumindo que os erros são variáveis ​​gaussianas independentes e distribuídas de forma idêntica, então:

onde t é uma variável aleatória distribuída como distribuição t de Student com ν  - 1 grau de liberdade. Na verdade, isso implica que t i 2 / ν segue a distribuição beta B (1/2, ( ν  - 1) / 2). A distribuição acima é algumas vezes chamada de distribuição tau ; foi derivado pela primeira vez por Thompson em 1935.

Quando ν = 3, os resíduos estudentizados internamente são uniformemente distribuídos entre e . Se houver apenas um grau de liberdade residual, a fórmula acima para a distribuição de resíduos estudentizados internamente não se aplica. Nesse caso, os t i são todos +1 ou -1, com 50% de chance para cada um.

O desvio padrão da distribuição de resíduos estudentizados internamente é sempre 1, mas isso não implica que o desvio padrão de todos os t i de um experimento em particular seja 1. Por exemplo, os resíduos estudentizados internamente ao ajustar uma linha reta passando ( 0, 0) para os pontos (1, 4), (2, −1), (2, −1) são , e o desvio padrão destes não é 1.

Observe que qualquer par de resíduos estudentizados t i e t j (onde ), NÃO são iid. Eles têm a mesma distribuição, mas não são independentes devido às restrições sobre os resíduos terem que somar 0 e ser ortogonais à matriz de design .

Implementações de software

Muitos programas e pacotes de estatísticas, como R , Python , etc., incluem implementações de residual estudentizado.

Idioma / programa Função Notas
R rstandard(model, ...) estudantizado internamente. Veja [2]
R rstudent(model, ...) externamente estudantizado. Veja [3]


Veja também

Referências

Leitura adicional