Alavancagem (estatísticas) - Leverage (statistics)

Em estatística e em particular na análise de regressão , a alavancagem é uma medida de quão distantes os valores das variáveis ​​independentes de uma observação estão daqueles das outras observações. Os pontos de alta alavancagem , se houver, são outliers em relação às variáveis ​​independentes . Ou seja, os pontos de alta alavancagem não têm pontos vizinhos no espaço, onde é o número de variáveis ​​independentes em um modelo de regressão. Isso faz com que o modelo ajustado passe perto de uma observação de alta alavancagem. Conseqüentemente, os pontos de alta alavancagem têm o potencial de causar grandes mudanças nas estimativas dos parâmetros quando eles são excluídos, ou seja, para serem pontos de influência . Embora um ponto de influência normalmente tenha alta alavancagem, um ponto de alta alavancagem não é necessariamente um ponto de influência. A influência é normalmente definida como os elementos diagonais da matriz do chapéu .

Definição e interpretações

Considere a regressão linear modelo , . Ou seja, onde, é a matriz de design cujas linhas correspondem às observações e cujas colunas correspondem às variáveis ​​independentes ou explicativas. A pontuação de alavancagem para a observação independente é dada como:

, o elemento diagonal da matriz de orto-projeção ( também conhecida como matriz de chapéu) .

Assim, a pontuação de alavancagem pode ser vista como a distância 'ponderada' entre a média de 's (veja sua relação com a distância de Mahalanobis ). Também pode ser interpretado como o grau pelo qual o valor medido (dependente) (ou seja, ) influencia o valor ajustado (previsto) (ou seja, ): matematicamente,

.

Conseqüentemente, a pontuação de alavancagem também é conhecida como auto-sensibilidade de observação ou auto-influência. Usando o fato de que (isto é, a previsão é orto-projeção de no espaço de alcance de ) na expressão acima, obtemos . Observe que essa alavancagem depende dos valores das variáveis ​​explicativas de todas as observações, mas não de qualquer um dos valores das variáveis ​​dependentes .

Propriedades

  1. A alavancagem   é um número entre 0 e 1, Prova: Observe que é matriz idempotente ( ) e simétrica ( ). Assim, usando o fato de que , nós temos . Já que sabemos disso , nós temos .
  2. A soma das alavancagens é igual ao número de parâmetros em (incluindo a interceptação). Prova: .

Determinação de outliers no uso de alavancas

A grande alavancagem corresponde ao extremo. Uma regra comum é identificar cujo valor de alavancagem é mais de 2 vezes maior do que a alavancagem média (consulte a propriedade 2 acima). Ou seja, se , deve ser considerado como um outlier. Alguns estatísticos também preferem o limite de em vez de

Relação com a distância de Mahalanobis

A alavancagem está intimamente relacionada à distância de Mahalanobis (prova). Especificamente, para algumas matrizes , a distância quadrada de Mahalanobis de (onde é a linha de ) do vetor da média de comprimento é , onde é a matriz de covariância estimada de 's. Isso está relacionado à alavancagem da matriz de chapéu após anexar um vetor coluna de 1 a ela. A relação entre os dois é:

Esse relacionamento nos permite decompor a alavancagem em componentes significativos para que algumas fontes de alta alavancagem possam ser investigadas analiticamente.

Relação para influenciar funções

Em um contexto de regressão, combinamos as funções de alavancagem e influência para calcular o grau em que os coeficientes estimados mudariam se removêssemos um único ponto de dados. Denotando os resíduos da regressão como , pode-se comparar o coeficiente estimado com o coeficiente estimado leave-one-out usando a fórmula

Young (2019) usa uma versão desta fórmula após residualizar os controles. Para obter intuição para esta fórmula, observe que captura o potencial de uma observação afetar os parâmetros de regressão e, portanto, captura a influência real dos desvios dessas observações de seu valor ajustado nos parâmetros de regressão. A fórmula então se divide por para levar em conta o fato de que removemos a observação em vez de ajustar seu valor, refletindo o fato de que a remoção altera mais a distribuição de covariáveis ​​quando aplicada a observações de alta alavancagem (ou seja, com valores de covariáveis ​​atípicos). Fórmulas semelhantes surgem ao aplicar fórmulas gerais para funções de influências estatísticas no contexto de regressão.

Efeito na variância residual

Se estamos em um Mínimos Quadrados Ordinários de ajuste com fixos e homocedásticas erros de regressão , em seguida, o residual de regressão , tem variância

.

Em outras palavras, a pontuação de alavancagem de uma observação determina o grau de ruído na previsão incorreta do modelo dessa observação, com maior alavancagem levando a menos ruído. Isso decorre do fato de que é idempotente e simétrico e , portanto ,.

O resíduo estudentizado correspondente - o resíduo ajustado para sua variância residual estimada específica da observação - é então

onde está uma estimativa apropriada de .

Alavancagem parcial

A alavancagem parcial ( PL ) é uma medida da contribuição das variáveis ​​independentes individuais para a alavancagem total de cada observação. Ou seja, PL é uma medida de como as mudanças como uma variável são adicionadas ao modelo de regressão. É calculado como:

onde é o índice da variável independente, é o índice de observação e são os resíduos da regressão contra as variáveis ​​independentes restantes. Observe que a alavancagem parcial é a alavancagem do ponto no gráfico de regressão parcial para a variável. Os pontos de dados com grande alavancagem parcial para uma variável independente podem exercer influência indevida sobre a seleção dessa variável em procedimentos de construção de modelo de regressão automática.

Implementações de software

Muitos programas e pacotes de estatísticas, como R , Python , etc., incluem implementações de Leverage.

Idioma / programa Função Notas
R hat(x, intercept = TRUE) ou hatvalues(model, ...) Veja [1]

Veja também

Referências