Alavancagem (estatísticas) - Leverage (statistics)

Em estatística e em particular na análise de regressão , a alavancagem é uma medida de quão distantes os valores das variáveis independentes de uma observação estão daqueles das outras observações. Os pontos de alta alavancagem , se houver, são outliers em relação às variáveis independentes . Ou seja, os pontos de alta alavancagem não têm pontos vizinhos no espaço, onde é o número de variáveis independentes em um modelo de regressão. Isso faz com que o modelo ajustado passe perto de uma observação de alta alavancagem. Conseqüentemente, os pontos de alta alavancagem têm o potencial de causar grandes mudanças nas estimativas dos parâmetros quando eles são excluídos, ou seja, para serem pontos de influência . Embora um ponto de influência normalmente tenha alta alavancagem, um ponto de alta alavancagem não é necessariamente um ponto de influência. A influência é normalmente definida como os elementos diagonais da matriz do chapéu . ${\ displaystyle \ mathbb {R} ^ {p}}$ ${\ displaystyle {p}}$

Definição e interpretações

Considere a regressão linear modelo , . Ou seja, onde, é a matriz de design cujas linhas correspondem às observações e cujas colunas correspondem às variáveis independentes ou explicativas. A pontuação de alavancagem para a observação independente é dada como: ${\ displaystyle {y} _ {i} = {\ boldsymbol {x}} _ {i} ^ {\ top} {\ boldsymbol {\ beta}} + {\ varejpsilon} _ {i}}$ ${\ displaystyle i = 1, \, 2, \ ldots, \, n}$ ${\ displaystyle {\ boldsymbol {y}} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}}}$ ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle n \ times p}$ ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle {\ boldsymbol {x}} _ {i}}$

{\ displaystyle h_ {ii} = \ left [\ mathbf {H} \ right] _ {ii} = {\ boldsymbol {x}} _ {i} ^ {\ top} \ left (\ mathbf {X} ^ { \ top} \ mathbf {X} \ right) ^ {- 1} {\ boldsymbol {x}} _ {i}}

, o elemento diagonal da matriz de orto-projeção ( também conhecida como matriz de chapéu) .

{\ displaystyle {i} ^ {th}}

{\ displaystyle \ mathbf {H} = \ mathbf {X} \ left (\ mathbf {X} ^ {\ top} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ top} }

Assim, a pontuação de alavancagem pode ser vista como a distância 'ponderada' entre a média de 's (veja sua relação com a distância de Mahalanobis ). Também pode ser interpretado como o grau pelo qual o valor medido (dependente) (ou seja, ) influencia o valor ajustado (previsto) (ou seja, ): matematicamente, ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle {\ boldsymbol {x}} _ {i}}$ ${\ displaystyle {\ boldsymbol {x}} _ {i}}$ ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle {\ widehat {y \,}} _ {i}}$

{\ displaystyle h_ {ii} = {\ frac {\ partial {\ widehat {y \,}} _ {i}} {\ partial y_ {i}}}}

.

Conseqüentemente, a pontuação de alavancagem também é conhecida como auto-sensibilidade de observação ou auto-influência. Usando o fato de que (isto é, a previsão é orto-projeção de no espaço de alcance de ) na expressão acima, obtemos . Observe que essa alavancagem depende dos valores das variáveis explicativas de todas as observações, mas não de qualquer um dos valores das variáveis dependentes . ${\ displaystyle {\ boldsymbol {\ widehat {y}}} = {\ mathbf {H}} {\ boldsymbol {y}}}$ ${\ displaystyle {\ boldsymbol {\ widehat {y}}}}$ ${\ displaystyle {\ boldsymbol {y}}}$ ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle h_ {ii} = \ left [\ mathbf {H} \ right] _ {ii}}$ ${\ displaystyle (\ mathbf {X})}$ ${\ displaystyle (y_ {i})}$

Propriedades

A alavancagem é um número entre 0 e 1, Prova: Observe que é matriz idempotente ( ) e simétrica ( ). Assim, usando o fato de que , nós temos . Já que sabemos disso , nós temos . ${\ displaystyle h_ {ii}}$ ${\ displaystyle 0 \ leq h_ {ii} \ leq 1.}$ ${\ displaystyle \ mathbf {H}}$ ${\ displaystyle \ mathbf {H} ^ {2} = \ mathbf {H}}$ ${\ displaystyle h_ {ij} = h_ {ji}}$ ${\ displaystyle \ left [\ mathbf {H} ^ {2} \ right] _ {ii} = \ left [\ mathbf {H} \ right] _ {ii}}$ ${\ displaystyle h_ {ii} = h_ {ii} ^ {2} + \ sum _ {j \ neq i} h_ {ij} ^ {2}}$ ${\ displaystyle \ sum _ {j \ neq i} h_ {ij} ^ {2} \ geq 0}$ ${\ displaystyle h_ {ii} \ geq h_ {ii} ^ {2} \ implica 0 \ leq h_ {ii} \ leq 1}$
A soma das alavancagens é igual ao número de parâmetros em (incluindo a interceptação). Prova: . ${\ displaystyle (p)}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle \ sum _ {j = 1} ^ {n} h_ {ii} = \ operatorname {Tr} (\ mathbf {H}) = \ operatorname {Tr} \ left (\ mathbf {X} \ left (\ mathbf {X} ^ {\ top} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ top} \ right) = \ operatorname {Tr} \ left (\ mathbf {X} ^ {\ top} \ mathbf {X} \ left (\ mathbf {X} ^ {\ top} \ mathbf {X} \ right) ^ {- 1} \ right) = \ operatorname {Tr} (\ mathbf {I} _ {p}) = p}$

Determinação de outliers no uso de alavancas ${\ displaystyle \ mathbf {X}}$

A grande alavancagem corresponde ao extremo. Uma regra comum é identificar cujo valor de alavancagem é mais de 2 vezes maior do que a alavancagem média (consulte a propriedade 2 acima). Ou seja, se , deve ser considerado como um outlier. Alguns estatísticos também preferem o limite de em vez de ${\ displaystyle {h_ {ii}}}$ ${\ displaystyle {{\ boldsymbol {x}} _ {i}}}$ ${\ displaystyle {{\ boldsymbol {x}} _ {i}}}$ ${\ displaystyle {h} _ {ii}}$ ${\ displaystyle {\ bar {h}} = {\ dfrac {1} {n}} \ sum _ {i = 1} ^ {n} h_ {ii} = {\ dfrac {p} {n}}}$ ${\ displaystyle h_ {ii}> 2 {\ dfrac {p} {n}}}$ ${\ displaystyle {{\ boldsymbol {x}} _ {i}}}$ ${\ displaystyle 3p / {n}}$ ${\ displaystyle 2p / {n}}$

Relação com a distância de Mahalanobis

A alavancagem está intimamente relacionada à distância de Mahalanobis (prova). Especificamente, para algumas matrizes , a distância quadrada de Mahalanobis de (onde é a linha de ) do vetor da média de comprimento é , onde é a matriz de covariância estimada de 's. Isso está relacionado à alavancagem da matriz de chapéu após anexar um vetor coluna de 1 a ela. A relação entre os dois é: ${\ displaystyle n \ times p}$ ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle {{\ boldsymbol {x}} _ {i}}}$ ${\ displaystyle {\ boldsymbol {x}} _ {i} ^ {\ top}}$ ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle {\ widehat {\ boldsymbol {\ mu}}} = \ sum _ {i = 1} ^ {n} {\ boldsymbol {x}} _ {i}}$ ${\ displaystyle p}$ ${\ displaystyle D ^ {2} ({\ boldsymbol {x}} _ {i}) = ({\ boldsymbol {x}} _ {i} - {\ widehat {\ boldsymbol {\ mu}}}) ^ { \ top} \ mathbf {S} ^ {- 1} ({\ boldsymbol {x}} _ {i} - {\ widehat {\ boldsymbol {\ mu}}})}$ ${\ displaystyle \ mathbf {S} = \ mathbf {X} ^ {\ top} \ mathbf {X}}$ ${\ displaystyle {{\ boldsymbol {x}} _ {i}}}$ ${\ displaystyle h_ {ii}}$ ${\ displaystyle \ mathbf {X}}$

{\ displaystyle D ^ {2} ({\ boldsymbol {x}} _ {i}) = (n-1) (h_ {ii} - {\ tfrac {1} {n}})}

Esse relacionamento nos permite decompor a alavancagem em componentes significativos para que algumas fontes de alta alavancagem possam ser investigadas analiticamente.

Relação para influenciar funções

Em um contexto de regressão, combinamos as funções de alavancagem e influência para calcular o grau em que os coeficientes estimados mudariam se removêssemos um único ponto de dados. Denotando os resíduos da regressão como , pode-se comparar o coeficiente estimado com o coeficiente estimado leave-one-out usando a fórmula ${\ displaystyle {\ widehat {e}} _ {i} = y_ {i} - {\ boldsymbol {x}} _ {i} ^ {\ top} {\ widehat {\ boldsymbol {\ beta}}}}$ ${\ displaystyle {\ widehat {\ boldsymbol {\ beta}}}}$ ${\ displaystyle {\ widehat {\ boldsymbol {\ beta}}} ^ {(- i)}}$

{\ displaystyle {\ widehat {\ boldsymbol {\ beta}}} - {\ widehat {\ boldsymbol {\ beta}}} ^ {(- i)} = {\ frac {(\ mathbf {X} ^ {\ top } \ mathbf {X}) ^ {- 1} {\ boldsymbol {x}} _ {i} {\ widehat {e}} _ {i}} {1-h_ {ii}}}}

Young (2019) usa uma versão desta fórmula após residualizar os controles. Para obter intuição para esta fórmula, observe que captura o potencial de uma observação afetar os parâmetros de regressão e, portanto, captura a influência real dos desvios dessas observações de seu valor ajustado nos parâmetros de regressão. A fórmula então se divide por para levar em conta o fato de que removemos a observação em vez de ajustar seu valor, refletindo o fato de que a remoção altera mais a distribuição de covariáveis quando aplicada a observações de alta alavancagem (ou seja, com valores de covariáveis atípicos). Fórmulas semelhantes surgem ao aplicar fórmulas gerais para funções de influências estatísticas no contexto de regressão. ${\ displaystyle {\ frac {\ partial {\ hat {\ beta}}} {\ partial y_ {i}}} = (\ mathbf {X} ^ {\ top} \ mathbf {X}) ^ {- 1} {\ boldsymbol {x}} _ {i}}$ ${\ displaystyle (\ mathbf {X} ^ {\ top} \ mathbf {X}) ^ {- 1} {\ boldsymbol {x}} _ {i} {\ widehat {e}} _ {i}}$ ${\ displaystyle (1-h_ {ii})}$

Efeito na variância residual

Se estamos em um Mínimos Quadrados Ordinários de ajuste com fixos e homocedásticas erros de regressão , em seguida, o residual de regressão , tem variância ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle \ varepsilon _ {i},}$ ${\ displaystyle {\ boldsymbol {y}} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}}; \ \ \ operatorname {Var} ({\ boldsymbol {\psilon}} ) = \ sigma ^ {2} \ mathbf {I}}$ ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle e_ {i} = y_ {i} - {\ widehat {y}} _ {i}}$

{\ displaystyle \ operatorname {Var} (e_ {i}) = (1-h_ {ii}) \ sigma ^ {2}}

.

Em outras palavras, a pontuação de alavancagem de uma observação determina o grau de ruído na previsão incorreta do modelo dessa observação, com maior alavancagem levando a menos ruído. Isso decorre do fato de que é idempotente e simétrico e , portanto ,. ${\ displaystyle \ mathbf {I} - \ mathbf {H}}$ ${\ displaystyle {\ widehat {\ boldsymbol {y}}} = \ mathbf {H} {\ boldsymbol {y}}}$ ${\ displaystyle \ operatorname {Var} ({\ boldsymbol {e}}) = \ operatorname {Var} ((\ mathbf {I} - \ mathbf {H}) {\ boldsymbol {y}}) = (\ mathbf { I} - \ mathbf {H}) \ operatorname {Var} ({\ boldsymbol {y}}) (\ mathbf {I} - \ mathbf {H}) ^ {\ top} = \ sigma ^ {2} (\ mathbf {I} - \ mathbf {H}) ^ {2} = \ sigma ^ {2} (\ mathbf {I} - \ mathbf {H})}$

O resíduo estudentizado correspondente - o resíduo ajustado para sua variância residual estimada específica da observação - é então

{\ displaystyle t_ {i} = {e_ {i} \ over {\ widehat {\ sigma}} {\ sqrt {1-h_ {ii} \}}}}

onde está uma estimativa apropriada de . ${\ displaystyle {\ widehat {\ sigma}}}$ ${\ displaystyle \ sigma}$

Alavancagem parcial

A alavancagem parcial ( PL ) é uma medida da contribuição das variáveis independentes individuais para a alavancagem total de cada observação. Ou seja, PL é uma medida de como as mudanças como uma variável são adicionadas ao modelo de regressão. É calculado como: ${\ displaystyle h_ {ii}}$

{\ displaystyle \ left (\ mathrm {PL} _ {j} \ right) _ {i} = {\ frac {\ left (\ mathbf {X} _ {j \ bullet [j]} \ right) _ {i } ^ {2}} {\ sum _ {k = 1} ^ {n} \ left (\ mathbf {X} _ {j \ bullet [j]} \ right) _ {k} ^ {2}}}}

onde é o índice da variável independente, é o índice de observação e são os resíduos da regressão contra as variáveis independentes restantes. Observe que a alavancagem parcial é a alavancagem do ponto no gráfico de regressão parcial para a variável. Os pontos de dados com grande alavancagem parcial para uma variável independente podem exercer influência indevida sobre a seleção dessa variável em procedimentos de construção de modelo de regressão automática. ${\ displaystyle j}$ ${\ displaystyle i}$ ${\ displaystyle \ mathbf {X} _ {j \ bullet [j]}}$ ${\ displaystyle \ mathbf {X} _ {j}}$ ${\ displaystyle {i} ^ {th}}$ ${\ displaystyle {j} ^ {th}}$

Implementações de software

Muitos programas e pacotes de estatísticas, como R , Python , etc., incluem implementações de Leverage.

Idioma / programa	Função	Notas
R	`hat(x, intercept = TRUE)` ou `hatvalues(model, ...)`	Veja [1]

Veja também

Matriz de projeção - cujas principais entradas diagonais são as alavancas das observações
Distância de Mahalanobis - uma medida (em escala ) de alavancagem de um datum
Alavancagem parcial
Distância de Cook - uma medida das mudanças nos coeficientes de regressão quando uma observação é excluída
DFFITS
Outlier - observações com valores extremos de Y
Graus de liberdade (estatísticas) , a soma das pontuações de alavancagem

Languages

In other projects

Alavancagem (estatísticas) - Leverage (statistics)

Conteúdo

Definição e interpretações

Propriedades

Determinação de outliers no uso de alavancas ${\ displaystyle \ mathbf {X}}$

Relação com a distância de Mahalanobis

Relação para influenciar funções

Efeito na variância residual

Alavancagem parcial

Implementações de software

Veja também

Referências

Languages

In other projects

Alavancagem (estatísticas) - Leverage (statistics)

Definição e interpretações

Propriedades

Determinação de outliers no uso de alavancas X {\ displaystyle \ mathbf {X}}

Relação com a distância de Mahalanobis

Relação para influenciar funções

Efeito na variância residual

Alavancagem parcial

Implementações de software

Veja também

Referências

Determinação de outliers no uso de alavancas ${\ displaystyle \ mathbf {X}}$