Matriz de projeção - Projection matrix

Em estatística , a matriz de projeção , às vezes também chamada de matriz de influência ou matriz hat , mapeia o vetor de valores de resposta (valores de variáveis dependentes) para o vetor de valores ajustados (ou valores previstos). Ele descreve a influência de cada valor de resposta em cada valor ajustado. Os elementos diagonais da matriz de projeção são as alavancas , que descrevem a influência de cada valor de resposta no valor ajustado para essa mesma observação. ${\ displaystyle (\ mathbf {P})}$ ${\ displaystyle (\ mathbf {H})}$

Visão geral

Se o vetor de valores de resposta é denotado por e o vetor de valores ajustados por , ${\ displaystyle \ mathbf {y}}$ ${\ displaystyle \ mathbf {\ hat {y}}}$

{\ displaystyle \ mathbf {\ hat {y}} = \ mathbf {P} \ mathbf {y}.}

Como geralmente é pronunciado "y-hat", a matriz de projeção também é chamado de matriz chapéu como ele "coloca um chapéu sobre ". A fórmula para o vetor de resíduos também pode ser expressa de forma compacta usando a matriz de projeção: ${\ displaystyle \ mathbf {\ hat {y}}}$ ${\ displaystyle \ mathbf {P}}$ ${\ displaystyle \ mathbf {y}}$ ${\ displaystyle \ mathbf {r}}$

{\ displaystyle \ mathbf {r} = \ mathbf {y} - \ mathbf {\ hat {y}} = \ mathbf {y} - \ mathbf {P} \ mathbf {y} = \ left (\ mathbf {I} - \ mathbf {P} \ right) \ mathbf {y}.}

onde está a matriz de identidade . A matriz é algumas vezes chamada de matriz residual maker . Além disso, o elemento na i- ésima linha ej- ésima coluna de é igual à covariância entre o j- ésimo valor de resposta e o i- ésimo valor ajustado, dividido pela variância do primeiro: ${\ displaystyle \ mathbf {I}}$ ${\ displaystyle \ mathbf {M} \ equiv \ mathbf {I} - \ mathbf {P}}$ ${\ displaystyle \ mathbf {P}}$

{\ displaystyle p_ {ij} = {\ frac {\ operatorname {Cov} \ left [{\ hat {y}} _ {i}, y_ {j} \ right]} {\ operatorname {Var} \ left [y_ {j} \ right]}}}

Portanto, a matriz de covariância dos resíduos , por propagação do erro , é igual ${\ displaystyle \ mathbf {r}}$

{\ displaystyle \ mathbf {\ Sigma} _ {\ mathbf {r}} = \ left (\ mathbf {I} - \ mathbf {P} \ right) ^ {\ textf {T}} \ mathbf {\ Sigma} \ esquerda (\ mathbf {I} - \ mathbf {P} \ direita)}

,

onde é a matriz de covariância do vetor de erro (e, por extensão, o vetor de resposta também). Para o caso de modelos lineares com erros independentes e distribuídos de forma idêntica em que , isso se reduz a: ${\ displaystyle \ mathbf {\ Sigma}}$ ${\ displaystyle \ mathbf {\ Sigma} = \ sigma ^ {2} \ mathbf {I}}$

{\ displaystyle \ mathbf {\ Sigma} _ {\ mathbf {r}} = \ left (\ mathbf {I} - \ mathbf {P} \ right) \ sigma ^ {2}}

.

Intuição

Uma matriz tem seu espaço de coluna representado pela linha verde. A projeção de algum vetor no espaço da coluna de é o vetor

{\ displaystyle \ mathbf {A}}

{\ displaystyle \ mathbf {b}}

{\ displaystyle \ mathbf {A}}

{\ displaystyle \ mathbf {x}}

A partir da figura, fica claro que o ponto mais próximo do vetor no espaço da coluna de , é e é aquele em que podemos traçar uma linha ortogonal ao espaço da coluna de . Um vetor que é ortogonal ao espaço da coluna de uma matriz está no espaço nulo da transposta da matriz, então ${\ displaystyle \ mathbf {b}}$ ${\ displaystyle \ mathbf {A}}$ ${\ displaystyle \ mathbf {Ax}}$ ${\ displaystyle \ mathbf {A}}$

{\ displaystyle \ mathbf {A} ^ {\ textf {T}} (\ mathbf {b} - \ mathbf {Ax}) = 0}

A partir daí, se reorganiza, então

{\ displaystyle {\ begin {alinhados} && \ mathbf {A} ^ {\ textf {T}} \ mathbf {b} & - \ mathbf {A} ^ {\ textf {T}} \ mathbf {Ax} = 0 \\\ Rightarrow && \ mathbf {A} ^ {\ textf {T}} \ mathbf {b} & = \ mathbf {A} ^ {\ textf {T}} \ mathbf {Ax} \\\ Rightarrow && \ mathbf {x} & = \ left (\ mathbf {A} ^ {\ textf {T}} \ mathbf {A} \ right) ^ {- 1} \ mathbf {A} ^ {\ textf {T}} \ mathbf { b} \ end {alinhado}}}

Portanto, uma vez que está no espaço da coluna de , a matriz de projeção, que mapeia em é apenas , ou ${\ displaystyle \ mathbf {x}}$ ${\ displaystyle \ mathbf {A}}$ ${\ displaystyle \ mathbf {b}}$ ${\ displaystyle \ mathbf {x}}$ ${\ displaystyle \ mathbf {Ax}}$ ${\ displaystyle \ mathbf {A} \ left (\ mathbf {A} ^ {\ textf {T}} \ mathbf {A} \ right) ^ {- 1} \ mathbf {A} ^ {\ textf {T}} \ mathbf {b}}$

Modelo linear

Suponha que desejamos estimar um modelo linear usando mínimos quadrados lineares. O modelo pode ser escrito como

{\ displaystyle \ mathbf {y} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}},}

onde é uma matriz de variáveis explicativas (a matriz de design ), β é um vetor de parâmetros desconhecidos a serem estimados e ε é o vetor de erro. ${\ displaystyle \ mathbf {X}}$

Muitos tipos de modelos e técnicas estão sujeitos a esta formulação. Alguns exemplos são linear de mínimos quadrados , estrias suavização , estrias de regressão , regressão locais , regressão do kernel , e linear de filtragem .

Mínimos quadrados comuns

Quando os pesos para cada observação são idênticos e os erros não estão correlacionados, os parâmetros estimados são

{\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = \ left (\ mathbf {X} ^ {\ textf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textf {T}} \ mathbf {y},}

então os valores ajustados são

{\ displaystyle {\ hat {\ mathbf {y}}} = \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} = \ mathbf {X} \ left (\ mathbf {X} ^ {\ textf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textf {T}} \ mathbf {y}.}

Portanto, a matriz de projeção (e a matriz de chapéu) é dada por

{\ displaystyle \ mathbf {P} \ equiv \ mathbf {X} \ left (\ mathbf {X} ^ {\ textf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textf {T}}.}

Mínimos quadrados ponderados e generalizados

O acima pode ser generalizado para os casos em que os pesos não são idênticos e / ou os erros são correlacionados. Suponha que a matriz de covariância dos erros seja Ψ. Então desde

{\ displaystyle {\ hat {\ mathbf {\ beta}}} _ {\ text {GLS}} = \ left (\ mathbf {X} ^ {\ textf {T}} \ mathbf {\ Psi} ^ {- 1 } \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textf {T}} \ mathbf {\ Psi} ^ {- 1} \ mathbf {y}}

.

a matriz do chapéu é assim

{\ displaystyle H = \ mathbf {X} \ left (\ mathbf {X} ^ {\ textf {T}} \ mathbf {\ Psi} ^ {- 1} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textf {T}} \ mathbf {\ Psi} ^ {- 1}}

e novamente pode-se ver isso , embora agora não seja mais simétrico. ${\ displaystyle H ^ {2} = H \ cdot H = H}$

Propriedades

A matriz de projeção possui várias propriedades algébricas úteis. Na linguagem da álgebra linear , a matriz de projeção é a projeção ortogonal no espaço da coluna da matriz de design . (Observe que é o pseudoinverso de X. ) Alguns fatos da matriz de projeção nesta configuração são resumidos a seguir: ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle \ left (\ mathbf {X} ^ {\ textf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textf {T}}}$

${\ displaystyle \ mathbf {u} = (\ mathbf {I} - \ mathbf {P}) \ mathbf {y},}$ e ${\ displaystyle \ mathbf {u} = \ mathbf {y} - \ mathbf {P} \ mathbf {y} \ perp \ mathbf {X}.}$
${\ displaystyle \ mathbf {P}}$ é simétrico, e assim é . ${\ displaystyle \ mathbf {M} \ equiv \ mathbf {I} - \ mathbf {P}}$
${\ displaystyle \ mathbf {P}}$ é idempotente: e assim é . ${\ displaystyle \ mathbf {P} ^ {2} = \ mathbf {P}}$ ${\ displaystyle \ mathbf {M}}$
Se for uma matriz n × r com , então ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle \ operatorname {rank} (\ mathbf {X}) = r}$ ${\ displaystyle \ operatorname {rank} (\ mathbf {P}) = r}$
Os autovalores de consistem em r uns e n - r zeros, enquanto os autovalores de consistem em n - r uns e r zeros. ${\ displaystyle \ mathbf {P}}$ ${\ displaystyle \ mathbf {M}}$
${\ displaystyle \ mathbf {X}}$ é invariante sob : portanto . ${\ displaystyle \ mathbf {P}}$ ${\ displaystyle \ mathbf {PX} = \ mathbf {X},}$ ${\ displaystyle \ left (\ mathbf {I} - \ mathbf {P} \ right) \ mathbf {X} = \ mathbf {0}}$
${\ displaystyle \ left (\ mathbf {I} - \ mathbf {P} \ right) \ mathbf {P} = \ mathbf {P} \ left (\ mathbf {I} - \ mathbf {P} \ right) = \ mathbf {0}.}$
${\ displaystyle \ mathbf {P}}$ é exclusivo para certos subespaços.

A matriz de projeção correspondente a um modelo linear é simétrica e idempotente , ou seja ,. No entanto, nem sempre é esse o caso; na suavização de gráfico de dispersão com peso local (LOESS) , por exemplo, a matriz hat é em geral nem simétrica nem idempotente. ${\ displaystyle \ mathbf {P} ^ {2} = \ mathbf {P}}$

Para modelos lineares , o traço da matriz de projeção é igual à classificação de , que é o número de parâmetros independentes do modelo linear. Para outros modelos, como LOESS, que ainda são lineares nas observações , a matriz de projeção pode ser usada para definir os graus de liberdade efetivos do modelo. ${\ displaystyle \ mathbf {X}}$ ${\ displaystyle \ mathbf {y}}$

As aplicações práticas da matriz de projeção na análise de regressão incluem a alavancagem e a distância de Cook , que se preocupam em identificar observações influentes , ou seja, observações que têm um grande efeito nos resultados de uma regressão.

Fórmula em bloco

Suponha que a matriz de design possa ser decomposta por colunas como . Defina o chapéu ou operador de projeção como . Da mesma forma, defina o operador residual como . Então, a matriz de projeção pode ser decomposta da seguinte forma: ${\ displaystyle X}$ ${\ displaystyle X = {\ begin {bmatrix} A&B \ end {bmatrix}}}$ ${\ displaystyle P \ {X \} = X \ left (X ^ {\ textf {T}} X \ right) ^ {- 1} X ^ {\ textf {T}}}$ ${\ displaystyle M \ {X \} = IP \ {X \}}$

{\ displaystyle P \ {X \} = P \ {A \} + P \ {M \ {A \} B \},}

onde, por exemplo, e . Existem várias aplicações dessa decomposição. Na aplicação clássica, existe uma coluna de todos os uns, o que permite analisar os efeitos de adicionar um termo de interceptação a uma regressão. Outro uso é no modelo de efeitos fixos , onde é uma grande matriz esparsa das variáveis dummy para os termos de efeitos fixos. Pode-se usar essa partição para calcular a matriz de chapéu sem formar explicitamente a matriz , que pode ser muito grande para caber na memória do computador. ${\ displaystyle P \ {A \} = A \ left (A ^ {\ textf {T}} A \ right) ^ {- 1} A ^ {\ textf {T}}}$ ${\ displaystyle M \ {A \} = IP \ {A \}}$ ${\ displaystyle A}$ ${\ displaystyle A}$ ${\ displaystyle X}$ ${\ displaystyle X}$

Languages

In other projects