Mínimos quadrados ponderados - Weighted least squares

Mínimos quadrados ponderados ( WLS ), também conhecido como regressão linear ponderada , é uma generalização dos mínimos quadrados ordinários e regressão linear em que o conhecimento da variância das observações é incorporado à regressão. WLS também é uma especialização de mínimos quadrados generalizados .

Introdução

Um caso especial de mínimos quadrados generalizados chamados mínimos quadrados ponderados ocorre quando todas as entradas fora da diagonal de Ω (a matriz de correlação dos resíduos) são nulas; as variâncias das observações (ao longo da diagonal da matriz de covariância) podem ainda ser desiguais ( heterocedasticidade ).

O ajuste de um modelo a um ponto de dados é medido por seu resíduo , definido como a diferença entre um valor medido da variável dependente e o valor predito pelo modelo :

Se os erros não forem correlacionados e tiverem variância igual, a função

,

é minimizado em , de modo que .

O teorema de Gauss-Markov mostra que, quando é assim, é o melhor estimador linear não enviesado ( AZUL ). Se, no entanto, as medições não estiverem correlacionadas, mas tiverem incertezas diferentes, uma abordagem modificada pode ser adotada. Aitken mostrou que quando uma soma ponderada dos resíduos quadrados é minimizada, é o AZUL se cada peso for igual ao recíproco da variância da medição

As equações de gradiente para esta soma dos quadrados são

que, em um sistema de mínimos quadrados lineares fornecem as equações normais modificadas,

Quando os erros de observação não estão correlacionados e a matriz de peso, W , é diagonal, eles podem ser escritos como

Se os erros são correlacionados, o estimador resultante é o AZUL se a matriz de ponderação for igual ao inverso da matriz de variância-covariância das observações.

Quando os erros não estão correlacionados, é conveniente simplificar os cálculos para fatorar a matriz de peso como . As equações normais podem então ser escritas da mesma forma que os mínimos quadrados ordinários:

onde definimos a seguinte matriz e vetor em escala:

Este é um tipo de transformação de clareamento ; a última expressão envolve uma divisão de entrada .

Para sistemas de mínimos quadrados não lineares , um argumento semelhante mostra que as equações normais devem ser modificadas como segue.

Observe que, para testes empíricos, o W apropriado não é conhecido com certeza e deve ser estimado. Para isso , podem ser utilizadas técnicas de mínimos quadrados generalizados (FGLS); neste caso, é especializado para uma matriz de covariância diagonal, produzindo assim uma solução viável de mínimos quadrados ponderados.

Se a incerteza das observações não for conhecida de fontes externas, os pesos podem ser estimados a partir das observações fornecidas. Isso pode ser útil, por exemplo, para identificar outliers. Depois que os outliers forem removidos do conjunto de dados, os pesos devem ser redefinidos para um.

Motivação

Em alguns casos, as observações podem ser ponderadas - por exemplo, podem não ser igualmente confiáveis. Nesse caso, pode-se minimizar a soma ponderada dos quadrados:

onde w i > 0 é o peso da i ésima observação e W é a matriz diagonal de tais pesos.

Os pesos devem, idealmente, ser iguais ao recíproco da variância da medição. (Isso implica que as observações não estão correlacionadas. Se as observações estiverem correlacionadas , a expressão se aplica. Neste caso, a matriz de ponderação deve ser idealmente igual ao inverso da matriz de variância-covariância das observações). As equações normais são então:

Este método é usado em mínimos quadrados reponderados iterativamente .

Erros de parâmetro e correlação

Os valores estimados dos parâmetros são combinações lineares dos valores observados

Portanto, uma expressão para a matriz de variância-covariância estimada das estimativas dos parâmetros pode ser obtida pela propagação do erro a partir dos erros nas observações. Seja a matriz de variância-covariância das observações denotada por M e a dos parâmetros estimados por M β . Então

Quando W = M −1 , isso simplifica para

Quando os pesos unitários são usados ​​( W = I , a matriz de identidade ), está implícito que os erros experimentais não são correlacionados e todos iguais: M = σ 2 I , onde σ 2 é a variância a priori de uma observação. Em qualquer caso, σ 2 é aproximado pelo qui-quadrado reduzido :

onde S é o valor mínimo da função objetivo (ponderada) :

O denominador,, é o número de graus de liberdade ; veja graus efetivos de liberdade para generalizações para o caso de observações correlacionadas.

Em todos os casos, a variância da estimativa do parâmetro é dada por e a covariância entre as estimativas do parâmetro e é dada por . O desvio padrão é a raiz quadrada da variância , e o coeficiente de correlação é dado por . Essas estimativas de erro refletem apenas erros aleatórios nas medições. A verdadeira incerteza nos parâmetros é maior devido à presença de erros sistemáticos , que, por definição, não podem ser quantificados. Observe que, embora as observações possam não estar correlacionadas, os parâmetros são normalmente correlacionados .

Limites de confiança do parâmetro

É freqüentemente assumido , por falta de qualquer evidência concreta, mas freqüentemente apelando para o teorema do limite central - ver distribuição normal # Ocorrência e aplicações - que o erro em cada observação pertence a uma distribuição normal com uma média de zero e desvio padrão . Sob essa suposição, as seguintes probabilidades podem ser derivadas para uma única estimativa de parâmetro escalar em termos de seu erro padrão estimado (fornecido aqui ):

68% que o intervalo abrange o verdadeiro valor do coeficiente
95% que o intervalo abrange o verdadeiro valor do coeficiente
99% que o intervalo abrange o verdadeiro valor do coeficiente

A suposição é razoável quando m  >>  n . Se os erros experimentais forem normalmente distribuídos, os parâmetros pertencerão a uma distribuição t de Student com m  -  n graus de liberdade . Quando m  ≫  n , a distribuição t de Student se aproxima de uma distribuição normal. Observe, entretanto, que esses limites de confiança não podem levar em consideração o erro sistemático. Além disso, os erros de parâmetro devem ter apenas um algarismo significativo, pois estão sujeitos a erros de amostragem .

Quando o número de observações é relativamente pequeno, a desigualdade de Chebychev pode ser usada para um limite superior nas probabilidades, independentemente de quaisquer suposições sobre a distribuição de erros experimentais: as probabilidades máximas de que um parâmetro será maior do que 1, 2 ou 3 desvios padrão longe de seu valor esperado são 100%, 25% e 11%, respectivamente.

Valores residuais e correlação

Os resíduos estão relacionados às observações por

onde H é a matriz idempotente conhecida como a matriz hat :

e I é a matriz de identidade . A matriz de variância-covariância dos resíduos, M r é dada por

Assim, os resíduos são correlacionados, mesmo que as observações não o sejam.

Quando ,

A soma dos valores residuais ponderados é igual a zero sempre que a função do modelo contém um termo constante. Multiplique à esquerda a expressão para os resíduos por X T W T :

Digamos, por exemplo, que o primeiro termo do modelo é uma constante, de modo que para todo i . Nesse caso, segue-se que

Assim, no exemplo motivacional acima, o fato da soma dos valores residuais ser igual a zero não é acidental, mas é consequência da presença do termo constante, α, no modelo.

Se o erro experimental segue uma distribuição normal , então, por causa da relação linear entre resíduos e observações, os resíduos também deveriam, mas como as observações são apenas uma amostra da população de todas as observações possíveis, os resíduos devem pertencer a uma distribuição t de Student . Resíduos estudantizados são úteis para fazer um teste estatístico para um outlier quando um resíduo particular parece ser excessivamente grande.

Veja também

Referências