Mínimos quadrados totais - Total least squares

O caso bivariado (regressão de Deming) dos mínimos quadrados totais. As linhas vermelhas mostram o erro em x e y . Isso é diferente do método tradicional dos mínimos quadrados, que mede o erro paralelo ao eixo y . O caso mostrado, com desvios medidos perpendicularmente, surge quando os erros em x e y têm variâncias iguais.

Em estatística aplicada , o total de mínimos quadrados é um tipo de regressão de erros em variáveis , uma técnica de modelagem de dados de mínimos quadrados em que os erros observacionais nas variáveis ​​dependentes e independentes são levados em consideração. É uma generalização da regressão de Deming e também da regressão ortogonal , e pode ser aplicada a modelos lineares e não lineares.

A aproximação de mínimos quadrados totais dos dados é genericamente equivalente à melhor, na norma de Frobenius , aproximação de classificação baixa da matriz de dados.

Modelo linear

Fundo

No método de mínimos quadrados de modelagem de dados, a função objetivo , S ,

é minimizado, onde r é o vetor de resíduos e W é uma matriz de ponderação. Em mínimos quadrados lineares, o modelo contém equações que são lineares nos parâmetros que aparecem no vetor de parâmetros , de modo que os resíduos são dados por

Existem m observações nos parâmetros y e n em β com m > n . X é uma matriz m × n cujos elementos são constantes ou funções das variáveis ​​independentes, x . A matriz de ponderação W é, idealmente, o inverso da matriz de variância-covariância das observações y . As variáveis ​​independentes são consideradas livres de erros. As estimativas de parâmetro são encontradas definindo as equações de gradiente para zero, o que resulta nas equações normais

Permitindo erros de observação em todas as variáveis

Agora, suponha que ambos x e y são observados sujeita a erro, com matrizes de variância-covariância e respectivamente. Neste caso, a função objetivo pode ser escrita como

onde e são os resíduos em x e y respectivamente. É claro que esses resíduos não podem ser independentes uns dos outros, mas devem ser restringidos por algum tipo de relacionamento. Escrevendo a função do modelo como , as restrições são expressas por m equações de condição.

Assim, o problema é minimizar a função objetivo sujeita às m restrições. Isso é resolvido pelo uso de multiplicadores de Lagrange . Após algumas manipulações algébricas, o resultado é obtido.

ou alternativamente, onde M é a matriz de variância-covariância relativa às variáveis ​​independentes e dependentes.

Exemplo

Quando os erros de dados não são correlacionados, todas as matrizes M e W são diagonais. Em seguida, tome o exemplo do ajuste em linha reta.

nesse caso

mostrando como a variância no i ésimo ponto é determinada pelas variâncias das variáveis ​​independentes e dependentes e pelo modelo que está sendo usado para ajustar os dados. A expressão pode ser generalizada observando que o parâmetro é a inclinação da linha.

Uma expressão desse tipo é usada no ajuste de dados de titulação de pH, onde um pequeno erro em x se traduz em um grande erro em y quando a inclinação é grande.

Ponto de vista algébrico

Como foi mostrado em 1980 por Golub e Van Loan, o problema do TLS não tem solução em geral. A seguir, considera o caso simples em que existe uma solução exclusiva sem fazer nenhuma suposição específica.

O cálculo do TLS usando decomposição de valor singular (SVD) é descrito em textos padrão. Podemos resolver a equação

para B onde X é m -by- n e Y é m -by- k .

Ou seja, buscamos encontrar B que minimize as matrizes de erro E e F para X e Y respectivamente. Isso é,

onde está a matriz aumentada com E e F lado a lado e é a norma de Frobenius , a raiz quadrada da soma dos quadrados de todas as entradas em uma matriz e, portanto, equivalentemente a raiz quadrada da soma dos quadrados dos comprimentos das linhas ou colunas da matriz.

Isso pode ser reescrito como

onde está a matriz de identidade. O objetivo é então encontrar o que reduz a classificação de por k . Defina como a decomposição de valor singular da matriz aumentada .

onde V é dividida em blocos correspondentes com a forma de X e Y .

Usando o teorema de Eckart-Young , a aproximação que minimiza a norma do erro é tal que as matrizes e permanecem inalteradas, enquanto os menores valores singulares são substituídos por zeros. Ou seja, nós queremos

então, por linearidade,

Podemos, então, remover blocos das matrizes U e Σ, simplificando para

Isso fornece E e F para que

Agora, se for não singular, o que nem sempre é o caso (observe que o comportamento de TLS quando é singular ainda não é bem compreendido), podemos então multiplicar ambos os lados por para trazer o bloco inferior da matriz certa para a identidade negativa, dando

e entao

Uma implementação ingênua do GNU Octave disso é:

function B = tls(X, Y)

[m n]   = size(X);             % n is the width of X (X is m by n)
Z       = [X Y];               % Z is X augmented with Y.
[U S V] = svd(Z, 0);           % find the SVD of Z.
VXY     = V(1:n, 1+n:end);     % Take the block of V consisting of the first n rows and the n+1 to last column
VYY     = V(1+n:end, 1+n:end); % Take the bottom-right block of V.
B       = -VXY / VYY;

end

A forma descrita acima de resolver o problema, que requer que a matriz seja não singular, pode ser levemente estendida pelo chamado algoritmo TLS clássico .

Computação

A implementação padrão do algoritmo TLS clássico está disponível através do Netlib , veja também. Todas as implementações modernas baseadas, por exemplo, na resolução de uma sequência de problemas de mínimos quadrados ordinários, aproximam a matriz (denotada na literatura), conforme introduzida por Van Huffel e Vandewalle. É importante notar que , em muitos casos , essa não é a solução TLS .

Modelo não linear

Para sistemas não lineares, um raciocínio semelhante mostra que as equações normais para um ciclo de iteração podem ser escritas como

onde está a matriz Jacobiana .

Interpretação geométrica

Quando a variável independente está livre de erros, um resíduo representa a distância "vertical" entre o ponto de dados observado e a curva ajustada (ou superfície). No total de mínimos quadrados, um residual representa a distância entre um ponto de dados e a curva ajustada medida ao longo de alguma direção. Na verdade, se ambas as variáveis ​​são medidas nas mesmas unidades e os erros em ambas as variáveis ​​são os mesmos, então o residual representa a menor distância entre o ponto de dados e a curva ajustada , ou seja, o vetor residual é perpendicular à tangente de a curva. Por esse motivo, esse tipo de regressão é às vezes chamado de regressão euclidiana bidimensional (Stein, 1983) ou regressão ortogonal .

Métodos invariantes de escala

Uma séria dificuldade surge se as variáveis ​​não são medidas nas mesmas unidades. Primeiro, considere medir a distância entre um ponto de dados e a linha: quais são as unidades de medida para essa distância? Se considerarmos medir a distância com base no teorema de Pitágoras, então é claro que estaremos adicionando quantidades medidas em unidades diferentes, o que não faz sentido. Em segundo lugar, se redimensionarmos uma das variáveis, por exemplo, medida em gramas em vez de quilogramas, então terminaremos com resultados diferentes (uma linha diferente). Para evitar esses problemas, às vezes é sugerido que convertamos para variáveis ​​adimensionais - isso pode ser chamado de normalização ou padronização. No entanto, existem várias formas de o fazer, e estas conduzem a modelos adaptados que não são equivalentes entre si. Uma abordagem é normalizar por precisão de medição conhecida (ou estimada), minimizando assim a distância de Mahalanobis dos pontos à linha, fornecendo uma solução de máxima verossimilhança ; as precisões desconhecidas podem ser encontradas por meio da análise de variância .

Em suma, o total de mínimos quadrados não tem a propriedade de invariância de unidades - ou seja, não é invariante de escala . Para um modelo significativo, exigimos que esta propriedade seja mantida. Uma maneira de avançar é perceber que os resíduos (distâncias) medidos em unidades diferentes podem ser combinados se a multiplicação for usada em vez da adição. Considere o ajuste de uma linha: para cada ponto de dados, o produto dos resíduos verticais e horizontais é igual a duas vezes a área do triângulo formado pelas linhas residuais e a linha ajustada. Escolhemos a linha que minimiza a soma dessas áreas. O Prêmio Nobel Paul Samuelson provou em 1942 que, em duas dimensões, é a única linha expressável exclusivamente em termos das razões dos desvios-padrão e do coeficiente de correlação que (1) se ajusta à equação correta quando as observações caem em uma linha reta, ( 2) exibe invariância de escala e (3) exibe invariância sob intercâmbio de variáveis. Esta solução foi redescoberta em diferentes disciplinas e é conhecida como eixo principal padronizado (Ricker 1975, Warton et al., 2006), o eixo principal reduzido , a relação funcional média geométrica (Draper e Smith, 1998), regressão de menos produtos , regressão diagonal , linha de correlação orgânica e linha de áreas mínimas (Tofallis, 2002). Tofallis (2015) estendeu essa abordagem para lidar com múltiplas variáveis.

Veja também

Notas

Referências

Outros

  • I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš, e S. Van Huffel , O problema dos mínimos quadrados totais em AX ≈ B. Uma nova classificação com a relação com as obras clássicas. SIMAX vol. 32 edição 3 (2011), pp. 748–770. Disponível como pré - impressão .
  • M. Plešinger, O Problema de Mínimos Quadrados Totais e Redução de Dados em AX ≈ B. Tese de Doutorado, TU de Liberec e Instituto de Ciência da Computação, AS CR Praga, 2008. Ph.D. Tese
  • CC Paige, Z. Strakoš, Problemas centrais em sistemas algébricos lineares. SIAM J. Matrix Anal. Appl. 27, 2006, pp. 861–875. doi : 10.1137 / 040616991
  • S. Van Huffel e P. Lemmerling, Total Least Squares and Errors-in-Variables Modeling: Analysis, Algorithms and Applications . Dordrecht, Holanda: Kluwer Academic Publishers, 2002.
  • S. Jo e SW Kim, filtragem quadrada média normalizada consistente com matriz de dados ruidosa. IEEE Trans. Signal Process., Vol. 53, não. 6, pp. 2112–2123, junho de 2005.
  • RD DeGroat e EM Dowling, O problema dos mínimos quadrados dos dados e equalização do canal. IEEE Trans. Signal Process., Vol. 41, no. 1, pp. 407–411, janeiro de 1993.
  • S. Van Huffel e J. Vandewalle, The Total Least Squares Problems: Computational Aspects and Analysis. Publicações SIAM, Philadelphia PA, 1991. doi : 10.1137 / 1.9781611971002
  • T. Abatzoglou e J. Mendel, Constrained total least squares , em Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP'87), abril de 1987, vol. 12, pp. 1485-1488.
  • P. de Groen Uma introdução aos mínimos quadrados totais , em Nieuw Archief voor Wiskunde, Vierde serie, deel 14, 1996, pp. 237–253 arxiv.org .
  • GH Golub e CF Van Loan, Uma análise do problema de mínimos quadrados totais. SIAM J. em Numer. Anal., 17, 1980, pp. 883–893. doi : 10.1137 / 0717073
  • Regressão perpendicular de uma linha em MathPages
  • AR Amiri-Simkooei e S. Jazaeri Mínimos quadrados totais ponderados formulados pela teoria dos mínimos quadrados padrão , em Journal of Geodetic Science, 2 (2): 113-124, 2012 [1] .