Mínimos quadrados - Least squares

O resultado do ajuste de um conjunto de pontos de dados com uma função quadrática
Ajuste cônico de um conjunto de pontos usando a aproximação de mínimos quadrados

O método dos mínimos quadrados é uma abordagem padrão em análise de regressão para aproximar a solução de sistemas sobredeterminados (conjuntos de equações em que há mais equações do que incógnitas), minimizando a soma dos quadrados dos resíduos feita nos resultados de cada equação .

A aplicação mais importante é no ajuste de dados . O melhor ajuste no sentido dos mínimos quadrados minimiza a soma dos resíduos quadrados (um resíduo sendo: a diferença entre um valor observado e o valor ajustado fornecido por um modelo). Quando o problema tem incertezas substanciais na variável independente (a variável x ), então os métodos de regressão simples e de mínimos quadrados apresentam problemas; em tais casos, a metodologia necessária para ajustar os modelos de erros nas variáveis pode ser considerada em vez daquela para os mínimos quadrados.

Problemas de mínimos quadrados se dividem em duas categorias: lineares ou mínimos quadrados ordinários e não linear dos mínimos quadrados , dependendo se ou não os resíduos são lineares em todos os desconhecidos. O problema dos mínimos quadrados lineares ocorre na análise de regressão estatística ; tem uma solução de forma fechada . O problema não linear é geralmente resolvido por refinamento iterativo; a cada iteração, o sistema é aproximado por um linear e, portanto, o cálculo do núcleo é semelhante em ambos os casos.

Os mínimos quadrados polinomiais descrevem a variância em uma previsão da variável dependente como uma função da variável independente e os desvios da curva ajustada.

Quando as observações vêm de uma família exponencial com identidade como suas estatísticas naturais suficientes e condições suaves são satisfeitas (por exemplo, para distribuições normal, exponencial, de Poisson e binomial), as estimativas de mínimos quadrados padronizadas e estimativas de máxima verossimilhança são idênticas. O método dos mínimos quadrados também pode ser derivado como um método de estimador de momentos .

A discussão a seguir é apresentada principalmente em termos de funções lineares , mas o uso de mínimos quadrados é válido e prático para famílias de funções mais gerais. Além disso, aplicando iterativamente a aproximação quadrática local à probabilidade (por meio das informações de Fisher ), o método dos mínimos quadrados pode ser usado para ajustar um modelo linear generalizado .

O método dos mínimos quadrados foi oficialmente descoberto e publicado por Adrien-Marie Legendre (1805), embora geralmente também seja co-creditado a Carl Friedrich Gauss (1795), que contribuiu com avanços teóricos significativos para o método e pode tê-lo usado anteriormente em seu trabalhar.

História

Fundador

O método dos mínimos quadrados surgiu dos campos da astronomia e geodésia , à medida que cientistas e matemáticos procuravam fornecer soluções para os desafios de navegar nos oceanos da Terra durante a Era da Exploração . A descrição precisa do comportamento dos corpos celestes era a chave para permitir que os navios navegassem em mar aberto, onde os marinheiros não podiam mais depender de avistamentos em terra para navegação.

O método foi o culminar de vários avanços ocorridos ao longo do século XVIII:

  • A combinação de diferentes observações como sendo a melhor estimativa do valor verdadeiro; os erros diminuem com a agregação em vez de aumentar, talvez expressado pela primeira vez por Roger Cotes em 1722.
  • A combinação de diferentes observações feitas nas mesmas condições, ao contrário de simplesmente tentar o melhor para observar e registrar uma única observação com precisão. A abordagem era conhecida como método das médias. Esta abordagem foi usada notavelmente por Tobias Mayer enquanto estudava as librações da lua em 1750, e por Pierre-Simon Laplace em seu trabalho para explicar as diferenças no movimento de Júpiter e Saturno em 1788.
  • A combinação de diferentes observações feitas em diferentes condições. O método veio a ser conhecido como o método do menor desvio absoluto. Foi notadamente realizado por Roger Joseph Boscovich em seu trabalho sobre a forma da Terra em 1757 e por Pierre-Simon Laplace para o mesmo problema em 1799.
  • O desenvolvimento de um critério que pode ser avaliado para determinar quando a solução com o erro mínimo foi alcançada. Laplace tentou especificar uma forma matemática da densidade de probabilidade para os erros e definir um método de estimativa que minimiza o erro de estimativa. Para este propósito, Laplace usou uma distribuição exponencial bilateral simétrica que agora chamamos de distribuição de Laplace para modelar a distribuição do erro, e usou a soma dos desvios absolutos como erro de estimativa. Ele achava que essas eram as suposições mais simples que poderia fazer e esperava obter a média aritmética como a melhor estimativa. Em vez disso, seu estimador foi a mediana posterior.

O método

A primeira exposição clara e concisa do método dos mínimos quadrados foi publicada por Legendre em 1805. A técnica é descrita como um procedimento algébrico para ajustar equações lineares a dados e Legendre demonstra o novo método analisando os mesmos dados que Laplace para a forma de a Terra. Dez anos após a publicação de Legendre, o método dos mínimos quadrados foi adotado como uma ferramenta padrão em astronomia e geodésia na França, Itália e Prússia, o que constitui uma aceitação extraordinariamente rápida de uma técnica científica.

Em 1809, Carl Friedrich Gauss publicou seu método de cálculo das órbitas dos corpos celestes. Nessa obra, ele afirmava possuir o método dos mínimos quadrados desde 1795. Isso naturalmente levou a uma disputa de prioridade com Legendre. No entanto, para crédito de Gauss, ele foi além de Legendre e conseguiu conectar o método dos mínimos quadrados aos princípios da probabilidade e à distribuição normal . Ele conseguiu completar o programa de Laplace de especificar uma forma matemática da densidade de probabilidade para as observações, dependendo de um número finito de parâmetros desconhecidos, e definir um método de estimativa que minimiza o erro de estimativa. Gauss mostrou que a média aritmética é de fato a melhor estimativa do parâmetro de localização, alterando tanto a densidade de probabilidade quanto o método de estimativa. Ele então mudou o problema perguntando que forma a densidade deveria ter e que método de estimativa deveria ser usado para obter a média aritmética como estimativa do parâmetro de localização. Nessa tentativa, ele inventou a distribuição normal.

Uma das primeiras demonstrações da força do método de Gauss veio quando ele foi usado para prever a localização futura do recém-descoberto asteróide Ceres . Em 1 de janeiro de 1801, o astrônomo italiano Giuseppe Piazzi descobriu Ceres e foi capaz de rastrear seu caminho por 40 dias antes que se perdesse no brilho do sol. Com base nesses dados, os astrônomos desejavam determinar a localização de Ceres depois que ele emergiu atrás do sol, sem resolver as complicadas equações não lineares de Kepler do movimento planetário. As únicas previsões que permitiram com sucesso ao astrônomo húngaro Franz Xaver von Zach realocar Ceres foram aquelas realizadas por Gauss, de 24 anos, usando análise de mínimos quadrados.

Em 1810, depois de ler o trabalho de Gauss, Laplace, depois de provar o teorema do limite central , usou-o para dar uma grande amostra de justificação para o método dos mínimos quadrados e da distribuição normal. Em 1822, Gauss foi capaz de afirmar que a abordagem de mínimos quadrados para análise de regressão é ótima no sentido de que em um modelo linear onde os erros têm uma média de zero, não são correlacionados e têm variâncias iguais, o melhor estimador linear imparcial de os coeficientes é o estimador de mínimos quadrados. Este resultado é conhecido como teorema de Gauss-Markov .

A ideia da análise de mínimos quadrados também foi formulada de forma independente pelo americano Robert Adrain em 1808. Nos dois séculos seguintes, os pesquisadores da teoria dos erros e da estatística encontraram muitas maneiras diferentes de implementar os mínimos quadrados.

Declaração do problema

O objetivo consiste em ajustar os parâmetros de uma função de modelo para melhor se ajustar a um conjunto de dados. Um conjunto de dados simples consiste em n pontos (pares de dados) , i = 1,…, n , onde é uma variável independente e é uma variável dependente cujo valor é encontrado por observação. A função do modelo tem a forma , onde m parâmetros ajustáveis ​​são mantidos no vetor . O objetivo é encontrar os valores dos parâmetros para o modelo que "melhor" se ajusta aos dados. O ajuste de um modelo a um ponto de dados é medido por seu resíduo , definido como a diferença entre o valor observado da variável dependente e o valor predito pelo modelo:

Os resíduos são plotados em relação aos valores correspondentes . As flutuações aleatórias indicam que um modelo linear é apropriado.

O método dos mínimos quadrados encontra os valores dos parâmetros ideais, minimizando a soma de resíduos quadrados , :

Um exemplo de modelo em duas dimensões é o da linha reta. Denotando a interceptação y como e a inclinação como , a função do modelo é dada por . Veja mínimos quadrados lineares para um exemplo totalmente elaborado deste modelo.

Um ponto de dados pode consistir em mais de uma variável independente. Por exemplo, ao ajustar um plano a um conjunto de medidas de altura, o plano é uma função de duas variáveis ​​independentes, x e z , digamos. No caso mais geral, pode haver uma ou mais variáveis ​​independentes e uma ou mais variáveis ​​dependentes em cada ponto de dados.

À direita está um gráfico residual ilustrando flutuações aleatórias sobre , indicando que um modelo linear é apropriado. é uma variável independente e aleatória.  

Os resíduos são plotados contra os valores correspondentes . A forma parabólica das flutuações indica que um modelo parabólico é apropriado.

Se os pontos residuais tivessem algum tipo de formato e não estivessem flutuando aleatoriamente, um modelo linear não seria apropriado. Por exemplo, se o gráfico residual tivesse uma forma parabólica conforme visto à direita, um modelo parabólico seria apropriado para os dados. Os resíduos para um modelo parabólico podem ser calculados via .

Limitações

Esta formulação de regressão considera apenas erros observacionais na variável dependente (mas a regressão de mínimos quadrados totais alternativa pode explicar erros em ambas as variáveis). Existem dois contextos bastante diferentes com implicações diferentes:

  • Regressão para previsão. Aqui, um modelo é ajustado para fornecer uma regra de previsão para aplicação em uma situação semelhante à qual os dados usados ​​para ajuste se aplicam. Aqui, as variáveis ​​dependentes correspondentes a tal aplicação futura estariam sujeitas aos mesmos tipos de erro de observação que aqueles nos dados usados ​​para ajuste. Portanto, é logicamente consistente usar a regra de previsão de mínimos quadrados para esses dados.
  • Regressão para adequação a um "relacionamento verdadeiro". Na análise de regressão padrão que leva ao ajuste por mínimos quadrados, há uma suposição implícita de que os erros na variável independente são zero ou estritamente controlados de modo a serem desprezíveis. Quando os erros na variável independente não são desprezíveis, modelos de erro de medição podem ser usados; tais métodos podem levar a estimativas de parâmetros , testes de hipóteses e intervalos de confiança que levam em consideração a presença de erros de observação nas variáveis ​​independentes. Uma abordagem alternativa é ajustar um modelo pelo total de mínimos quadrados ; isso pode ser visto como uma abordagem pragmática para equilibrar os efeitos das diferentes fontes de erro na formulação de uma função objetivo para uso no ajuste do modelo.

Resolvendo o problema dos mínimos quadrados

O mínimo da soma dos quadrados é encontrado definindo o gradiente para zero. Como o modelo contém m parâmetros, existem m equações de gradiente:

e desde então , as equações de gradiente tornam-se

As equações de gradiente se aplicam a todos os problemas de mínimos quadrados. Cada problema particular requer expressões particulares para o modelo e suas derivadas parciais.

Mínimos quadrados lineares

Um modelo de regressão é linear quando o modelo compreende uma combinação linear dos parâmetros, ou seja,

onde a função é uma função de .

Deixando e colocando as variáveis ​​independentes e dependentes em matrizes e , respectivamente, podemos calcular os mínimos quadrados da seguinte maneira. Observe que é o conjunto de todos os dados.

Encontrar o mínimo pode ser alcançado definindo o gradiente da perda para zero e resolvendo

Finalmente, definindo o gradiente da perda para zero e resolvendo para nós, obtemos:

Mínimos quadrados não lineares

Em alguns casos, existe uma solução de forma fechada para um problema de mínimos quadrados não lineares - mas em geral não existe. No caso de nenhuma solução de forma fechada, algoritmos numéricos são usados ​​para encontrar o valor dos parâmetros que minimizam o objetivo. A maioria dos algoritmos envolve a escolha de valores iniciais para os parâmetros. Em seguida, os parâmetros são refinados iterativamente, ou seja, os valores são obtidos por aproximações sucessivas:

onde um sobrescrito k é um número de iteração e o vetor de incrementos é chamado de vetor de deslocamento. Em alguns algoritmos comumente usados, em cada iteração, o modelo pode ser linearizado por aproximação a uma expansão de série de Taylor de primeira ordem sobre :

O Jacobian J é uma função de constantes, a variável independente e os parâmetros, então ele muda de uma iteração para a próxima. Os resíduos são dados por

Para minimizar a soma dos quadrados de , a equação do gradiente é definida como zero e resolvida para :

que, no rearranjo, tornam-se m equações lineares simultâneas, as equações normais :

As equações normais são escritas em notação de matriz como

Estas são as equações definidoras do algoritmo de Gauss-Newton .

Diferenças entre mínimos quadrados lineares e não lineares

  • A função do modelo, f , em LLSQ (mínimos quadrados lineares) é uma combinação linear de parâmetros da forma. O modelo pode representar uma linha reta, uma parábola ou qualquer outra combinação linear de funções. Em NLLSQ (mínimos quadrados não lineares), os parâmetros aparecem como funções, como e assim por diante. Se as derivadas são constantes ou dependem apenas dos valores da variável independente, o modelo é linear nos parâmetros. Caso contrário, o modelo não é linear.
  • Necessita de valores iniciais para os parâmetros para encontrar a solução para um problema NLLSQ; LLSQ não os exige.
  • Os algoritmos de solução para NLLSQ geralmente requerem que o Jacobiano possa ser calculado de forma semelhante ao LLSQ. As expressões analíticas para as derivadas parciais podem ser complicadas. Se as expressões analíticas são impossíveis de obter, as derivadas parciais devem ser calculadas por aproximação numérica ou uma estimativa deve ser feita do Jacobiano, freqüentemente por meio de diferenças finitas .
  • A não convergência (falha do algoritmo em encontrar um mínimo) é um fenômeno comum no NLLSQ.
  • O LLSQ é globalmente côncavo, portanto a não convergência não é um problema.
  • Resolver NLLSQ é geralmente um processo iterativo que deve ser encerrado quando um critério de convergência é satisfeito. As soluções LLSQ podem ser calculadas usando métodos diretos, embora problemas com um grande número de parâmetros sejam normalmente resolvidos com métodos iterativos, como o método de Gauss-Seidel .
  • No LLSQ, a solução é única, mas no NLLSQ pode haver vários mínimos na soma dos quadrados.
  • Sob a condição de que os erros não estão correlacionados com as variáveis ​​preditoras, o LLSQ produz estimativas não enviesadas, mas mesmo sob essa condição as estimativas do NLLSQ são geralmente enviesadas.

Essas diferenças devem ser consideradas sempre que se busca a solução para um problema de mínimos quadrados não lineares.

Exemplo

Considere um exemplo simples extraído da física. Uma mola deve obedecer à lei de Hooke que afirma que a extensão de uma mola y é proporcional à força, F , aplicada a ela.

constitui o modelo, onde F é a variável independente. Para estimar a constante de força , k , conduzimos uma série de n medições com diferentes forças para produzir um conjunto de dados ,, onde y i é uma extensão medida da mola. Cada observação experimental conterá algum erro, e assim podemos especificar um modelo empírico para nossas observações,

Existem muitos métodos que podemos usar para estimar o parâmetro desconhecido k . Desde as n equações nas m variáveis em nossos dados compreendem um sistema sobredeterminado com um desconhecido e n equações, estimamos k usando mínimos quadrados. A soma dos quadrados a serem minimizados é

A estimativa de mínimos quadrados da constante de força, k , é dada por

Presumimos que a aplicação de força faz com que a mola se expanda. Depois de derivar a constante de força pelo ajuste de mínimos quadrados, predizemos a extensão da lei de Hooke.

Quantificação de incerteza

Em um cálculo de mínimos quadrados com pesos unitários, ou em regressão linear, a variância no j- ésimo parâmetro, denotado , é geralmente estimada com

onde a verdadeira variância de erro σ 2 é substituído por uma estimativa, a estatística de qui-quadrado reduzido , com base no valor minimizada da soma residual dos quadrados (função objectivo), S . O denominador, n  -  m , são os graus de liberdade estatísticos ; veja graus efetivos de liberdade para generalizações. C é a matriz de covariância .

Teste estatístico

Se a distribuição de probabilidade dos parâmetros for conhecida ou uma aproximação assintótica for feita, os limites de confiança podem ser encontrados. Da mesma forma, testes estatísticos sobre os resíduos podem ser realizados se a distribuição de probabilidade dos resíduos for conhecida ou assumida. Podemos derivar a distribuição de probabilidade de qualquer combinação linear das variáveis ​​dependentes se a distribuição de probabilidade de erros experimentais for conhecida ou presumida. É fácil inferir quando se assume que os erros seguem uma distribuição normal, consequentemente implicando que as estimativas dos parâmetros e resíduos também serão normalmente distribuídos condicional aos valores das variáveis ​​independentes.

É necessário fazer suposições sobre a natureza dos erros experimentais para testar os resultados estatisticamente. Uma suposição comum é que os erros pertencem a uma distribuição normal. O teorema do limite central apóia a ideia de que essa é uma boa aproximação em muitos casos.

  • O teorema de Gauss-Markov . Em um modelo linear em que os erros têm expectativa de zero condicional sobre as variáveis independentes, são não correlacionadas e que têm iguais variações , o melhor linear imparcial estimador de qualquer combinação linear das observações, é seu estimador de mínimos quadrados. "Melhor" significa que os estimadores de mínimos quadrados dos parâmetros têm variância mínima. A suposição de variância igual é válida quando todos os erros pertencem à mesma distribuição.
  • Se os erros pertencem a uma distribuição normal, os estimadores de mínimos quadrados também são os estimadores de máxima verossimilhança em um modelo linear.

No entanto, suponha que os erros não sejam normalmente distribuídos. Nesse caso, um teorema do limite central frequentemente implica que as estimativas dos parâmetros serão aproximadamente distribuídas normalmente, desde que a amostra seja razoavelmente grande. Por esse motivo, dada a importante propriedade de que a média do erro é independente das variáveis ​​independentes, a distribuição do termo de erro não é uma questão importante na análise de regressão. Especificamente, normalmente não é importante se o termo de erro segue uma distribuição normal.

Mínimos quadrados ponderados

Efeito "Fanning Out" da Heteroscedasticidade

Um caso especial de mínimos quadrados generalizados chamados mínimos quadrados ponderados ocorre quando todas as entradas fora da diagonal de Ω (a matriz de correlação dos resíduos) são nulas; as variâncias das observações (ao longo da diagonal da matriz de covariância) podem ainda ser desiguais ( heterocedasticidade ). Em termos mais simples, heterocedasticidade é quando a variância de depende do valor do que faz com que o gráfico residual crie um efeito de "espalhamento" em direção a valores maiores , como visto no gráfico residual à direita. Por outro lado, a homocedasticidade assume que a variância de e é igual.   

Relação com os componentes principais

O primeiro componente principal sobre a média de um conjunto de pontos pode ser representado pela linha que mais se aproxima dos pontos de dados (medida pela distância ao quadrado da abordagem mais próxima, ou seja, perpendicular à linha). Em contraste, os mínimos quadrados lineares tentam minimizar a distância apenas na direção. Assim, embora os dois usem uma métrica de erro semelhante, os mínimos quadrados lineares é um método que trata uma dimensão dos dados preferencialmente, enquanto o PCA trata todas as dimensões igualmente.

Relação com a Teoria da Medida

O estatístico notável Sara van de Geer usou a teoria do processo empírico e a dimensão Vapnik-Chervonenkis para provar que um estimador de mínimos quadrados pode ser interpretado como uma medida no espaço de funções quadradas integráveis .

Regularização

Regularização Tikhonov

Em alguns contextos, uma versão regularizada da solução de mínimos quadrados pode ser preferível. A regularização de Tikhonov (ou regressão de crista ) adiciona uma restrição que , a norma L 2 do vetor de parâmetro, não é maior do que um determinado valor. De forma equivalente, pode resolver uma minimização irrestrita da penalidade de mínimos quadrados com adicionado, onde é uma constante (esta é a forma Lagrangiana do problema restrito). Em um contexto bayesiano , isso é equivalente a colocar uma média zero normalmente distribuída antes do vetor de parâmetro.

Método laço

Uma versão regularizada alternativa de mínimos quadrados é Lasso (menor contração absoluta e operador de seleção), que usa a restrição de que , a norma L 1 do vetor de parâmetro, não é maior do que um determinado valor. (Como acima, isso é equivalente a uma minimização irrestrita da penalidade de mínimos quadrados com adicionado.) Em um contexto Bayesiano , isso é equivalente a colocar uma distribuição anterior de Laplace de média zero no vetor de parâmetro. O problema de otimização pode ser resolvido usando programação quadrática ou métodos de otimização convexa mais gerais , bem como por algoritmos específicos, como o algoritmo de regressão de ângulo mínimo .

Uma das principais diferenças entre Lasso e regressão de crista é que na regressão de crista, conforme a penalidade é aumentada, todos os parâmetros são reduzidos enquanto permanecem diferentes de zero, enquanto em Lasso, aumentar a penalidade fará com que mais e mais dos parâmetros sejam conduzido a zero. Esta é uma vantagem do Lasso em relação à regressão de crista, pois direcionar os parâmetros para zero desmarca os recursos da regressão. Assim, o Lasso seleciona automaticamente os recursos mais relevantes e descarta os outros, enquanto a regressão de Ridge nunca descarta totalmente nenhum recurso. Algumas técnicas de seleção de recursos são desenvolvidas com base no LASSO, incluindo Bolasso, que inicializa as amostras, e FeaLect, que analisa os coeficientes de regressão correspondentes a diferentes valores de para pontuar todos os recursos.

A formulação L 1 -regularizada é útil em alguns contextos devido à sua tendência a preferir soluções onde mais parâmetros são zero, o que dá soluções que dependem de menos variáveis. Por esta razão, o Lasso e suas variantes são fundamentais para o campo da detecção por compressão . Uma extensão dessa abordagem é a regularização líquida elástica .

Veja também

Referências

Leitura adicional

links externos