Regularização de Tikhonov - Tikhonov regularization

A regularização de Tikhonov , em homenagem a Andrey Tikhonov , é um método de regularização de problemas mal colocados . Também conhecida como regressão de crista , é particularmente útil para mitigar o problema da multicolinearidade na regressão linear , que normalmente ocorre em modelos com grande número de parâmetros. Em geral, o método fornece eficiência aprimorada em problemas de estimativa de parâmetro em troca de uma quantidade tolerável de enviesamento (consulte compensação entre enviesamento e variância ).

No caso mais simples, o problema de uma matriz de momento quase singular é aliviado adicionando elementos positivos às diagonais , diminuindo assim seu número de condição . Análogo ao estimador de mínimos quadrados ordinários, o estimador de crista simples é então dado por

onde é o regressando , é a matriz de design , é a matriz identidade e o parâmetro ridge serve como o deslocamento constante das diagonais da matriz de momento. Pode-se mostrar que este estimador é a solução para o problema de mínimos quadrados sujeito à restrição , que pode ser expresso como um Lagrangiano:

o que mostra que nada mais é do que o multiplicador de Lagrange da restrição. No caso de , em que a restrição é não vinculativa , o estimador de crista se reduz a mínimos quadrados ordinários . Uma abordagem mais geral para a regularização Tikhonov é discutida abaixo.

História

A regularização de Tikhonov foi inventada de forma independente em muitos contextos diferentes. Tornou-se amplamente conhecido por sua aplicação a equações integrais do trabalho de Andrey Tikhonov e David L. Phillips. Alguns autores usam o termo regularização de Tikhonov-Phillips . O caso de dimensão finita foi exposto por Arthur E. Hoerl , que fez uma abordagem estatística, e por Manus Foster, que interpretou este método como um filtro de Wiener-Kolmogorov (Kriging) . Seguindo Hoerl, é conhecido na literatura estatística como regressão de crista.

Regularização Tikhonov

Suponha que para uma matriz e vetor conhecidos , desejamos encontrar um vetor tal que

A abordagem padrão é a regressão linear de mínimos quadrados ordinários . No entanto, se nenhum satisfizer a equação ou mais do que um - ou seja, a solução não é única - o problema é considerado mal colocado . Em tais casos, a estimativa de mínimos quadrados ordinários leva a um sistema de equações sobredeterminado ou, mais frequentemente, subdeterminado . A maioria dos fenômenos do mundo real têm o efeito de filtros passa-baixa na direção de avanço onde mapeia para . Portanto, ao resolver o problema inverso, o mapeamento inverso opera como um filtro passa-alta que tem a tendência indesejável de amplificar o ruído ( valores próprios / valores singulares são maiores no mapeamento reverso onde eram menores no mapeamento direto). Além disso, os mínimos quadrados ordinários anulam implicitamente todos os elementos da versão reconstruída do que está no espaço nulo de , em vez de permitir que um modelo seja usado como uma prioridade para . Os mínimos quadrados ordinários procuram minimizar a soma dos resíduos quadrados , que podem ser escritos de forma compacta como

onde está a norma euclidiana .

Para dar preferência a uma solução particular com propriedades desejáveis, um termo de regularização pode ser incluído nesta minimização:

para alguma matriz de Tikhonov adequadamente escolhida . Em muitos casos, essa matriz é escolhida como um múltiplo da matriz identidade ( ), dando preferência a soluções com normas menores ; isso é conhecido como regularização L 2 . Em outros casos, os operadores passa-altas (por exemplo, um operador de diferença ou um operador de Fourier ponderado ) podem ser usados ​​para impor suavidade se o vetor subjacente for considerado principalmente contínuo. Essa regularização melhora o condicionamento do problema, possibilitando uma solução numérica direta. Uma solução explícita, denotada por , é dada por

O efeito da regularização pode ser variado pela escala da matriz . Pois isso se reduz à solução de mínimos quadrados não regularizada, desde que (A T A) −1 exista.

A regularização L 2 é usada em muitos contextos além da regressão linear, como classificação com regressão logística ou máquinas de vetores de suporte e fatoração de matriz.

Regularização Tikhonov generalizada

Para distribuições normais multivariadas gerais para e o erro de dados, pode-se aplicar uma transformação das variáveis ​​para reduzir ao caso acima. Da mesma forma, pode-se buscar uma forma de minimizar

onde costumávamos representar a norma ponderada ao quadrado (compare com a distância de Mahalanobis ). Na interpretação Bayesiana é a matriz de covariância inversa de , é o valor esperado de , e é a matriz de covariância inversa de . A matriz de Tikhonov é então fornecida como uma fatoração da matriz (por exemplo, a fatoração de Cholesky ) e é considerada um filtro de clareamento .

Este problema generalizado tem uma solução ótima que pode ser escrita explicitamente usando a fórmula

ou equivalente

Regularização Lavrentyev

Em algumas situações, pode-se evitar o uso da transposta , proposta por Mikhail Lavrentyev . Por exemplo, se é simétrico positivo definido, isto é, seu inverso também é , o que pode ser usado para configurar a norma ponderada ao quadrado na regularização de Tikhonov generalizada, levando à minimização

ou, equivalentemente até um termo constante,

.

Este problema de minimização tem uma solução ótima que pode ser escrita explicitamente usando a fórmula

,

que nada mais é do que a solução do problema generalizado de Tikhonov, onde

A regularização de Lavrentyev, se aplicável, é vantajosa para a regularização de Tikhonov original, uma vez que a matriz de Lavrentyev pode ser mais bem condicionada, ou seja, tem um número de condição menor , em comparação com a matriz de Tikhonov.

Regularização no espaço de Hilbert

Normalmente, os problemas lineares discretos mal condicionados resultam da discretização de equações integrais , e pode-se formular uma regularização de Tikhonov no contexto de dimensão infinita original. No exemplo acima podemos interpretar como um operador compacto em espaços de Hilbert , e e como elementos no domínio e gama de . O operador é então um operador invertível limitado auto-adjunto .

Relação com a decomposição de valor singular e filtro de Wiener

Com , esta solução de mínimos quadrados pode ser analisada de uma maneira especial usando a decomposição de valores singulares . Dada a decomposição de valor singular

com valores singulares , a solução regularizada de Tikhonov pode ser expressa como

onde tem valores diagonais

e é zero em outro lugar. Isso demonstra o efeito do parâmetro Tikhonov no número de condição do problema regularizado. Para o caso generalizado, uma representação semelhante pode ser derivada usando uma decomposição de valor singular generalizada .

Finalmente, está relacionado ao filtro Wiener :

onde os pesos de Wiener estão e é a classificação de .

Determinação do fator de Tikhonov

O parâmetro de regularização ideal geralmente é desconhecido e, frequentemente, em problemas práticos, é determinado por um método ad hoc . Uma possível abordagem depende da interpretação Bayesiana descrita abaixo. Outras abordagens incluem o princípio de discrepância , validação cruzada , método da curva L , probabilidade máxima restrita e estimador de risco preditivo imparcial . Grace Wahba provou que o parâmetro ideal, no sentido de validação cruzada de deixar um de fora, minimiza

onde é a soma residual dos quadrados e é o número efetivo de graus de liberdade .

Usando a decomposição SVD anterior, podemos simplificar a expressão acima:

e

Relação com a formulação probabilística

A formulação probabilística de um problema inverso introduz (quando todas as incertezas são gaussianas) uma matriz de covariância representando as incertezas a priori nos parâmetros do modelo e uma matriz de covariância representando as incertezas nos parâmetros observados. No caso especial em que essas duas matrizes são diagonais e isotrópicas, e , e, neste caso, as equações da teoria inversa se reduzem às equações acima, com .

Interpretação bayesiana

Embora a princípio a escolha da solução para esse problema regularizado possa parecer artificial e, de fato, a matriz pareça bastante arbitrária, o processo pode ser justificado do ponto de vista bayesiano . Observe que, para um problema mal-colocado, deve-se necessariamente introduzir algumas suposições adicionais a fim de obter uma solução única. Estatisticamente, a distribuição de probabilidade anterior de às vezes é considerada uma distribuição normal multivariada . Para simplificar aqui, as seguintes suposições são feitas: as médias são zero; seus componentes são independentes; os componentes têm o mesmo desvio padrão . Os dados também estão sujeitos a erros e os erros em também são considerados independentes com média zero e desvio padrão . Sob essas suposições, a solução regularizada de Tikhonov é a solução mais provável , dados os dados e a distribuição a priori de , de acordo com o teorema de Bayes .

Se a suposição de normalidade é substituída por suposições de homocedasticidade e não correlação de erros , e se ainda se assume média zero, então o teorema de Gauss-Markov implica que a solução é o estimador linear imparcial mínimo .

Veja também

Notas

Referências

Leitura adicional