Mínimos quadrados regularizados - Regularized least squares

Mínimos quadrados regularizados ( RLS ) é uma família de métodos para resolver o problema de mínimos quadrados enquanto usa a regularização para restringir ainda mais a solução resultante.

O RLS é usado por dois motivos principais. O primeiro surge quando o número de variáveis ​​no sistema linear excede o número de observações. Em tais configurações, o problema de mínimos quadrados ordinários é mal colocado e, portanto, impossível de ajustar porque o problema de otimização associado tem infinitas soluções. O RLS permite a introdução de outras restrições que determinam exclusivamente a solução.

A segunda razão pela qual RLS é usado ocorre quando o número de variáveis ​​não excede o número de observações, mas o modelo aprendido sofre de generalização pobre . RLS pode ser usado em tais casos para melhorar a generalização do modelo, restringindo-o no momento do treinamento. Essa restrição pode forçar a solução a ser "esparsa" de alguma forma ou refletir outro conhecimento prévio sobre o problema, como informações sobre correlações entre recursos. A Bayesian compreender isso pode ser alcançado, mostrando que os métodos RLS são muitas vezes equivalente a priores sobre a solução para o problema dos mínimos quadrados.

Formulação geral

Considere um ambiente de aprendizagem dado por um espaço probabilístico , . Deixe denotar um conjunto de treinamento de pares iid em relação a . Deixe ser uma função de perda. Defina como o espaço das funções esse risco esperado:

está bem definido. O principal objetivo é minimizar o risco esperado:

Uma vez que o problema não pode ser resolvido exatamente, é necessário especificar como medir a qualidade de uma solução. Um bom algoritmo de aprendizado deve fornecer um estimador com um pequeno risco.

Como a distribuição conjunta é geralmente desconhecida, o risco empírico é assumido. Para mínimos quadrados regularizados, a função de perda quadrada é introduzida:

No entanto, se as funções provêm de um espaço relativamente sem restrições, como o conjunto de funções quadradas integráveis , essa abordagem pode super ajustar os dados de treinamento e levar a uma generalização pobre. Assim, deve de alguma forma restringir ou penalizar a complexidade da função . Em RLS, isso é realizado escolhendo funções de um espaço de Hilbert do kernel de reprodução (RKHS) e adicionando um termo de regularização à função objetivo, proporcional à norma da função em :

Formulação de kernel

Definição de RKHS

Um RKHS pode ser definido por uma função de kernel simétrica positiva-definida com a propriedade de reprodução:

onde . Os RKHS para um kernel consiste na conclusão do espaço de funções ocupadas por : , onde todos são números reais. Alguns kernels comumente usados ​​incluem o kernel linear, induzindo o espaço de funções lineares:

o núcleo polinomial, induzindo o espaço de funções polinomiais de ordem :

e o kernel gaussiano:

Observe que, para uma função de perda arbitrária , essa abordagem define uma classe geral de algoritmos chamada regularização de Tikhonov. Por exemplo, o uso da perda de dobradiça leva ao algoritmo da máquina de vetores de suporte , e o uso da perda insensível a epsilon leva à regressão do vetor de suporte .

Kernel arbitrário

O teorema do representador garante que a solução pode ser escrita como:

para alguns .

O problema de minimização pode ser expresso como:

onde, com algum abuso de notação, a entrada da matriz do kernel (em oposição à função do kernel ) é .

Para tal função,

O seguinte problema de minimização pode ser obtido:

.

Como a soma das funções convexas é convexa, a solução é única e seu mínimo pode ser encontrado definindo o gradiente em :

Onde

Complexidade

A complexidade do treinamento é basicamente o custo de calcular a matriz do kernel mais o custo de resolver o sistema linear que é aproximadamente . O cálculo da matriz do kernel para o kernel linear ou gaussiano é . A complexidade do teste é .

Predição

A previsão em um novo ponto de teste é:

Kernel linear

Por conveniência, uma notação vetorial é introduzida. Let Ser uma matriz, onde as linhas são vetores de entrada, e um vetor onde as entradas são saídas correspondentes. Em termos de vetores, a matriz do kernel pode ser escrita como . A função de aprendizagem pode ser escrita como:

Aqui nós definimos . A função objetivo pode ser reescrita como:

O primeiro termo é a função objetivo da regressão de mínimos quadrados ordinários (OLS), correspondendo à soma residual dos quadrados . O segundo termo é um termo de regularização, não presente no OLS, que penaliza grandes valores. Como um problema de dimensão finita suave é considerado e é possível aplicar ferramentas de cálculo padrão. Para minimizar a função objetivo, o gradiente é calculado em relação a e definido como zero:

Esta solução se assemelha muito àquela da regressão linear padrão, com um termo extra . Se as suposições da regressão OLS se mantiverem, a solução , com , é um estimador não enviesado, e é o estimador não enviesado linear de variância mínima, de acordo com o teorema de Gauss-Markov . O termo, portanto, leva a uma solução tendenciosa; no entanto, também tende a reduzir a variância. Isso é fácil de ver, pois a matriz de covariância dos valores -é proporcional a e, portanto, valores grandes de levarão a uma variância mais baixa. Portanto, a manipulação corresponde ao viés e à variância de trade-off. Para problemas com estimativas de alta variância , como casos com regressores relativamente pequenos ou correlacionados, a precisão de predição ideal pode ser obtida usando um valor diferente de zero e, portanto, introduzindo algum viés para reduzir a variância. Além disso, não é incomum no aprendizado de máquina ter casos em que , nesse caso, é deficiente na classificação e um valor diferente de zero é necessário para calcular .

Complexidade

O parâmetro controla a invertibilidade da matriz . Vários métodos podem ser usados ​​para resolver o sistema linear acima, sendo a decomposição de Cholesky provavelmente o método de escolha, uma vez que a matriz é simétrica e definida positivamente . A complexidade deste método é para treinamento e teste. O custo é essencialmente o da computação , enquanto a computação inversa (ou melhor, a solução do sistema linear) é aproximadamente .

Mapas de características e teorema de Mercer

Nesta seção, será mostrado como estender RLS para qualquer tipo de kernel K de reprodução. Em vez de kernel linear, um mapa de características é considerado para algum espaço de Hilbert , chamado de espaço de características. Neste caso, o kernel é definido como: A matriz agora é substituída pela nova matriz de dados , onde , ou o -ésimo componente do .

Isso significa que, para um determinado conjunto de treinamento . Assim, a função objetivo pode ser escrita como

Essa abordagem é conhecida como truque do kernel . Esta técnica pode simplificar significativamente as operações computacionais. Se for altamente dimensional, a computação pode ser bastante intensiva. Se a forma explícita da função do kernel é conhecida, precisamos apenas calcular e armazenar a matriz do kernel .

Na verdade, o espaço de Hilbert não precisa ser isomórfico e pode ter dimensões infinitas. Isso segue do teorema de Mercer , que afirma que uma função kernel definida positiva, contínua e simétrica pode ser expressa como

onde formar uma base ortonormal para , e . Se os mapas de características são definidos com componentes , segue-se isso . Isso demonstra que qualquer kernel pode ser associado a um mapa de recursos e que o RLS geralmente consiste em RLS linear executado em algum espaço de recursos de dimensão possivelmente superior. Enquanto o teorema de Mercer mostra como um mapa de recursos pode ser associado a um kernel, na verdade vários mapas de recursos podem ser associados a um determinado kernel de reprodução. Por exemplo, o mapa satisfaz a propriedade de um kernel de reprodução arbitrária.

Interpretação bayesiana

Os mínimos quadrados podem ser vistos como uma maximização da probabilidade sob uma suposição de resíduos normalmente distribuídos. Isso ocorre porque o expoente da distribuição gaussiana é quadrático nos dados e, portanto, a função objetivo de mínimos quadrados. Neste quadro, os termos de regularização de RLS pode ser entendida para ser codifica antecedentes em . Por exemplo, a regularização de Tikhonov corresponde a um prioritário normalmente distribuído em que está centrado em 0. Para ver isso, primeiro observe que o objetivo OLS é proporcional à função de log-verossimilhança quando cada amostra é normalmente distribuída . Em seguida, observe que um prior normal em centrado em 0 tem uma probabilidade logarítmica da forma

onde e são constantes que dependem da variância da anterior e são independentes de . Assim, minimizar o logaritmo da verossimilhança vezes o anterior é equivalente a minimizar a soma da função de perda OLS e o termo de regularização da regressão de crista.

Isso dá uma interpretação mais intuitiva de por que a regularização de Tikhonov leva a uma solução única para o problema dos mínimos quadrados: há infinitos vetores que satisfazem as restrições obtidas a partir dos dados, mas desde que chegamos ao problema com uma crença anterior que é normalmente distribuída em torno da origem, acabaremos escolhendo uma solução com essa restrição em mente.

Outros métodos de regularização correspondem a diferentes antecedentes. Veja a lista abaixo para mais detalhes.

Exemplos específicos

Regressão de cume (ou regularização de Tikhonov)

Uma escolha particularmente comum para a função de penalidade é a norma quadrada , ou seja,

Os nomes mais comuns para isso são chamados de regularização de Tikhonov e regressão do cume . Admite uma solução de forma fechada para :

O nome regressão de crista alude ao fato de que o termo adiciona entradas positivas ao longo da "crista" diagonal da matriz de covariância da amostra .

Quando , isto é, no caso de mínimos quadrados ordinários , a condição que faz com que a matriz de covariância da amostra não tenha classificação completa e, portanto, não possa ser invertida para produzir uma solução única. É por isso que pode haver uma infinidade de soluções para o problema dos mínimos quadrados ordinários quando . No entanto, quando , ou seja, quando a regressão de crista é usada, a adição de à matriz de covariância da amostra garante que todos os seus autovalores serão estritamente maiores que 0. Em outras palavras, ela se torna invertível e a solução torna-se única.

Em comparação com os mínimos quadrados comuns, a regressão de crista não é imparcial. Aceita pouco viés para reduzir a variância e o erro quadrático médio e ajuda a melhorar a precisão da previsão. Assim, o estimador de crista produz soluções mais estáveis ​​ao diminuir os coeficientes, mas sofre com a falta de sensibilidade aos dados.

Regressão Lasso

O método de seleção e encolhimento mínimo absoluto (LASSO) é outra escolha popular. Na regressão de laço , a função de penalidade de laço é a norma , ou seja,

Observe que a função de penalidade de laço é convexa, mas não estritamente convexa. Ao contrário da regularização de Tikhonov , este esquema não tem uma solução de forma fechada conveniente: em vez disso, a solução é normalmente encontrada usando programação quadrática ou métodos de otimização convexa mais gerais , bem como por algoritmos específicos, como o algoritmo de regressão de ângulo mínimo .

Uma diferença importante entre a regressão lasso e a regularização Tikhonov é que a regressão lasso força mais entradas de a realmente igual a 0 do que seria de outra forma. Em contraste, enquanto a regularização de Tikhonov força as entradas de a serem pequenas, ela não força mais delas a serem 0 do que seriam de outra forma. Assim, a regularização LASSO é mais apropriada do que a regularização Tikhonov nos casos em que esperamos que o número de entradas diferentes de zero de seja pequeno, e a regularização Tikhonov é mais apropriada quando esperamos que as entradas de serão geralmente pequenas, mas não necessariamente zero. Qual desses regimes é mais relevante depende do conjunto de dados específico em mãos.

Além da seleção de recursos descrita acima, o LASSO tem algumas limitações. A regressão de Ridge fornece melhor precisão no caso de variáveis ​​altamente correlacionadas. Em outro caso, LASSO seleciona no máximo as variáveis. Além disso, o LASSO tende a selecionar algumas variáveis ​​arbitrárias de um grupo de amostras altamente correlacionadas, portanto, não há efeito de agrupamento.

0 Penalização

A maneira mais extrema de impor a dispersão é dizer que a magnitude real dos coeficientes de não importa; em vez disso, a única coisa que determina a complexidade de é o número de entradas diferentes de zero. Isso corresponde à configuração para ser a norma de . Essa função de regularização, embora atrativa pela esparsidade que garante, é muito difícil de resolver, pois isso requer a otimização de uma função que nem mesmo é fracamente convexa . A regressão de laço é o relaxamento mínimo possível de penalização que produz um problema de otimização fracamente convexo.

Rede elástica

Para qualquer não negativo e o objetivo tem a seguinte forma:

Vamos , então, a solução do problema de minimização é descrita como:

para alguns .

Considere como uma função de penalidade da Rede Elástica.

Quando , a rede elástica se transforma em regressão de crista, ao passo que se transforma em Lasso. A função de penalidade da rede elástica não tem a primeira derivada em 0 e é estritamente convexa tomando as propriedades de regressão de laço e regressão de crista .

Uma das principais propriedades da Rede Elástica é que ela pode selecionar grupos de variáveis ​​correlacionadas. A diferença entre vetores de peso de amostras e é dada por:

, onde .

Se e são altamente correlacionados ( ), os vetores de peso estão muito próximos. No caso de amostras correlacionadas negativamente ( ), as amostras podem ser retiradas. Para resumir, para variáveis ​​altamente correlacionadas, os vetores de peso tendem a ser iguais a um sinal no caso de variáveis ​​correlacionadas negativas.

Lista parcial de métodos RLS

A seguir está uma lista de opções possíveis da função de regularização , juntamente com o nome de cada uma, o prior correspondente se houver um simples e as formas de calcular a solução para o problema de otimização resultante.

Nome Função de regularização Anterior correspondente Métodos para resolver
Regularização Tikhonov Normal Formulário fechado
Regressão Lasso Laplace Descida de gradiente proximal , regressão de menor ângulo
penalização - Seleção para frente , eliminação para trás , uso de antecedentes, como espigão e laje
Redes elásticas Mistura normal e Laplace Descida de gradiente proximal
Regularização de variação total - Método Split-Bregman , entre outros

Veja também

Referências

links externos