Regularização (matemática) - Regularization (mathematics)

As funções verde e azul incorrem em perda zero nos pontos de dados fornecidos. Um modelo aprendido pode ser induzido a preferir a função verde, que pode generalizar melhor para mais pontos retirados da distribuição desconhecida subjacente, ajustando o peso do termo de regularização.

Em matemática , estatística , finanças , ciência da computação , especialmente em aprendizado de máquina e problemas inversos , a regularização é o processo de adicionar informações a fim de resolver um problema mal-colocado ou evitar overfitting .

A regularização pode ser aplicada a funções objetivo em problemas de otimização mal colocados. O prazo de regularização, ou penalidade, impõe um custo à função de otimização para tornar única a solução ótima.

Independentemente do problema ou modelo, existe sempre um termo de dado, que corresponde a uma probabilidade de medição e um termo de regularização que corresponde a uma anterior. Combinando ambos usando estatísticas Bayesianas, pode-se calcular um posterior, que inclui ambas as fontes de informação e, portanto, estabiliza o processo de estimativa. Ao negociar os dois objetivos, escolhe-se ser mais viciante para os dados ou forçar a generalização (para evitar sobreajuste). Existe todo um ramo de pesquisa que trata de todas as regularizações possíveis. O fluxo de trabalho geralmente é aquele que se tenta uma regularização específica e então se calcula a densidade de probabilidade que corresponde a essa regularização para justificar a escolha. Também pode ser motivado fisicamente pelo bom senso ou intuição, o que é mais difícil.

No aprendizado de máquina, o termo de dados corresponde aos dados de treinamento e a regularização é a escolha do modelo ou modificações no algoritmo. A intenção é sempre reduzir o erro de generalização, ou seja, a pontuação do erro com o modelo treinado no conjunto de avaliação e não nos dados de treinamento.

Um dos primeiros usos da regularização está relacionado ao método dos mínimos quadrados. A densidade de probabilidade calculada é a distribuição gaussiana, que agora é conhecida como "regularização de Tikhonov".


Classificação

O aprendizado empírico de classificadores (a partir de um conjunto de dados finito) é sempre um problema subdeterminado, porque tenta inferir uma função de quaisquer exemplos dados .

Um termo de regularização (ou regularizador) é adicionado a uma função de perda :

onde está uma função de perda subjacente que descreve o custo de prever quando o rótulo está , como a perda quadrada ou perda de dobradiça ; e é um parâmetro que controla a importância do prazo de regularização. é normalmente escolhido para impor uma penalidade à complexidade de . Noções concretas de complexidade usadas incluem restrições para suavidade e limites na norma do espaço vetorial .

Uma justificativa teórica para a regularização é que ela tenta impor a navalha de Occam à solução (como mostrado na figura acima, onde a função verde, a mais simples, pode ser preferida). Do ponto de vista bayesiano , muitas técnicas de regularização correspondem à imposição de certas distribuições anteriores aos parâmetros do modelo.

A regularização pode servir a vários propósitos, incluindo modelos mais simples de aprendizagem, induzindo os modelos a serem esparsos e introduzindo a estrutura de grupo no problema de aprendizagem.

A mesma ideia surgiu em muitos campos da ciência . Uma forma simples de regularização aplicada a equações integrais ( regularização de Tikhonov ) é essencialmente uma troca entre ajustar os dados e reduzir uma norma da solução. Mais recentemente, os métodos de regularização não linear, incluindo a regularização de variação total , tornaram-se populares.

Generalização

A regularização pode ser motivada como uma técnica para melhorar a generalização de um modelo aprendido.

O objetivo deste problema de aprendizagem é encontrar uma função que se ajusta ou prediz o resultado (rótulo) que minimiza o erro esperado em todas as entradas e rótulos possíveis. O erro esperado de uma função é:

onde e são os domínios dos dados de entrada e seus rótulos, respectivamente.

Normalmente, em problemas de aprendizagem, apenas um subconjunto de dados de entrada e rótulos estão disponíveis, medidos com algum ruído. Portanto, o erro esperado é imensurável, e o melhor substituto disponível é o erro empírico sobre as amostras disponíveis:

Sem limites para a complexidade do espaço de função (formalmente, o espaço de Hilbert do kernel de reprodução ) disponível, um modelo será aprendido que incorre em perda zero no erro empírico substituto. Se as medições (por exemplo, de ) foram feitas com ruído, este modelo pode sofrer de sobreajuste e exibir um erro esperado insatisfatório. A regularização introduz uma penalidade para explorar certas regiões do espaço de função usado para construir o modelo, o que pode melhorar a generalização.

Regularização Tikhonov

Essas técnicas foram nomeadas em homenagem a Andrey Nikolayevich Tikhonov , que aplicou regularização a equações integrais e fez contribuições importantes em muitas outras áreas.

Ao aprender uma função linear , caracterizada por um vetor desconhecido tal que , pode-se adicionar a norma-do vetor à expressão de perda para preferir soluções com normas menores. A regularização de Tikhonov é uma das formas mais comuns. Também é conhecido como regressão do cume. É expresso como:

,

onde representaria amostras usadas para treinamento.

No caso de uma função geral, a norma da função em seu espaço de Hilbert do kernel de reprodução é:

Como a norma é diferenciável , o aprendizado pode ser avançado por gradiente descendente .

Mínimos quadrados regularizados por Tikhonov

O problema de aprendizagem com a função de perda de quadrados mínimos e regularização de Tikhonov pode ser resolvido analiticamente. Escrito em forma de matriz, o ótimo é aquele para o qual o gradiente da função de perda em relação a é 0.

   ( condição de primeira ordem )

Pela construção do problema de otimização, outros valores de fornecem valores maiores para a função de perda. Isso pode ser verificado examinando a segunda derivada .

Durante o treinamento, esse algoritmo leva tempo . Os termos correspondem à inversão da matriz e cálculo , respectivamente. O teste leva tempo.

Parada antecipada

A parada antecipada pode ser vista como uma regularização no tempo. Intuitivamente, um procedimento de treinamento como a descida de gradiente tende a aprender funções cada vez mais complexas com o aumento das iterações. Regularizando por tempo, a complexidade do modelo pode ser controlada, melhorando a generalização.

A parada antecipada é implementada usando um conjunto de dados para treinamento, um conjunto de dados estatisticamente independente para validação e outro para teste. O modelo é treinado até que o desempenho no conjunto de validação não melhore mais e, em seguida, aplicado ao conjunto de teste.

Motivação teórica em mínimos quadrados

Considere a aproximação finita da série de Neumann para uma matriz invertível A onde :

Isso pode ser usado para aproximar a solução analítica de mínimos quadrados não regularizados, se γ for introduzido para garantir que a norma seja menor que um.

A solução exata para o problema de aprendizado de mínimos quadrados não regularizados minimiza o erro empírico, mas pode falhar. Limitando T , único parâmetro livre do algoritmo acima, o problema é regularizado para o tempo, o que pode melhorar sua generalização.

O algoritmo acima é equivalente a restringir o número de iterações de descida de gradiente para o risco empírico

com a atualização de gradiente descendente:

O caso básico é trivial. O caso indutivo é provado da seguinte forma:

Regularizadores para dispersão

Suponha que um dicionário com dimensão seja fornecido de forma que uma função no espaço de funções possa ser expressa como:

Uma comparação entre a bola L1 e a bola L2 em duas dimensões dá uma intuição sobre como a regularização L1 atinge a dispersão.

Aplicar uma restrição de dispersão pode levar a modelos mais simples e interpretáveis. Isso é útil em muitos aplicativos da vida real, como biologia computacional . Um exemplo é o desenvolvimento de um teste preditivo simples para uma doença a fim de minimizar o custo da realização de exames médicos e, ao mesmo tempo, maximizar o poder preditivo.

Uma restrição sensata de dispersão é a norma , definida como o número de elementos diferentes de zero em . Resolver um problema de aprendizagem regularizado, no entanto, demonstrou ser NP-difícil .

A norma (ver também Normas ) pode ser usada para aproximar a norma ótima via relaxamento convexo. Pode-se demonstrar que a norma induz esparsidade. No caso dos mínimos quadrados, esse problema é conhecido como LASSO em estatísticas e busca de base no processamento de sinais.

Regularização de rede elástica

a regularização pode ocasionalmente produzir soluções não exclusivas. Um exemplo simples é fornecido na figura quando o espaço de soluções possíveis está em uma linha de 45 graus. Isso pode ser problemático para certas aplicações e é superado pela combinação com a regularização na regularização de rede elástica , que assume a seguinte forma:

A regularização da rede elástica tende a ter um efeito de agrupamento, em que os recursos de entrada correlacionados recebem pesos iguais.

A regularização de rede elástica é comumente usada na prática e implementada em muitas bibliotecas de aprendizado de máquina.

Métodos proximais

Embora a norma não resulte em um problema NP-difícil, a norma é convexa, mas não é estritamente diferenciável devido à torção em x = 0. Os métodos de subgradiente que dependem da subdivisão podem ser usados ​​para resolver problemas de aprendizagem regularizados. No entanto, uma convergência mais rápida pode ser alcançada por meio de métodos proximais.

Para um problema tal que é convexo, contínua, diferenciável, com Lipschitz gradiente contínuo (tal como a função menos perda quadrados), e é convexa, contínuo, e correcto, então o método de proximal para resolver o problema é a seguinte. Primeiro defina o operador proximal

e então iterar

O método proximal realiza iterativamente a descida gradiente e, em seguida, projeta o resultado de volta para o espaço permitido por .

Quando é o regularizador, o operador proximal é equivalente ao operador de limiar suave,

Isso permite uma computação eficiente.

Esparsidade do grupo sem sobreposições

Grupos de recursos podem ser regularizados por uma restrição de dispersão, que pode ser útil para expressar certo conhecimento prévio em um problema de otimização.

No caso de um modelo linear com grupos conhecidos não sobrepostos, um regularizador pode ser definido:

Onde

Isso pode ser visto como indução de um regularizador sobre a norma sobre os membros de cada grupo, seguido por uma norma sobre os grupos.

Isso pode ser resolvido pelo método proximal, onde o operador proximal é uma função de limiar suave em bloco:

Esparsidade de grupo com sobreposições

O algoritmo descrito para a dispersão do grupo sem sobreposições pode ser aplicado ao caso em que os grupos se sobrepõem, em certas situações. Isso provavelmente resultará em alguns grupos com todos os elementos zero e outros grupos com alguns elementos diferentes de zero e alguns zero.

Se desejar preservar a estrutura do grupo, um novo regularizador pode ser definido:

Para cada um , é definido como o vetor de forma que a restrição de ao grupo seja igual a e todas as outras entradas de sejam zero. O regularizador encontra a desintegração ideal em partes. Ele pode ser visto como uma duplicação de todos os elementos existentes em vários grupos. Problemas de aprendizagem com este regularizador também podem ser resolvidos com o método proximal com uma complicação. O operador proximal não pode ser calculado na forma fechada, mas pode ser resolvido de forma eficaz de forma iterativa, induzindo uma iteração interna dentro da iteração do método proximal.

Regularizadores para aprendizagem semissupervisionada

Quando a coleta de rótulos é mais cara do que os exemplos de entrada, o aprendizado semissupervisionado pode ser útil. Regularizadores foram projetados para guiar algoritmos de aprendizagem para aprender modelos que respeitam a estrutura de amostras de treinamento não supervisionadas. Se uma matriz de peso simétrica é fornecida, um regularizador pode ser definido:

Se codifica o resultado de alguma métrica de distância para pontos e , é desejável que . Este regularizador captura essa intuição e é equivalente a:

onde é a matriz Laplaciana do gráfico induzida por .

O problema de otimização pode ser resolvido analiticamente se a restrição for aplicada a todas as amostras supervisionadas. A parte rotulada do vetor é, portanto, óbvia. A parte não rotulada de é resolvida por:

Observe que o pseudo-inverso pode ser obtido porque tem o mesmo intervalo que .

Regularizadores para aprendizagem multitarefa

No caso da aprendizagem multitarefa, os problemas são considerados simultaneamente, cada um relacionado de alguma forma. O objetivo é aprender funções, idealmente emprestando força do relacionamento de tarefas, que têm poder preditivo. Isso é equivalente a aprender a matriz .

Regularizador esparso em colunas

Este regularizador define uma norma L2 em cada coluna e uma norma L1 em ​​todas as colunas. Isso pode ser resolvido por métodos proximais.

Regularização de norma nuclear

onde são os autovalores na decomposição de valor singular de .

Regularização com restrição média

Este regularizador restringe as funções aprendidas para cada tarefa para serem semelhantes à média geral das funções em todas as tarefas. Isso é útil para expressar informações anteriores que se espera que cada tarefa compartilhe entre si. Um exemplo é a previsão dos níveis de ferro no sangue medidos em diferentes momentos do dia, onde cada tarefa representa um indivíduo.

Regularização restrita à média agrupada

onde está um cluster de tarefas.

Este regularizador é semelhante ao regularizador com restrição de média, mas, em vez disso, impõe semelhança entre tarefas dentro do mesmo cluster. Isso pode capturar informações anteriores mais complexas. Essa técnica foi usada para prever as recomendações do Netflix . Um cluster corresponderia a um grupo de pessoas que compartilham preferências semelhantes.

Similaridade baseada em gráfico

Mais geralmente do que acima, a semelhança entre as tarefas pode ser definida por uma função. O regularizador incentiva o modelo a aprender funções semelhantes para tarefas semelhantes.

para uma dada matriz de similaridade simétrica .

Outros usos de regularização em estatísticas e aprendizado de máquina

Os métodos de aprendizagem bayesianos fazem uso de uma probabilidade anterior que (geralmente) dá menor probabilidade para modelos mais complexos. Técnicas de seleção de modelos bem conhecidas incluem o critério de informação de Akaike (AIC), comprimento de descrição mínimo (MDL) e o critério de informação Bayesiano (BIC). Métodos alternativos de controle de overfitting que não envolvem regularização incluem validação cruzada .

Exemplos de aplicações de diferentes métodos de regularização ao modelo linear são:

Modelo Medida de ajuste Medida de entropia
AIC / BIC
Regressão de cume
Laço
Denoising de busca de base
Modelo Rudin – Osher – Fatemi (TV)
Modelo potts
RLAD
Dantzig Selector
INCLINAÇÃO

Veja também

Notas

Referências