Teoria de aprendizagem estatística - Statistical learning theory

A teoria da aprendizagem estatística é uma estrutura para aprendizagem de máquina baseada nos campos da estatística e da análise funcional . A teoria da aprendizagem estatística lida com o problema de encontrar uma função preditiva baseada em dados. A teoria da aprendizagem estatística levou a aplicações bem-sucedidas em campos como visão computacional , reconhecimento de fala e bioinformática .

Introdução

Os objetivos da aprendizagem são compreensão e previsão. Aprendizagem cai em muitas categorias, incluindo aprendizagem supervisionada , aprendizagem não supervisionada , aprendizagem on-line e aprendizado por reforço . Do ponto de vista da teoria da aprendizagem estatística, a aprendizagem supervisionada é mais bem compreendida. A aprendizagem supervisionada envolve a aprendizagem de um conjunto de dados de treinamento . Cada ponto no treinamento é um par de entrada-saída, onde a entrada é mapeada para uma saída. O problema de aprendizagem consiste em inferir a função que mapeia entre a entrada e a saída, de forma que a função aprendida possa ser usada para prever a saída de uma entrada futura.

Dependendo do tipo de saída, os problemas de aprendizagem supervisionada são problemas de regressão ou problemas de classificação . Se a saída assumir uma faixa contínua de valores, é um problema de regressão. Usando a Lei de Ohm como exemplo, uma regressão poderia ser realizada com tensão como entrada e corrente como saída. A regressão iria encontrar a relação funcional entre a tensão e a corrente , tal que

Problemas de classificação são aqueles para os quais a saída será um elemento de um conjunto discreto de rótulos. A classificação é muito comum para aplicativos de aprendizado de máquina. No reconhecimento facial , por exemplo, uma imagem do rosto de uma pessoa seria a entrada e o rótulo de saída seria o nome dessa pessoa. A entrada seria representada por um grande vetor multidimensional cujos elementos representam pixels na imagem.

Depois de aprender uma função com base nos dados do conjunto de treinamento, essa função é validada em um conjunto de dados de teste, dados que não aparecem no conjunto de treinamento.

Descrição formal

Considere ser o espaço vetorial de todas as entradas possíveis e o espaço vetorial de todas as saídas possíveis. A teoria da aprendizagem estatística considera que existe alguma distribuição de probabilidade desconhecida no espaço do produto , ou seja, existe alguma desconhecida . O conjunto de treinamento é composto de amostras desta distribuição de probabilidade e é notado

Cada é um vetor de entrada dos dados de treinamento e é a saída que corresponde a ele.

Nesse formalismo, o problema de inferência consiste em encontrar uma função tal que . Seja um espaço de funções denominado espaço de hipóteses. O espaço de hipóteses é o espaço de funções que o algoritmo pesquisará. Seja a função de perda , uma métrica para a diferença entre o valor previsto e o valor real . O risco esperado é definido como

A função alvo, a melhor função possível que pode ser escolhida, é dada pela que satisfaz

Como a distribuição de probabilidade é desconhecida, uma medida proxy para o risco esperado deve ser usada. Essa medida é baseada no conjunto de treinamento, uma amostra dessa distribuição de probabilidade desconhecida. É chamado de risco empírico

Um algoritmo de aprendizagem que escolhe a função que minimiza o risco empírico é chamado de minimização de risco empírico .

Funções de perda

A escolha da função de perda é um fator determinante na função que será escolhida pelo algoritmo de aprendizagem. A função de perda também afeta a taxa de convergência de um algoritmo. É importante que a função de perda seja convexa.

Diferentes funções de perda são usadas dependendo se o problema é de regressão ou de classificação.

Regressão

A função de perda mais comum para regressão é a função de perda quadrada (também conhecida como norma L2 ). Esta função de perda familiar é usada na regressão de mínimos quadrados ordinários . O formulário é:

A perda de valor absoluto (também conhecida como norma L1 ) também é às vezes usada:

Classificação

Em certo sentido, a função de indicador 0-1 é a função de perda mais natural para classificação. Ele assume o valor 0 se a saída prevista for igual à saída real e leva o valor 1 se a saída prevista for diferente da saída real. Para classificação binária com , isto é:

onde está a função de etapa de Heaviside .

Regularização

Esta imagem representa um exemplo de overfitting no aprendizado de máquina. Os pontos vermelhos representam os dados do conjunto de treinamento. A linha verde representa a verdadeira relação funcional, enquanto a linha azul mostra a função aprendida, que foi adaptada aos dados do conjunto de treinamento.

Em problemas de aprendizado de máquina, um grande problema que surge é o overfitting . Como o aprendizado é um problema de previsão, o objetivo não é encontrar uma função que se ajuste melhor aos dados (observados anteriormente), mas encontrar uma que preveja com mais precisão a saída de uma entrada futura. A minimização do risco empírico corre o risco de overfitting: encontrar uma função que corresponda exatamente aos dados, mas não preveja bem a produção futura.

Overfitting é sintomático de soluções instáveis; uma pequena perturbação nos dados do conjunto de treinamento causaria uma grande variação na função aprendida. Pode-se mostrar que se a estabilidade da solução pode ser garantida, a generalização e a consistência também estão garantidas. A regularização pode resolver o problema de overfitting e dar estabilidade ao problema.

A regularização pode ser realizada restringindo o espaço de hipóteses . Um exemplo comum seria restringir a funções lineares: isso pode ser visto como uma redução ao problema padrão de regressão linear . também pode ser restrito a polinômios de grau , exponenciais ou funções limitadas em L1 . A restrição do espaço de hipóteses evita o sobreajuste porque a forma das funções potenciais é limitada e, portanto, não permite a escolha de uma função que dê risco empírico arbitrariamente próximo de zero.

Um exemplo de regularização é a regularização Tikhonov . Isso consiste em minimizar

onde é um parâmetro fixo e positivo, o parâmetro de regularização. A regularização Tikhonov garante a existência, exclusividade e estabilidade da solução.

Veja também

Referências