Minimização de risco empírico - Empirical risk minimization

A minimização de risco empírico (ERM) é um princípio na teoria de aprendizagem estatística que define uma família de algoritmos de aprendizagem e é usado para fornecer limites teóricos sobre seu desempenho. A ideia central é que não podemos saber exatamente quão bem um algoritmo funcionará na prática (o verdadeiro "risco") porque não sabemos a verdadeira distribuição de dados em que o algoritmo trabalhará, mas podemos, em vez disso, medir seu desempenho em um conjunto conhecido de dados de treinamento (o risco "empírico").

Fundo

Considere a seguinte situação, que é um cenário geral de muitos problemas de aprendizagem supervisionada . Temos dois espaços de objetos e e gostaríamos de aprender uma função (freqüentemente chamada de hipótese ) que gera um objeto , dado . Para tal, temos à nossa disposição um conjunto de exemplos formativos onde é um input e é a resposta correspondente que pretendemos obter .

Para colocá-lo mais formalmente, assumimos que há uma distribuição de probabilidade conjunta sobre e , e que o conjunto de treinamento consiste de casos extraídos iid partir . Observe que a suposição de uma distribuição de probabilidade conjunta nos permite modelar a incerteza nas previsões (por exemplo, do ruído nos dados) porque não é uma função determinística de , mas sim uma variável aleatória com distribuição condicional para um fixo .

Também assumimos que recebemos uma função de perda com valor real não negativa que mede o quão diferente a previsão de uma hipótese é do resultado verdadeiro. O risco associado à hipótese é então definido como a expectativa da função de perda:

A função de perda comumente usado em teoria é a função 0-1 perda : .

O objetivo final de um algoritmo de aprendizagem é encontrar uma hipótese entre uma classe fixa de funções para a qual o risco é mínimo:

Minimização de risco empírico

Em geral, o risco não pode ser calculado porque a distribuição é desconhecida para o algoritmo de aprendizagem (esta situação é conhecida como aprendizagem agnóstica ). No entanto, podemos calcular uma aproximação, chamada de risco empírico , calculando a média da função de perda no conjunto de treinamento:

O princípio de minimização do risco empírico afirma que o algoritmo de aprendizagem deve escolher uma hipótese que minimize o risco empírico:

Assim, o algoritmo de aprendizagem definido pelo princípio ERM consiste em resolver o problema de otimização acima .

Propriedades

Complexidade computacional

A minimização do risco empírico para um problema de classificação com uma função de perda de 0-1 é conhecido por ser um problema NP-difícil, mesmo para uma classe relativamente simples de funções como classificadores lineares . Porém, pode ser resolvido de forma eficiente quando o risco empírico mínimo é zero, ou seja, os dados são linearmente separáveis .

Na prática, os algoritmos de aprendizado de máquina lidam com isso empregando uma aproximação convexa para a função de perda de 0-1 (como a perda de dobradiça para SVM ), que é mais fácil de otimizar, ou impondo suposições sobre a distribuição (e, assim, deixando de ser um aprendizado agnóstico algoritmos aos quais o resultado acima se aplica).

Veja também

Referências

Leitura adicional

  • Vapnik, V. (2000). The Nature of Statistical Learning Theory . Ciência da Informação e Estatística. Springer-Verlag . ISBN 978-0-387-98780-4.