Função de perda - Loss function

Na otimização matemática e na teoria da decisão , uma função de perda ou função de custo (às vezes também chamada de função de erro ) é uma função que mapeia um evento ou valores de uma ou mais variáveis ​​em um número real que representa intuitivamente algum "custo" associado ao evento. Um problema de otimização busca minimizar uma função de perda. Uma função objetivo é uma função de perda ou seu oposto (em domínios específicos, variadamente chamados de função de recompensa , função de lucro , função de utilidade , função de adequação , etc.), caso em que deve ser maximizada.

Em estatística, normalmente uma função de perda é usada para estimativa de parâmetro , e o evento em questão é alguma função da diferença entre os valores estimados e verdadeiros para uma instância de dados. O conceito, tão antigo quanto Laplace , foi reintroduzido nas estatísticas por Abraham Wald em meados do século XX. No contexto da economia , por exemplo, isso geralmente é custo econômico ou arrependimento . Na classificação , é a penalidade por uma classificação incorreta de um exemplo. Na ciência atuarial , é usado em um contexto de seguro para modelar benefícios pagos sobre prêmios, particularmente desde os trabalhos de Harald Cramér na década de 1920. No controle ideal , a perda é a penalidade por não conseguir atingir um valor desejado. Na gestão de risco financeiro , a função é mapeada para uma perda monetária.

Exemplos

Arrepender

Leonard J. Savage argumentou que usando métodos não bayesianos como o minimax , a função de perda deve ser baseada na ideia de arrependimento , ou seja, a perda associada a uma decisão deve ser a diferença entre as consequências da melhor decisão que poderia ter sido tomadas caso as circunstâncias subjacentes fossem conhecidas e a decisão que foi de fato tomada antes de serem conhecidas.

Função de perda quadrática

O uso de uma função de perda quadrática é comum, por exemplo, ao usar técnicas de mínimos quadrados . Freqüentemente, é mais tratável matematicamente do que outras funções de perda por causa das propriedades das variações , além de ser simétrico: um erro acima do alvo causa a mesma perda que a mesma magnitude do erro abaixo do alvo. Se o alvo for t , então uma função de perda quadrática é

para algum C constante ; o valor da constante não faz diferença para uma decisão e pode ser ignorado configurando-o igual a 1.

Muitas estatísticas comuns , incluindo testes t , modelos de regressão , design de experimentos e muito mais, usam métodos de mínimos quadrados aplicados usando a teoria de regressão linear , que é baseada na função de perda quadrática.

A função de perda quadrática também é usada em problemas de controle ótimo linear-quadrático . Nestes problemas, mesmo na ausência de incerteza, pode não ser possível atingir os valores desejados de todas as variáveis ​​alvo. Freqüentemente, a perda é expressa como uma forma quadrática nos desvios das variáveis ​​de interesse de seus valores desejados; essa abordagem é tratável porque resulta em condições lineares de primeira ordem . No contexto do controle estocástico , o valor esperado da forma quadrática é usado.

Função de perda 0-1

Em estatística e teoria de decisão , uma função de perda frequentemente usada é a função de perda 0-1

onde está a função do indicador .

Construindo funções de perda e objetivo

Em muitas aplicações, funções objetivo, incluindo funções de perda como um caso particular, são determinadas pela formulação do problema. Em outras situações, a preferência do tomador de decisão deve ser eliciada e representada por uma função de valor escalar (também chamada de função de utilidade ) em uma forma adequada para otimização - o problema que Ragnar Frisch destacou em sua palestra para o Prêmio Nobel. Os métodos existentes para a construção de funções objetivas são coletados nos anais de duas conferências dedicadas. Em particular, Andranik Tangian mostrou que as funções objetivo mais utilizáveis ​​- quadrática e aditiva - são determinadas por alguns pontos de indiferença. Ele usou essa propriedade nos modelos para construir essas funções objetivo a partir de dados ordinais ou cardinais que foram obtidos por meio de entrevistas assistidas por computador com tomadores de decisão. Entre outras coisas, ele construiu funções objetivas para distribuir otimamente os orçamentos para 16 universidades Westfalianas e os subsídios europeus para equalizar as taxas de desemprego entre 271 regiões alemãs.

Perda esperada

Em alguns contextos, o valor da função de perda em si é uma quantidade aleatório porque ele depende do resultado de uma variável aleatória X .

Estatisticas

Tanto a teoria estatística frequentista quanto a bayesiana envolvem a tomada de decisões com base no valor esperado da função de perda; no entanto, essa quantidade é definida de forma diferente nos dois paradigmas.

Perda esperada do freqüentista

Primeiro definimos a perda esperada no contexto frequentista. Ela é obtida tomando o valor esperado com respeito à distribuição de probabilidade, P θ , dos dados observados, X . Isso também é conhecido como a função de risco da regra de decisão δ e o parâmetro θ . Aqui a regra de decisão depende do resultado de X . A função de risco é dada por:

Aqui, θ é um estado de natureza fixo, mas possivelmente desconhecido, X é um vetor de observações estocasticamente retirado de uma população , é a expectativa sobre todos os valores de população de X , dP θ é uma medida de probabilidade sobre o espaço de eventos de X (parametrizado por  θ ) e o integral é avaliada ao longo de todo o suporte de  X .

Perda esperada bayesiana

Em uma abordagem bayesiana, a expectativa é calculada usando a distribuição posterior π * do parâmetro  θ :

Deve-se então escolher a ação a * que minimiza a perda esperada. Embora isso resulte na escolha da mesma ação que seria escolhida usando o risco frequentista, a ênfase da abordagem bayesiana é que estamos apenas interessados ​​em escolher a ação ótima sob os dados reais observados, ao passo que escolher a regra de decisão ideal frequentista real, que é uma função de todas as observações possíveis, é um problema muito mais difícil.

Exemplos em estatísticas

  • Para um parâmetro escalar θ , uma função de decisão cuja saída é uma estimativa de  θ , e uma função de perda quadrática ( perda de erro quadrático )
a função de risco torna-se o erro quadrático médio da estimativa,
a função de risco torna-se o erro quadrático integrado médio

Escolha econômica sob incerteza

Em economia, a tomada de decisão sob incerteza é freqüentemente modelada usando a função de utilidade de von Neumann – Morgenstern da variável incerta de interesse, como a riqueza no final do período. Uma vez que o valor dessa variável é incerto, o valor da função de utilidade também é incerto; é o valor esperado da utilidade que é maximizado.

Regras de decisão

Uma regra de decisão faz uma escolha usando um critério de otimização. Alguns critérios comumente usados ​​são:

  • Minimax : Escolha a regra de decisão com a pior perda mais baixa - ou seja, minimize a perda do pior caso (máximo possível):
  • Invariância : Escolha a regra de decisão ótima que satisfaça um requisito de invariância.
  • Escolha a regra de decisão com a perda média mais baixa (ou seja, minimizar o valor esperado da função de perda):

Selecionando uma função de perda

A boa prática estatística requer a seleção de um estimador consistente com a variação real aceitável experimentada no contexto de um determinado problema aplicado. Assim, no uso aplicado de funções de perda, selecionar qual método estatístico usar para modelar um problema aplicado depende de saber quais perdas serão experimentadas por serem erradas nas circunstâncias particulares do problema.

Um exemplo comum envolve estimar " localização ". Sob suposições estatísticas típicas, a média ou média é a estatística para estimar a localização que minimiza a perda esperada experimentada sob a função de perda de erro quadrado , enquanto a mediana é o estimador que minimiza a perda esperada experimentada sob a função de perda de diferença absoluta. Estimadores ainda diferentes seriam ótimos em outras circunstâncias menos comuns.

Em economia, quando um agente é neutro ao risco , a função objetivo é simplesmente expressa como o valor esperado de uma quantidade monetária, como lucro, renda ou riqueza de fim de período. Para agentes avessos ao risco ou amantes do risco , a perda é medida como o negativo de uma função de utilidade , e a função objetivo a ser otimizada é o valor esperado de utilidade.

Outras medidas de custo são possíveis, por exemplo, mortalidade ou morbidade no campo da saúde pública ou engenharia de segurança .

Para a maioria dos algoritmos de otimização , é desejável ter uma função de perda que seja globalmente contínua e diferenciável .

Duas funções de perda muito comumente utilizados são a perda de quadrado , e, a perda absoluta , . No entanto, a perda absoluta tem a desvantagem de não ser diferenciável em . A perda quadrado tem a desvantagem de que ele tem a tendência a ser dominada por valores extremos -Quando soma ao longo de um conjunto de 's (tal como no ), a soma final tende a ser o resultado de alguns particularmente grande de valores A, em vez de um expressão do valor médio a .

A escolha de uma função de perda não é arbitrária. É muito restritivo e às vezes a função de perda pode ser caracterizada por suas propriedades desejáveis. Entre os princípios de escolha estão, por exemplo, o requisito de completude da classe de estatística simétrica no caso de observações iid , o princípio de informação completa e alguns outros.

W. Edwards Deming e Nassim Nicholas Taleb argumentam que a realidade empírica, não boas propriedades matemáticas, deve ser a única base para a seleção de funções de perda, e perdas reais muitas vezes não são matematicamente boas e não são diferenciáveis, contínuas, simétricas, etc. Por exemplo, uma pessoa que chega antes do fechamento do portão de um avião ainda pode pegar o avião, mas uma pessoa que chega depois não, uma descontinuidade e assimetria que tornam chegar um pouco tarde muito mais caro do que chegar um pouco mais cedo. Na dosagem de medicamentos, o custo de pouco medicamento pode ser a falta de eficácia, enquanto o custo de muito pode representar toxicidade tolerável, outro exemplo de assimetria. Tráfego, encanamentos, vigas, ecologias, climas, etc. podem tolerar aumento de carga ou estresse com pouca mudança perceptível até certo ponto e, em seguida, travar ou quebrar catastroficamente. Essas situações, argumentam Deming e Taleb, são comuns em problemas da vida real, talvez mais comuns do que os casos clássicos suaves, contínuos, simétricos e diferenciais.

Veja também

Referências

Leitura adicional

  • Waud, Roger N. (1976). "Funções de utilidade do formulador de políticas assimétricas e política ótima sob incerteza". Econometrica . 44 (1): 53–66. doi : 10.2307 / 1911380 . JSTOR  1911380 .