Compensação de polarização-variância - Bias–variance tradeoff

Função e dados ruidosos.
spread = 5
spread = 1
spread = 0,1
Uma função (vermelho) é aproximada usando funções de base radial (azul). Vários testes são mostrados em cada gráfico. Para cada tentativa, alguns pontos de dados ruidosos são fornecidos como um conjunto de treinamento (parte superior). Para uma ampla distribuição (imagem 2), o viés é alto: os RBFs não podem aproximar totalmente a função (especialmente o mergulho central), mas a variância entre os diferentes testes é baixa. À medida que o spread diminui (imagem 3 e 4), o viés diminui: as curvas azuis se aproximam mais das vermelhas. No entanto, dependendo do ruído em diferentes tentativas, a variância entre as tentativas aumenta. Na imagem mais inferior, os valores aproximados de x = 0 variam muito, dependendo de onde os pontos de dados foram localizados.
Viés e variância em função da complexidade do modelo

Em estatística e aprendizado de máquina , a compensação de viés-variância é a propriedade de um modelo de que a variância do parâmetro estimado entre as amostras pode ser reduzida aumentando o viés nos parâmetros estimados . O dilema de polarização-variância ou problema de polarização-variância é o conflito em tentar minimizar simultaneamente essas duas fontes de erro que impedem que algoritmos de aprendizagem supervisionada generalizem além de seu conjunto de treinamento :

  • O erro de polarização é um erro de suposições errôneas no algoritmo de aprendizado . A alta polarização pode fazer com que um algoritmo perca as relações relevantes entre os recursos e os resultados desejados (subajuste).
  • A variação é um erro de sensibilidade a pequenas flutuações no conjunto de treinamento. A alta variação pode resultar de um algoritmo que modela o ruído aleatório nos dados de treinamento ( overfitting ).

A decomposição de polarização-variância é uma maneira de analisar o erro de generalização esperado de um algoritmo de aprendizagem com relação a um problema específico como uma soma de três termos, a polarização, a variância e uma quantidade chamada de erro irredutível , resultante do ruído no próprio problema.

Motivação

A compensação de viés-variância é um problema central na aprendizagem supervisionada. O ideal é escolher um modelo que capture com precisão as regularidades em seus dados de treinamento, mas também generalize bem para dados invisíveis. Infelizmente, normalmente é impossível fazer as duas coisas simultaneamente. Os métodos de aprendizagem de alta variação podem representar bem seu conjunto de treinamento, mas correm o risco de se ajustar a dados de treinamento barulhentos ou não representativos. Em contraste, algoritmos com alta polarização normalmente produzem modelos mais simples que podem falhar em capturar regularidades importantes (ou seja, insuficiente) nos dados.

Freqüentemente, é uma falácia supor que modelos complexos devem ter alta variância; Os modelos de alta variância são "complexos" em certo sentido, mas o inverso não precisa ser verdadeiro. Além disso, é preciso ter cuidado ao definir a complexidade: em particular, o número de parâmetros usados ​​para descrever o modelo é uma medida pobre de complexidade. Isso é ilustrado por um exemplo adaptado de: O modelo tem apenas dois parâmetros ( ), mas pode interpolar qualquer número de pontos oscilando com uma frequência alta o suficiente, resultando em um viés alto e uma variância alta.

Intuitivamente, o viés é reduzido usando apenas informações locais, enquanto a variância só pode ser reduzida calculando a média de várias observações, o que inerentemente significa usar informações de uma região maior. Para um exemplo esclarecedor, consulte a seção sobre k-vizinhos mais próximos ou a figura à direita. Para equilibrar a quantidade de informação usada de observações vizinhas, um modelo pode ser suavizado por meio de regularização explícita , como redução .

Decomposição de polarização-variância do erro quadrático médio

Suponha que temos um conjunto de treinamento que consiste em um conjunto de pontos e valores reais associados a cada ponto . Assumimos que existe uma função com ruído , onde o ruído ,, tem média e variância zero .

Queremos encontrar uma função que se aproxime da melhor forma possível da verdadeira função , por meio de algum algoritmo de aprendizagem baseado em um conjunto de dados de treinamento (amostra) . Tornamos "o melhor possível" preciso medindo o erro quadrático médio entre e : queremos ser mínimos, tanto para como para pontos fora de nossa amostra . Claro, não podemos esperar fazer isso perfeitamente, uma vez que contêm ruído ; isso significa que devemos estar preparados para aceitar um erro irredutível em qualquer função que surgirem.

Encontrar um que generalize para pontos fora do conjunto de treinamento pode ser feito com qualquer um dos incontáveis ​​algoritmos usados ​​para o aprendizado supervisionado. Qualquer que seja a função que selecionarmos, podemos decompor seu erro esperado em uma amostra invisível da seguinte forma:

Onde

e

A expectativa varia sobre diferentes escolhas do conjunto de treinamento , todas amostradas a partir da mesma distribuição conjunta . Os três termos representam:

  • o quadrado da tendência do método de aprendizagem, que pode ser pensado como o erro causado pelas suposições simplificadoras embutidas no método. Por exemplo, ao aproximar uma função não linear usando um método de aprendizagem para modelos lineares , haverá erro nas estimativas devido a esta suposição;
  • a variação do método de aprendizagem, ou, intuitivamente, quanto o método de aprendizagem se moverá em torno de sua média;
  • o erro irredutível .

Como todos os três termos são não negativos, o erro irredutível forma um limite inferior no erro esperado em amostras não vistas.

Quanto mais complexo for o modelo , mais pontos de dados ele capturará e menor será o viés. No entanto, a complexidade fará com que o modelo "se mova" mais para capturar os pontos de dados e, portanto, sua variância será maior.

Derivação

A derivação da decomposição de polarização-variância para o erro quadrático procede da seguinte forma. Por conveniência de notação, que abreviar , e nós cair o índice de nossos operadores expectativa. Primeiro, lembre-se que, por definição, para qualquer variável aleatória , temos

Reorganizando, temos:

Uma vez que é determinista , ou seja, independente de ,

Assim, dado e (porque é ruído), implica

Além disso, desde

Assim, uma vez que e são independentes, podemos escrever

Finalmente, a função de perda MSE (ou log-verossimilhança negativa) é obtida tomando o valor esperado sobre :

Abordagens

A redução da dimensionalidade e a seleção de recursos podem diminuir a variância, simplificando os modelos. Da mesma forma, um conjunto de treinamento maior tende a diminuir a variância. Adicionar recursos (preditores) tende a diminuir o viés, às custas da introdução de variância adicional. Os algoritmos de aprendizagem normalmente têm alguns parâmetros ajustáveis ​​que controlam o viés e a variância; por exemplo,

  • Os modelos lineares e lineares generalizados podem ser regularizados para diminuir sua variância ao custo de aumentar seu viés.
  • Em redes neurais artificiais , a variância aumenta e o viés diminui à medida que o número de unidades ocultas aumenta, embora essa suposição clássica tenha sido objeto de debate recente. Como nos GLMs, a regularização é normalmente aplicada.
  • Em modelos de k- vizinho mais próximo , um valor alto de k leva a alta polarização e baixa variância (veja abaixo).
  • No aprendizado baseado em instâncias , a regularização pode ser alcançada variando a mistura de protótipos e exemplares.
  • Nas árvores de decisão , a profundidade da árvore determina a variação. As árvores de decisão são comumente podadas para controlar a variação.

Uma maneira de resolver o trade-off é usar modelos de mistura e aprendizado por conjunto . Por exemplo, o boosting combina muitos modelos "fracos" (tendência alta) em um conjunto que tem tendência mais baixa do que os modelos individuais, enquanto o bagging combina os alunos "fortes" de uma forma que reduz sua variância.

Métodos de validação de modelo , como validação cruzada (estatísticas), podem ser usados ​​para ajustar modelos de modo a otimizar a compensação.

k- vizinhos mais próximos

No caso da regressão de k- vizinhos mais próximos , quando a expectativa é assumida sobre a possível rotulagem de um conjunto de treinamento fixo, existe uma expressão de forma fechada que relaciona a decomposição de viés-variância ao parâmetro k :

onde estão os k vizinhos mais próximos de x no conjunto de treinamento. A tendência (primeiro termo) é uma função ascendente monótona de k , enquanto a variância (segundo termo) diminui à medida que k aumenta. Na verdade, sob "suposições razoáveis", o viés do estimador do primeiro vizinho mais próximo (1-NN) desaparece totalmente à medida que o tamanho do conjunto de treinamento se aproxima do infinito.

Formulários

Em regressão

A decomposição de polarização-variância forma a base conceitual para métodos de regularização de regressão , como Lasso e regressão de crista . Os métodos de regularização introduzem viés na solução de regressão que pode reduzir a variância consideravelmente em relação à solução de mínimos quadrados ordinários (OLS) . Embora a solução OLS forneça estimativas de regressão não tendenciosas, as soluções de menor variância produzidas por técnicas de regularização fornecem desempenho MSE superior.

Na classificação

A decomposição de viés-variância foi originalmente formulada para regressão de mínimos quadrados. Para o caso de classificação na perda 0-1 (taxa de classificação incorreta), é possível encontrar uma decomposição semelhante. Alternativamente, se o problema de classificação pode ser formulado como classificação probabilística , então o erro quadrático esperado das probabilidades previstas com respeito às probabilidades verdadeiras pode ser decomposto como antes.

Na aprendizagem por reforço

Mesmo que a decomposição de viés-variância não se aplique diretamente na aprendizagem por reforço , uma compensação semelhante também pode caracterizar a generalização. Quando um agente tem informações limitadas sobre seu ambiente, a subotimalidade de um algoritmo RL pode ser decomposta na soma de dois termos: um termo relacionado a um viés assintótico e um termo devido ao sobreajuste. O viés assintótico está diretamente relacionado ao algoritmo de aprendizagem (independentemente da quantidade de dados), enquanto o termo overfitting vem do fato de que a quantidade de dados é limitada.

Na aprendizagem humana

Embora amplamente discutido no contexto do aprendizado de máquina, o dilema de polarização-variância foi examinado no contexto da cognição humana , mais notavelmente por Gerd Gigerenzer e colegas de trabalho no contexto das heurísticas aprendidas. Eles argumentaram (ver referências abaixo) que o cérebro humano resolve o dilema no caso dos conjuntos de treinamento tipicamente esparsos e mal caracterizados fornecidos pela experiência ao adotar heurísticas de alta polarização / baixa variância. Isso reflete o fato de que uma abordagem de polarização zero tem pouca generalização para novas situações e também pressupõe, de forma irracional, o conhecimento preciso do verdadeiro estado do mundo. As heurísticas resultantes são relativamente simples, mas produzem melhores inferências em uma ampla variedade de situações.

Geman et al. argumentam que o dilema de polarização-variância implica que habilidades como o reconhecimento de objetos genéricos não podem ser aprendidas do zero, mas requerem um certo grau de “fiação” que é posteriormente ajustada pela experiência. Isso ocorre porque as abordagens livres de modelo para inferência requerem conjuntos de treinamento impraticávelmente grandes para evitar alta variância.

Veja também

Referências