Sobreajuste - Overfitting

Figura 1. A linha verde representa um modelo superaquecido e a linha preta representa um modelo regularizado. Embora a linha verde siga melhor os dados de treinamento, ela é muito dependente desses dados e é provável que tenha uma taxa de erro mais alta em novos dados não vistos, em comparação com a linha preta.
Figura 2. Dados ruidosos (aproximadamente lineares) são ajustados a uma função linear e uma função polinomial . Embora a função polinomial seja um ajuste perfeito, pode-se esperar que a função linear generalize melhor: se as duas funções forem usadas para extrapolar além dos dados ajustados, a função linear deve fazer melhores previsões.
Figura 3. A linha tracejada azul representa um modelo mal ajustado. Uma linha reta nunca pode caber em uma parábola. Este modelo é muito simples.

Em estatística, overfitting é "a produção de uma análise que corresponde muito próxima ou exatamente a um determinado conjunto de dados e pode, portanto, não ajustar dados adicionais ou prever observações futuras de forma confiável". Um modelo superaquecido é um modelo estatístico que contém mais parâmetros do que podem ser justificados pelos dados. A essência do overfitting é ter extraído, sem saber, parte da variação residual (ou seja, o ruído ), como se essa variação representasse a estrutura do modelo subjacente.

O underfitting ocorre quando um modelo estatístico não consegue capturar adequadamente a estrutura subjacente dos dados. Um modelo subajustado é um modelo em que faltam alguns parâmetros ou termos que apareceriam em um modelo especificado corretamente. O subajuste ocorreria, por exemplo, ao ajustar um modelo linear a dados não lineares. Esse modelo tenderá a ter um desempenho preditivo ruim.

A possibilidade de sobreajuste existe porque o critério usado para selecionar o modelo não é o mesmo que o critério usado para julgar a adequação de um modelo. Por exemplo, um modelo pode ser selecionado maximizando seu desempenho em algum conjunto de dados de treinamento e, ainda assim, sua adequação pode ser determinada por sua capacidade de um bom desempenho em dados invisíveis; então, o sobreajuste ocorre quando um modelo começa a "memorizar" dados de treinamento em vez de "aprender" a generalizar a partir de uma tendência.

Como um exemplo extremo, se o número de parâmetros for igual ou maior que o número de observações, um modelo pode prever perfeitamente os dados de treinamento simplesmente memorizando os dados em sua totalidade. (Para ver uma ilustração, consulte a Figura 2.) Esse modelo, no entanto, normalmente falhará gravemente ao fazer previsões.

O potencial de sobreajuste depende não apenas do número de parâmetros e dados, mas também da conformabilidade da estrutura do modelo com a forma dos dados e a magnitude do erro do modelo em comparação com o nível esperado de ruído ou erro nos dados. Mesmo quando o modelo ajustado não tem um número excessivo de parâmetros, é esperado que a relação ajustada pareça ter um desempenho menos bom em um novo conjunto de dados do que no conjunto de dados usado para o ajuste (um fenômeno às vezes conhecido como encolhimento ) . Em particular, o valor do coeficiente de determinação irá encolher em relação aos dados originais.

Para diminuir a chance ou quantidade de sobreajuste, várias técnicas estão disponíveis (por exemplo, comparação de modelos , validação cruzada , regularização , parada precoce , poda , priors Bayesianos ou abandono ). A base de algumas técnicas é (1) penalizar explicitamente modelos excessivamente complexos ou (2) testar a capacidade do modelo de generalizar, avaliando seu desempenho em um conjunto de dados não usado para treinamento, que se supõe aproximar os dados invisíveis típicos que um modelo encontrará.

Inferência estatística

Em estatística, uma inferência é extraída de um modelo estatístico , que foi selecionado por meio de algum procedimento. Burnham & Anderson, em seu muito citado texto sobre seleção de modelos, argumentam que, para evitar o sobreajuste, devemos aderir ao " Princípio da Parcimônia ". Os autores também afirmam o seguinte.

Modelos superdimensionados ... são frequentemente livres de viés nos estimadores de parâmetro, mas estimaram (e reais) as variâncias de amostragem que são desnecessariamente grandes (a precisão dos estimadores é pobre, em relação ao que poderia ter sido realizado com um modelo mais parcimonioso). Falsos efeitos de tratamento tendem a ser identificados, e falsas variáveis ​​são incluídas em modelos superaquecidos. … Um modelo de melhor aproximação é obtido equilibrando adequadamente os erros de ajuste insuficiente e ajuste excessivo.

O overfitting é mais provável de ser uma preocupação séria quando há pouca teoria disponível para orientar a análise, em parte porque então tende a haver um grande número de modelos para selecionar. O livro Model Selection and Model Averaging (2008) coloca dessa forma.

Dado um conjunto de dados, você pode ajustar milhares de modelos com o toque de um botão, mas como escolher o melhor? Com tantos modelos candidatos, overfitting é um perigo real. O macaco que digitou Hamlet é realmente um bom escritor?

Regressão

Na análise de regressão , o overfitting ocorre com frequência. Como um exemplo extremo, se houver p variáveis ​​em uma regressão linear com p pontos de dados, a linha ajustada pode passar exatamente por cada ponto. Para modelos de regressão logística ou riscos proporcionais de Cox , há uma variedade de regras básicas (por exemplo, 5–9, 10 e 10–15 - a diretriz de 10 observações por variável independente é conhecida como " regra de um em dez "). No processo de seleção do modelo de regressão, o erro quadrático médio da função de regressão aleatória pode ser dividido em ruído aleatório, viés de aproximação e variância na estimativa da função de regressão. A compensação de polarização-variância é freqüentemente usada para superar modelos de sobreajuste.

Com um grande conjunto de variáveis ​​explicativas que na verdade não têm relação com a variável dependente sendo prevista, algumas variáveis ​​em geral serão falsamente consideradas estatisticamente significativas e o pesquisador pode, assim, retê-las no modelo, superando o modelo. Isso é conhecido como o paradoxo de Freedman .

Aprendizado de máquina

Figura 4. Overfitting / overtraining na aprendizagem supervisionada (por exemplo, rede neural ). O erro de treinamento é mostrado em azul, o erro de validação em vermelho, ambos em função do número de ciclos de treinamento. Se o erro de validação aumenta (declive positivo) enquanto o erro de treinamento diminui continuamente (declive negativo), então pode ter ocorrido uma situação de sobreajuste. O melhor modelo preditivo e ajustado seria onde o erro de validação tem seu mínimo global.

Normalmente, um algoritmo de aprendizagem é treinado usando algum conjunto de "dados de treinamento": situações exemplares para as quais a saída desejada é conhecida. O objetivo é que o algoritmo também tenha um bom desempenho na previsão da saída quando alimentado com "dados de validação" que não foram encontrados durante seu treinamento.

Overfitting é o uso de modelos ou procedimentos que violam a navalha de Occam , por exemplo, incluindo parâmetros mais ajustáveis ​​do que o ideal, ou usando uma abordagem mais complicada do que o ideal. Para um exemplo onde há muitos parâmetros ajustáveis, considere um conjunto de dados onde os dados de treinamento para y podem ser adequadamente previstos por uma função linear de duas variáveis ​​independentes. Essa função requer apenas três parâmetros (a interceptação e duas inclinações). Substituir esta função simples por uma função quadrática nova e mais complexa, ou por uma função linear nova e mais complexa em mais de duas variáveis ​​independentes, traz um risco: a navalha de Occam implica que qualquer função complexa é a priori menos provável do que qualquer função simples função. Se a nova função mais complicada for selecionada em vez da função simples, e se não houver um ganho grande o suficiente no ajuste dos dados de treinamento para compensar o aumento da complexidade, então a nova função complexa "superajuste" os dados, e o complexo superajuste A função provavelmente terá um desempenho pior do que a função mais simples nos dados de validação fora do conjunto de dados de treinamento, embora a função complexa também tenha um desempenho, ou talvez até melhor, no conjunto de dados de treinamento.

Ao comparar diferentes tipos de modelos, a complexidade não pode ser medida apenas contando quantos parâmetros existem em cada modelo; a expressividade de cada parâmetro também deve ser considerada. Por exemplo, não é trivial comparar diretamente a complexidade de uma rede neural (que pode rastrear relações curvilíneas) com m parâmetros com um modelo de regressão com n parâmetros.

O sobreajuste é especialmente provável nos casos em que o aprendizado foi realizado por muito tempo ou onde os exemplos de treinamento são raros, fazendo com que o aluno se ajuste a características aleatórias muito específicas dos dados de treinamento que não têm relação causal com a função alvo . Neste processo de overfitting, o desempenho nos exemplos de treinamento ainda aumenta, enquanto o desempenho em dados não vistos piora.

Como um exemplo simples, considere um banco de dados de compras no varejo que inclui o item comprado, o comprador e a data e hora da compra. É fácil construir um modelo que se encaixará perfeitamente no conjunto de treinamento usando a data e a hora da compra para prever os outros atributos, mas esse modelo não generalizará para novos dados, porque esses tempos passados ​​nunca ocorrerão novamente.

Geralmente, diz-se que um algoritmo de aprendizagem superajuste em relação a um mais simples se for mais preciso no ajuste de dados conhecidos (retrospectiva), mas menos preciso na previsão de novos dados (previsão). Pode-se entender intuitivamente o superajuste pelo fato de que as informações de todas as experiências anteriores podem ser divididas em dois grupos: informações que são relevantes para o futuro e informações irrelevantes ("ruído"). Se todo o resto for igual, quanto mais difícil for um critério de prever (ou seja, quanto maior sua incerteza), mais ruído existe nas informações anteriores que precisam ser ignoradas. O problema é determinar qual parte ignorar. Um algoritmo de aprendizagem que pode reduzir a chance de ruído de encaixe é chamado de " robusto ".

Consequências

A consequência mais óbvia do overfitting é o baixo desempenho no conjunto de dados de validação. Outras consequências negativas incluem:

  • Uma função super ajustada provavelmente solicitará mais informações sobre cada item no conjunto de dados de validação do que a função ideal; coletar esses dados desnecessários adicionais pode ser caro ou sujeito a erros, especialmente se cada informação individual deve ser coletada por observação humana e entrada manual de dados.
  • Uma função mais complexa e superaquecida provavelmente será menos portátil do que uma simples. Em um extremo, uma regressão linear de uma variável é tão portátil que, se necessário, pode até ser feita manualmente. No outro extremo, estão os modelos que podem ser reproduzidos apenas pela duplicação exata de toda a configuração do modelador original, dificultando a reutilização ou a reprodução científica.

Remédio

A função ideal geralmente precisa de verificação em conjuntos de dados maiores ou completamente novos. Existem, no entanto, métodos como o spanning tree mínimo ou tempo de vida de correlação que aplica a dependência entre os coeficientes de correlação e as séries temporais (largura da janela). Sempre que a largura da janela é grande o suficiente, os coeficientes de correlação são estáveis ​​e não dependem mais do tamanho da largura da janela. Portanto, uma matriz de correlação pode ser criada calculando um coeficiente de correlação entre as variáveis ​​investigadas. Esta matriz pode ser representada topologicamente como uma rede complexa onde influências diretas e indiretas entre as variáveis ​​são visualizadas.

Underfitting

O subajuste ocorre quando um modelo estatístico ou algoritmo de aprendizado de máquina não consegue capturar adequadamente a estrutura subjacente dos dados. Ocorre quando o modelo ou algoritmo não se ajusta aos dados o suficiente. O subajuste ocorre se o modelo ou algoritmo mostra baixa variância, mas alto viés (para contrastar com o oposto, sobreajuste de alta variância e baixo viés). Muitas vezes é o resultado de um modelo excessivamente simples que não é capaz de processar a complexidade do problema (ver também erro de aproximação ). Isso resulta em um modelo que não é adequado para lidar com todos os sinais e, portanto, é forçado a considerar alguns sinais como ruído. Se, em vez disso, um modelo é capaz de lidar com o sinal, mas de qualquer forma leva uma parte dele também como ruído, ele também é considerado insuficiente. O último caso pode acontecer se a função de perda de um modelo incluir uma penalidade que é muito alta naquele caso específico.

Burnham & Anderson declaram o seguinte.

… Um modelo mal ajustado iria ignorar alguma estrutura replicável importante (isto é, replicável conceitualmente na maioria das outras amostras) nos dados e, portanto, não conseguiria identificar os efeitos que eram realmente suportados pelos dados. Nesse caso, o viés nos estimadores de parâmetro é frequentemente substancial e a variância da amostragem é subestimada, ambos os fatores resultando em cobertura pobre do intervalo de confiança. Modelos mal ajustados tendem a perder importantes efeitos de tratamento em ambientes experimentais.

Veja também

Notas

Referências

Leitura adicional

links externos