Validação cruzada (estatísticas) - Cross-validation (statistics)

Comparando a precisão da validação cruzada e a porcentagem de falso negativo (superestimação) de cinco modelos de classificação. O tamanho das bolhas representa o desvio padrão da precisão da validação cruzada (dez vezes).
Diagrama de validação cruzada k-fold.

A validação cruzada , às vezes chamada de estimativa de rotação ou teste fora da amostra , é qualquer uma das várias técnicas de validação de modelo semelhantes para avaliar como os resultados de uma análise estatística se generalizarão para um conjunto de dados independente. A validação cruzada é um método de reamostragem . É usado principalmente em configurações onde o objetivo é a previsão e se deseja estimar a precisão com que um modelo preditivo será executado na prática. Em um problema de predição, um modelo geralmente recebe um conjunto de dados conhecidos no qual o treinamento é executado ( conjunto de dados de treinamento ) e um conjunto de dados desconhecidos (ou dados vistos pela primeira vez ) contra o qual o modelo é testado (chamado de conjunto de dados de validação ou teste conjunto ). O objetivo da validação cruzada é testar a capacidade do modelo de prever novos dados que não foram usados ​​na estimativa, a fim de sinalizar problemas como overfitting ou viés de seleção e dar uma visão sobre como o modelo irá generalizar para um conjunto de dados independente ( ou seja, um conjunto de dados desconhecido, por exemplo, de um problema real).

Uma rodada de validação cruzada envolve o particionamento de uma amostra de dados em subconjuntos complementares , realizando a análise em um subconjunto (denominado conjunto de treinamento ) e validando a análise no outro subconjunto (denominado conjunto de validação ou conjunto de teste ). Para reduzir a variabilidade , na maioria dos métodos, várias rodadas de validação cruzada são realizadas usando diferentes partições, e os resultados da validação são combinados (por exemplo, média) ao longo das rodadas para dar uma estimativa do desempenho preditivo do modelo.

Em resumo, a validação cruzada combina (médias) medidas de adequação na predição para derivar uma estimativa mais precisa do desempenho de predição do modelo.

Motivação

Suponha que temos um modelo com um ou mais parâmetros desconhecidos e um conjunto de dados ao qual o modelo pode ser ajustado (o conjunto de dados de treinamento). O processo de ajuste otimiza os parâmetros do modelo para fazer com que o modelo se ajuste aos dados de treinamento da melhor forma possível. Se, então, pegarmos uma amostra independente de dados de validação da mesma população de onde os dados de treinamento foram coletados, geralmente resultará que o modelo não se ajusta aos dados de validação tão bem quanto se ajusta aos dados de treinamento. O tamanho dessa diferença provavelmente será grande, especialmente quando o tamanho do conjunto de dados de treinamento for pequeno ou quando o número de parâmetros no modelo for grande. A validação cruzada é uma forma de estimar o tamanho desse efeito.

Na regressão linear, temos valores de resposta reais y 1 , ..., y n e n p- covariáveis vetoriais dimensionais x 1 , ..., x n . Os componentes do vetor x i são denotados x i 1 , ..., x ip . Se usarmos os mínimos quadrados para ajustar uma função na forma de um hiperplano ŷ = a + β T x aos dados ( x i , y i )  1 ≤  i  ≤  n , poderíamos então avaliar o ajuste usando o erro quadrático médio ( MSE). O MSE para determinados valores de parâmetros estimados a e β no conjunto de treinamento ( x i , y i )  1 ≤  i  ≤  n é definido como

Se o modelo for especificado corretamente, pode ser mostrado sob suposições leves que o valor esperado do MSE para o conjunto de treinamento é ( n  -  p  - 1) / ( n  +  p  + 1) <1 vezes o valor esperado do MSE para o conjunto de validação (o valor esperado é assumido pela distribuição dos conjuntos de treinamento). Portanto, se ajustarmos o modelo e calcularmos o MSE no conjunto de treinamento, obteremos uma avaliação enviesada de forma otimista de quão bem o modelo se ajustará a um conjunto de dados independente. Essa estimativa enviesada é chamada de estimativa dentro da amostra do ajuste, enquanto a estimativa de validação cruzada é uma estimativa fora da amostra .

Uma vez que na regressão linear é possível calcular diretamente o fator ( n  -  p  - 1) / ( n  +  p  + 1) pelo qual o MSE de treinamento subestima o MSE de validação sob a suposição de que a especificação do modelo é válida, a validação cruzada pode ser usado para verificar se o modelo foi superaquecido , caso em que o MSE no conjunto de validação excederá substancialmente seu valor antecipado. (A validação cruzada no contexto da regressão linear também é útil porque pode ser usada para selecionar uma função de custo regularizada de forma otimizada .) Na maioria dos outros procedimentos de regressão (por exemplo, regressão logística ), não há uma fórmula simples para calcular o resultado esperado. ajuste da amostra. A validação cruzada é, portanto, uma forma geralmente aplicável de prever o desempenho de um modelo em dados indisponíveis usando computação numérica no lugar da análise teórica.

Tipos

Dois tipos de validação cruzada podem ser distinguidos: validação cruzada exaustiva e não exaustiva.

Validação cruzada exaustiva

Métodos exaustivos de validação cruzada são métodos de validação cruzada que aprendem e testam todas as maneiras possíveis de dividir a amostra original em um conjunto de treinamento e de validação.

Validação cruzada de deixar de fora

Deixar- p out a validação cruzada ( LPO CV ) envolve a utilização de p observações como o conjunto de validação e as restantes observações como o conjunto de treino. Isso é repetido em todas as maneiras de cortar a amostra original em um conjunto de validação de observações p e um conjunto de treinamento.

A validação cruzada de LpO requer treinamento e validação dos tempos do modelo , onde n é o número de observações na amostra original e onde é o coeficiente binomial . Para p > 1 e até mesmo para n moderadamente grande , LpO CV pode se tornar inviável computacionalmente. Por exemplo, com n = 100 e p = 30,

Uma variante da validação cruzada LpO com p = 2 conhecida como validação cruzada leave-pair-out foi recomendada como um método quase imparcial para estimar a área sob a curva ROC de classificadores binários.

Validação cruzada de deixar um de fora

Ilustração de validação cruzada leave-one-out (LOOCV) quando n = 8 observações. Um total de 8 modelos serão treinados e testados.

A validação cruzada leave - one- out ( LOOCV ) é um caso particular de validação cruzada leave- p- out com p  = 1. O processo é semelhante ao jackknife ; no entanto, com a validação cruzada calcula-se uma estatística na (s) amostra (s) deixada (s), enquanto com o jackknifing calcula-se uma estatística apenas das amostras mantidas.

A validação cruzada LOO requer menos tempo de computação do que a validação cruzada LpO porque há apenas passagens em vez de . No entanto, os passes ainda podem exigir um tempo de computação bastante grande, caso em que outras abordagens, como validação cruzada k-fold, podem ser mais apropriadas.

Algoritmo do Pseudo-Código:

Entrada:

x, {vetor de comprimento N com valores x de pontos de entrada}

y, {vetor de comprimento N com valores y do resultado esperado}

interpolar (x_in, y_in, x_out), {retorna a estimativa para o ponto x_out após o modelo ser treinado com pares x_in-y_in}

Saída:

err, {estimativa do erro de previsão}

Passos:

 err ← 0
 for i ← 1, ..., N do
   // define the cross-validation subsets
   x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N])
   y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N])
   x_out ← x[i]
   y_out ← interpolate(x_in, y_in, x_out)
   err ← err + (y[i] − y_out)^2
 end for
 err ← err/N

Validação cruzada não exaustiva

Os métodos de validação cruzada não exaustivos não calculam todas as maneiras de dividir a amostra original. Esses métodos são aproximações de validação cruzada leave- p- out.

validação cruzada k -fold

Ilustração da validação cruzada k-fold quando n = 12 observações ek = 3. Depois que os dados são embaralhados, um total de 3 modelos serão treinados e testados.

Na validação cruzada k -fold, a amostra original é particionada aleatoriamente em k subamostras de tamanhos iguais. Das k subamostras, uma única subamostra é retida como dados de validação para testar o modelo e as k  - 1 subamostras restantes são usadas como dados de treinamento. O processo de validação cruzada é então repetido k vezes, com cada uma das k subamostras usada exatamente uma vez como dados de validação. Os k resultados podem então ser calculados para produzir uma única estimativa. A vantagem deste método sobre a subamostragem aleatória repetida (veja abaixo) é que todas as observações são usadas para treinamento e validação, e cada observação é usada para validação exatamente uma vez. A validação cruzada de 10 vezes é comumente usada, mas em geral k permanece um parâmetro não corrigido.

Por exemplo, definir k  =  2 resulta em validação cruzada de 2 vezes. Em duas vezes de validação cruzada, que o conjunto de dados ordenadas aleatoriamente em dois conjuntos de d 0 e d 1 , de modo que ambos os conjuntos são iguais tamanho (isto é, normalmente implementado por baralhar a matriz de dados e, em seguida, dividindo-a em dois). Em seguida, treinamos em d 0 e validamos em d 1 , seguido pelo treinamento em d 1 e validação em  d 0 .

Quando k  =  n (o número de observações), a validação cruzada k -fold é equivalente à validação cruzada leave-one-out.

Na validação cruzada de k -fold estratificada , as partições são selecionadas de modo que o valor médio da resposta seja aproximadamente igual em todas as partições. No caso da classificação binária, isso significa que cada partição contém aproximadamente as mesmas proporções dos dois tipos de rótulos de classe.

Na validação cruzada repetida , os dados são divididos aleatoriamente em k partições várias vezes. O desempenho do modelo pode, assim, ser calculado em várias execuções, mas isso raramente é desejável na prática.

Método de Holdout

No método de validação, nós, os pontos de dados aleatoriamente atribuir a dois conjuntos de d 0 e d 1 , geralmente chamado o conjunto de treinamento e conjunto de teste, respectivamente. O tamanho de cada um dos conjuntos é arbitrário, embora normalmente o conjunto de teste seja menor do que o conjunto de treinamento. Em seguida, treinamos (construímos um modelo) em d 0 e testamos (avaliamos seu desempenho) em d 1 .

Na validação cruzada típica, os resultados de várias execuções de teste de modelo são calculados juntos; em contraste, o método de validação, isoladamente, envolve uma única execução. Deve ser usado com cautela porque sem essa média de várias execuções, pode-se obter resultados altamente enganosos. O indicador de precisão preditiva ( F * ) de alguém tende a ser instável, uma vez que não será suavizado por várias iterações (veja abaixo). Da mesma forma, os indicadores do papel específico desempenhado por várias variáveis ​​preditoras (por exemplo, valores dos coeficientes de regressão) tenderão a ser instáveis.

Embora o método de validação possa ser enquadrado como "o tipo mais simples de validação cruzada", muitas fontes classificam a validação como um tipo de validação simples, em vez de uma forma simples ou degenerada de validação cruzada.

Validação de subamostragem aleatória repetida

Este método, também conhecido como validação cruzada de Monte Carlo , cria várias divisões aleatórias do conjunto de dados em dados de treinamento e validação. Para cada divisão, o modelo é adequado aos dados de treinamento e a precisão preditiva é avaliada usando os dados de validação. Os resultados são então calculados em média sobre as divisões. A vantagem deste método (em relação à validação cruzada de k -fold) é que a proporção da divisão de treinamento / validação não depende do número de iterações (ou seja, o número de partições). A desvantagem desse método é que algumas observações podem nunca ser selecionadas na subamostra de validação, enquanto outras podem ser selecionadas mais de uma vez. Em outras palavras, os subconjuntos de validação podem se sobrepor. Este método também exibe variação de Monte Carlo , o que significa que os resultados irão variar se a análise for repetida com diferentes divisões aleatórias.

À medida que o número de divisões aleatórias se aproxima do infinito, o resultado da validação de subamostragem aleatória repetida tende ao de validação cruzada leave-p-out.

Em uma variante estratificada dessa abordagem, as amostras aleatórias são geradas de forma que o valor médio da resposta (ou seja, a variável dependente na regressão) seja igual nos conjuntos de treinamento e teste. Isso é particularmente útil se as respostas forem dicotômicas com uma representação desequilibrada dos dois valores de resposta nos dados.

Um método que aplica subamostragem aleatória repetida é o RANSAC .

Validação cruzada aninhada

Quando a validação cruzada é usada simultaneamente para seleção do melhor conjunto de hiperparâmetros e para estimativa de erro (e avaliação da capacidade de generalização), uma validação cruzada aninhada é necessária. Existem muitas variantes. Pelo menos duas variantes podem ser distinguidas:

validação cruzada k * l-fold

Esta é uma variante verdadeiramente aninhada (por exemplo, usada por cross_val_scoreno scikit-learn ), que contém um loop externo de k conjuntos e um loop interno de l conjuntos. O conjunto total de dados é dividido em k conjuntos. Um por um, um conjunto é selecionado como o conjunto de teste (externo) e os  outros k - 1 conjuntos são combinados no conjunto de treinamento externo correspondente. Isso é repetido para cada um dos k conjuntos. Cada conjunto de treinamento externo é subdividido em l conjuntos. Um por um, um conjunto de teste é seleccionado como (validação) conjunto interior e o l  - 1 outros conjuntos são combinadas no conjunto de treino correspondente interior. Isso é repetido para cada um dos l conjuntos. Os conjuntos de treinamento interno são usados ​​para ajustar os parâmetros do modelo, enquanto o conjunto de teste externo é usado como um conjunto de validação para fornecer uma avaliação imparcial do ajuste do modelo. Normalmente, isso é repetido para muitos hiperparâmetros diferentes (ou até mesmo tipos de modelo diferentes) e o conjunto de validação é usado para determinar o melhor conjunto de hiperparâmetros (e tipo de modelo) para este conjunto de treinamento interno. Depois disso, um novo modelo é ajustado em todo o conjunto de treinamento externo, usando o melhor conjunto de hiperparâmetros da validação cruzada interna. O desempenho deste modelo é então avaliado usando o conjunto de teste externo.

validação cruzada k-fold com validação e conjunto de teste

Este é um tipo de validação cruzada k * l-fold quando l  =  k  - 1. Uma única validação cruzada k-fold é usada com um conjunto de validação e teste . O conjunto total de dados é dividido em k conjuntos. Um por um, um conjunto é selecionado como conjunto de teste. Então, um por um, um dos conjuntos restantes é usado como um conjunto de validação e os outros k  - 2 conjuntos são usados ​​como conjuntos de treinamento até que todas as combinações possíveis tenham sido avaliadas. Semelhante à validação cruzada k * l-fold, o conjunto de treinamento é usado para ajuste de modelo e o conjunto de validação é usado para avaliação de modelo para cada um dos conjuntos de hiperparâmetros. Finalmente, para o conjunto de parâmetros selecionado, o conjunto de teste é usado para avaliar o modelo com o melhor conjunto de parâmetros. Aqui, duas variantes são possíveis: avaliar o modelo que foi treinado no conjunto de treinamento ou avaliar um novo modelo que foi ajustado na combinação do trem e do conjunto de validação.

Medidas de ajuste

O objetivo da validação cruzada é estimar o nível esperado de ajuste de um modelo para um conjunto de dados que é independente dos dados que foram usados ​​para treinar o modelo. Ele pode ser usado para estimar qualquer medida quantitativa de ajuste apropriada para os dados e o modelo. Por exemplo, para problemas de classificação binária , cada caso no conjunto de validação é previsto corretamente ou incorretamente. Nessa situação, a taxa de erro de classificação incorreta pode ser usada para resumir o ajuste, embora outras medidas, como valor preditivo positivo, também possam ser usadas. Quando o valor previsto é continuamente distribuído, o erro quadrático médio , a raiz do erro quadrático médio ou o desvio absoluto mediano podem ser usados ​​para resumir os erros.

Usando informações prévias

Quando os usuários aplicam a validação cruzada para selecionar uma boa configuração , eles podem querer equilibrar a escolha da validação cruzada com sua própria estimativa da configuração. Dessa forma, eles podem tentar conter a volatilidade da validação cruzada quando o tamanho da amostra é pequeno e incluir informações relevantes de pesquisas anteriores. Em um exercício de combinação de previsão, por exemplo, a validação cruzada pode ser aplicada para estimar os pesos atribuídos a cada previsão. Uma vez que uma previsão simples com pesos iguais é difícil de superar, uma penalidade pode ser adicionada para desviar de pesos iguais. Ou, se a validação cruzada for aplicada para atribuir pesos individuais às observações, então pode-se penalizar desvios de pesos iguais para evitar o desperdício de informações potencialmente relevantes. Hoornweg (2018) mostra como um parâmetro de ajuste pode ser definido de modo que um usuário possa equilibrar intuitivamente entre a precisão da validação cruzada e a simplicidade de seguir um parâmetro de referência que é definido pelo usuário.

Se denota a configuração candidata que pode ser selecionada, a função de perda que deve ser minimizada pode ser definida como

A precisão relativa pode ser quantificada como , de modo que o erro quadrático médio de um candidato seja feito em relação ao especificado pelo usuário . O termo de simplicidade relativa mede o valor que se desvia em relação ao valor máximo de desvio . Consequentemente, a simplicidade relativa pode ser especificada como , onde corresponde ao valor com o maior desvio permitido de . Com , o usuário determina o quão alta é a influência do parâmetro de referência em relação à validação cruzada.

Pode-se adicionar termos de simplicidade relativa para várias configurações , especificando a função de perda como

Hoornweg (2018) mostra que uma função de perda com tal troca de precisão-simplicidade também pode ser usada para definir intuitivamente estimadores de encolhimento como o laço (adaptativo) e regressão Bayesiana / crista . Clique no laço para ver um exemplo.

Propriedades estatísticas

Suponha que escolhemos uma medida de ajuste F e usamos validação cruzada para produzir uma estimativa F * do ajuste EF esperado de um modelo para um conjunto de dados independente retirado da mesma população que os dados de treinamento. Se imaginarmos a amostragem de vários conjuntos de treinamento independentes seguindo a mesma distribuição, os valores resultantes para F * irão variar. As propriedades estatísticas de F * resultam dessa variação.

O estimador de validação cruzada F * é quase imparcial para EF . A razão de ser ligeiramente tendencioso é que o conjunto de treinamento na validação cruzada é ligeiramente menor do que o conjunto de dados real (por exemplo, para LOOCV, o tamanho do conjunto de treinamento é n  - 1 quando há n casos observados). Em quase todas as situações, o efeito desse viés será conservador, pois o ajuste estimado será ligeiramente tendencioso na direção que sugere um ajuste mais pobre. Na prática, esse viés raramente é uma preocupação.

A variação de F * pode ser grande. Por esse motivo, se dois procedimentos estatísticos forem comparados com base nos resultados da validação cruzada, o procedimento com o melhor desempenho estimado pode não ser realmente o melhor dos dois procedimentos (ou seja, pode não ter o melhor valor de FE ). Algum progresso foi feito na construção de intervalos de confiança em torno de estimativas de validação cruzada, mas isso é considerado um problema difícil.

Questões computacionais

A maioria das formas de validação cruzada são simples de implementar, desde que uma implementação do método de predição em estudo esteja disponível. Em particular, o método de predição pode ser uma "caixa preta" - não há necessidade de ter acesso às partes internas de sua implementação. Se o método de predição for caro para treinar, a validação cruzada pode ser muito lenta, pois o treinamento deve ser realizado repetidamente. Em alguns casos, como mínimos quadrados e regressão de kernel , a validação cruzada pode ser acelerada significativamente, pré-computando certos valores que são necessários repetidamente no treinamento ou usando "regras de atualização" rápidas, como a fórmula de Sherman-Morrison . No entanto, deve-se ter o cuidado de preservar o "cegamento total" do conjunto de validação do procedimento de treinamento, caso contrário, pode ocorrer viés. Um exemplo extremo de validação cruzada acelerada ocorre na regressão linear , onde os resultados da validação cruzada têm uma expressão de forma fechada conhecida como soma dos quadrados do erro residual de predição ( PRESS ).

Limitações e uso indevido

A validação cruzada só produz resultados significativos se o conjunto de validação e o conjunto de treinamento forem retirados da mesma população e somente se as tendências humanas forem controladas.

Em muitas aplicações de modelagem preditiva, a estrutura do sistema que está sendo estudado evolui ao longo do tempo (ou seja, é "não estacionário"). Ambos podem introduzir diferenças sistemáticas entre os conjuntos de treinamento e validação. Por exemplo, se um modelo para prever valores de estoque for treinado em dados para um determinado período de cinco anos, não é realista tratar o período de cinco anos subsequente como um empate da mesma população. Como outro exemplo, suponha que um modelo seja desenvolvido para prever o risco de um indivíduo ser diagnosticado com uma doença específica no próximo ano. Se o modelo for treinado usando dados de um estudo envolvendo apenas um grupo específico da população (por exemplo, jovens ou homens), mas for aplicado à população em geral, os resultados da validação cruzada do conjunto de treinamento podem diferir muito do desempenho preditivo real .

Em muitas aplicações, os modelos também podem ser especificados incorretamente e variar em função das tendências do modelador e / ou escolhas arbitrárias. Quando isso ocorre, pode haver uma ilusão de que o sistema muda nas amostras externas, enquanto a razão é que o modelo perdeu um preditor crítico e / ou incluiu um preditor confuso. A nova evidência é que a validação cruzada por si só não é muito preditiva de validade externa, enquanto uma forma de validação experimental conhecida como amostragem de troca que controla o viés humano pode ser muito mais preditiva de validade externa. Conforme definido por este grande estudo MAQC-II em 30.000 modelos, a amostragem de troca incorpora validação cruzada no sentido de que as previsões são testadas em amostras independentes de treinamento e validação. No entanto, os modelos também são desenvolvidos por meio dessas amostras independentes e por modeladores que estão cegos uns para os outros. Quando há uma incompatibilidade nesses modelos desenvolvidos entre essas amostras trocadas de treinamento e validação, como acontece com bastante frequência, o MAQC-II mostra que isso será muito mais preditivo de validade preditiva externa pobre do que a validação cruzada tradicional.

A razão para o sucesso da amostragem trocada é um controle integrado para vieses humanos na construção de modelos. Além de colocar muita fé nas previsões que podem variar entre os modeladores e levar a uma validade externa deficiente devido a esses efeitos confusos do modelador, essas são algumas outras maneiras pelas quais a validação cruzada pode ser mal utilizada:

  • Ao realizar uma análise inicial para identificar os recursos mais informativos usando todo o conjunto de dados - se a seleção de recursos ou o ajuste do modelo for necessário para o procedimento de modelagem, isso deve ser repetido em cada conjunto de treinamento. Caso contrário, as previsões certamente serão tendenciosas para cima. Se a validação cruzada for usada para decidir quais recursos usar, uma validação cruzada interna para realizar a seleção de recursos em cada conjunto de treinamento deve ser realizada.
  • Ao permitir que alguns dos dados de treinamento também sejam incluídos no conjunto de teste - isso pode acontecer devido à "geminação" no conjunto de dados, em que algumas amostras exatamente idênticas ou quase idênticas estão presentes no conjunto de dados. Até certo ponto, a geminação sempre ocorre mesmo em amostras de treinamento e validação perfeitamente independentes. Isso ocorre porque algumas das observações de amostra de treinamento terão valores quase idênticos de preditores como observações de amostra de validação. E alguns deles se correlacionarão com uma meta em níveis melhores do que aleatórios na mesma direção tanto no treinamento quanto na validação, quando na verdade são conduzidos por preditores confusos com validade externa pobre. Se tal modelo com validação cruzada for selecionado a partir de um conjunto k -fold, o viés de confirmação humana estará em ação e determinará que tal modelo foi validado. É por isso que a validação cruzada tradicional precisa ser complementada com controles de polarização humana e especificação de modelo confuso, como amostragem de troca e estudos prospectivos.

Validação cruzada para modelos de série temporal

Como a ordem dos dados é importante, a validação cruzada pode ser problemática para modelos de série temporal . Uma abordagem mais apropriada pode ser usar a validação cruzada contínua.

No entanto, se o desempenho for descrito por uma única estatística resumida , é possível que a abordagem descrita por Politis e Romano como um bootstrap estacionário funcione. A estatística do bootstrap precisa aceitar um intervalo da série temporal e retornar a estatística de resumo sobre ele. A chamada para o bootstrap estacionário precisa especificar um comprimento de intervalo médio apropriado.

Formulários

A validação cruzada pode ser usada para comparar os desempenhos de diferentes procedimentos de modelagem preditiva. Por exemplo, suponha que estejamos interessados ​​em reconhecimento óptico de caracteres e estamos considerando usar a análise de componentes principais (PCA) ou k- vizinhos mais próximos (KNN) para prever o caractere verdadeiro a partir de uma imagem de um caractere escrito à mão. Usando a validação cruzada, podemos comparar objetivamente esses dois métodos em termos de suas respectivas frações de caracteres classificados incorretamente. Se simplesmente comparássemos os métodos com base em suas taxas de erro na amostra, um método provavelmente pareceria ter um desempenho melhor, uma vez que é mais flexível e, portanto, mais sujeito a sobreajuste em comparação com o outro método.

A validação cruzada também pode ser usada na seleção de variáveis . Suponha que estejamos usando os níveis de expressão de 20 proteínas para prever se um paciente com câncer responderá a um medicamento . Um objetivo prático seria determinar qual subconjunto dos 20 recursos deve ser usado para produzir o melhor modelo preditivo. Para a maioria dos procedimentos de modelagem, se compararmos subconjuntos de recursos usando as taxas de erro na amostra, o melhor desempenho ocorrerá quando todos os 20 recursos forem usados. No entanto, na validação cruzada, o modelo com o melhor ajuste geralmente incluirá apenas um subconjunto dos recursos que são considerados verdadeiramente informativos.

Um desenvolvimento recente nas estatísticas médicas é o seu uso em meta-análises. Ele forma a base da estatística de validação, Vn, que é usada para testar a validade estatística das estimativas de resumo da meta-análise. Também foi usado em um sentido mais convencional na meta-análise para estimar o provável erro de predição dos resultados da meta-análise.

Veja também

Notas e referências