Particionamento recursivo - Recursive partitioning

O particionamento recursivo é um método estatístico para análise multivariável . O particionamento recursivo cria uma árvore de decisão que se esforça para classificar corretamente os membros da população, dividindo-os em subpopulações com base em várias variáveis ​​independentes dicotômicas . O processo é denominado recursivo porque cada subpopulação pode, por sua vez, ser dividida um número indefinido de vezes até que o processo de divisão termine após um determinado critério de parada ser atingido.

Uma árvore de partição recursiva que mostra a sobrevivência dos passageiros no Titanic ("sibsp" é o número de cônjuges ou irmãos a bordo). As figuras sob as folhas mostram a probabilidade de sobrevivência e a porcentagem de observações na folha. Resumindo: Suas chances de sobrevivência eram boas se você fosse (i) uma mulher ou (ii) um menino sem vários membros da família.

Métodos de particionamento recursivo foram desenvolvidos desde a década de 1980. Métodos bem conhecidos de particionamento recursivo incluem o algoritmo ID3 de Ross Quinlan e seus sucessores, C4.5 e C5.0 e Árvores de Classificação e Regressão . Métodos de aprendizagem ensemble como Random Forests ajudam a superar uma crítica comum a esses métodos - sua vulnerabilidade ao sobreajuste dos dados - empregando diferentes algoritmos e combinando sua saída de alguma forma.

Este artigo se concentra no particionamento recursivo para testes de diagnóstico médico , mas a técnica tem aplicações muito mais amplas. Veja a árvore de decisão .

Em comparação com a análise de regressão, que cria uma fórmula que os profissionais de saúde podem usar para calcular a probabilidade de um paciente ter uma doença, a partição recursiva cria uma regra como 'Se um paciente encontrou x, y ou z provavelmente tem doença q '.

Uma variação é o 'particionamento recursivo linear de Cox'.

Vantagens e desvantagens

Comparado a outros métodos multivariáveis, o particionamento recursivo tem vantagens e desvantagens.

  • As vantagens são:
    • Gera modelos clinicamente mais intuitivos que não exigem que o usuário execute cálculos.
    • Permite priorizar variáveis ​​de classificações erradas, a fim de criar uma regra de decisão que tenha mais sensibilidade ou especificidade .
    • Pode ser mais preciso.
  • As desvantagens são:
    • Não funciona bem para variáveis ​​contínuas
    • Pode super ajustar os dados.

Exemplos

Estão disponíveis exemplos do uso de particionamento recursivo na pesquisa de testes de diagnóstico. Goldman usou o particionamento recursivo para priorizar a sensibilidade no diagnóstico de infarto do miocárdio em pacientes com dor torácica na sala de emergência.

Veja também

Referências