Modelo discriminativo - Discriminative model

Modelos discriminativos , também chamados de modelos condicionais , são uma classe de modelos logísticos usados ​​para classificação ou regressão. Eles distinguem os limites de decisão por meio de dados observados, como aprovação / reprovação, vitória / derrota, vivo / morto ou saudável / doente.

Os modelos discriminativos típicos incluem regressão logística (LR), campos aleatórios condicionais (CRFs) (especificados em um gráfico não direcionado), árvores de decisão e muitos outros. As abordagens de modelo generativo típicas incluem classificadores Bayes ingênuos , modelos de mistura gaussiana , autoencoders variacionais , redes adversárias geradoras e outros.

Definição

Ao contrário da modelagem generativa, que estuda a partir da probabilidade conjunta , a modelagem discriminativa estuda o ou mapeia direta a determinada variável não observada (alvo), um rótulo de classe dependia das variáveis ​​observadas (amostras de treinamento). Por exemplo, no reconhecimento de objeto , é provável que seja um vetor de pixels brutos (ou recursos extraídos dos pixels brutos da imagem). Dentro de uma estrutura probabilística, isso é feito modelando a distribuição de probabilidade condicional , que pode ser usada para prever a partir de . Observe que ainda há distinção entre o modelo condicional e o modelo discriminativo, embora mais frequentemente eles sejam simplesmente categorizados como modelo discriminativo.

Modelo discriminativo puro vs. modelo condicional

Um modelo condicional modela a distribuição de probabilidade condicional, enquanto o modelo discriminativo tradicional visa otimizar o mapeamento da entrada em torno das amostras treinadas mais semelhantes.

Abordagens típicas de modelagem discriminativa

A abordagem a seguir é baseada na suposição de que recebe o conjunto de dados de treinamento , onde é a saída correspondente para a entrada .

Classificador linear

Pretendemos usar a função para simular o comportamento do que observamos a partir do conjunto de dados de treinamento pelo método do classificador linear . Usando o vetor de característica da junta , a função de decisão é definida como:

De acordo com a interpretação de Memisevic , que também é , calcula uma pontuação que mede a computabilidade da entrada com a saída potencial . Em seguida, o determina a classe com a maior pontuação.

Regressão logística (LR)

Uma vez que a função de perda 0-1 é comumente usada na teoria de decisão, a distribuição de probabilidade condicional , onde é um vetor de parâmetro para otimizar os dados de treinamento, pode ser reconsiderada como segue para o modelo de regressão logística:

, com

A equação acima representa a regressão logística . Observe que a principal distinção entre os modelos é sua maneira de introduzir probabilidade posterior. A probabilidade posterior é inferida do modelo paramétrico. Podemos então maximizar o parâmetro seguindo a equação:

Ele também pode ser substituído pela equação de perda logarítmica abaixo:

Uma vez que a perda de log é diferenciável, um método baseado em gradiente pode ser usado para otimizar o modelo. Um ótimo global é garantido porque a função objetivo é convexa. O gradiente de probabilidade de log é representado por:

de onde está a expectativa .

O método acima fornecerá um cálculo eficiente para o número relativamente pequeno de classificações.

Contraste com o modelo generativo

Contraste nas abordagens

Digamos que recebamos os rótulos de classe (classificação) e variáveis ​​de recurso,, como os exemplos de treinamento.

Um modelo generativo pega a probabilidade conjunta , onde é a entrada e é o rótulo, e prevê o rótulo conhecido mais possível para a variável desconhecida usando o teorema de Bayes .

Os modelos discriminativos, ao contrário dos modelos generativos , não permitem gerar amostras a partir da distribuição conjunta das variáveis ​​observadas e alvo. No entanto, para tarefas como classificação e regressão que não requerem a distribuição conjunta, os modelos discriminativos podem gerar desempenho superior (em parte porque têm menos variáveis ​​para calcular). Por outro lado, os modelos generativos são normalmente mais flexíveis do que os modelos discriminativos na expressão de dependências em tarefas de aprendizagem complexas. Além disso, a maioria dos modelos discriminativos são inerentemente supervisionados e não podem suportar facilmente o aprendizado não supervisionado . Os detalhes específicos do aplicativo determinam, em última análise, a adequação da seleção de um modelo discriminativo versus generativo.

Modelos discriminativos e modelos generativos também diferem na introdução da possibilidade posterior . Para manter a perda mínima esperada, deve-se buscar a minimização da classificação incorreta do resultado. No modelo discriminativo, as probabilidades posteriores,, são inferidas a partir de um modelo paramétrico, onde os parâmetros vêm dos dados de treinamento. Os pontos de estimativa dos parâmetros são obtidos a partir da maximização da probabilidade ou cálculo da distribuição sobre os parâmetros. Por outro lado, considerando que os modelos gerativos focam na probabilidade conjunta, a possibilidade posterior da classe é considerada no teorema de Bayes , que é

.

Vantagens e desvantagens na aplicação

Nos experimentos repetidos, regressão logística e Bayes ingênuo são aplicados aqui para diferentes modelos na tarefa de classificação binária, o aprendizado discriminativo resulta em erros assintóticos mais baixos, enquanto o generativo resulta em erros assintóticos mais altos mais rapidamente. No entanto, no trabalho conjunto de Ulusoy e Bishop, Comparação de Técnicas Generativas e Discriminativas para Detecção e Classificação de Objetos , eles afirmam que a afirmação acima é verdadeira apenas quando o modelo é apropriado para os dados (isto é, a distribuição dos dados é modelada corretamente pelo modelo generativo )

Vantagens

As vantagens significativas do uso de modelagem discriminativa são:

  • Maior precisão, o que geralmente leva a melhores resultados de aprendizagem.
  • Permite a simplificação da entrada e fornece uma abordagem direta para
  • Salva recurso de cálculo
  • Gera erros assintóticos mais baixos

Comparado com as vantagens de usar modelagem generativa:

  • Leva todos os dados em consideração, o que pode resultar em processamento mais lento como uma desvantagem
  • Requer menos amostras de treinamento
  • Uma estrutura flexível que poderia facilmente cooperar com outras necessidades do aplicativo

Desvantagens

  • O método de treinamento geralmente requer várias técnicas de otimização numérica
  • Da mesma forma, pela definição, o modelo discriminativo precisará da combinação de várias subtarefas para resolver um problema complexo do mundo real

Otimizações em aplicativos

Visto que ambas as vantagens e desvantagens estão presentes nas duas formas de modelagem, combinar as duas abordagens será uma boa modelagem na prática. Por exemplo, no artigo de Marras, A Joint Discriminative Generative Model for Deformble Model Construction and Classification , ele e seus co-autores aplicam a combinação de duas modelagens na classificação de faces dos modelos e recebem uma precisão maior do que a abordagem tradicional.

Da mesma forma, Kelm também propôs a combinação de duas modelagens para classificação de pixels em seu artigo Combinando métodos generativos e discriminativos para classificação de pixels com aprendizado multicondicional .

Durante o processo de extração das características discriminativas antes do agrupamento, a análise de componentes principais (PCA), embora comumente usada, não é uma abordagem necessariamente discriminativa. Em contraste, o LDA é discriminativo. A análise discriminante linear (LDA) fornece uma maneira eficiente de eliminar a desvantagem listada acima. Como sabemos, o modelo discriminativo precisa de uma combinação de várias subtarefas antes da classificação, e o LDA fornece a solução apropriada para esse problema reduzindo a dimensão.

No artigo de Beyerlein , COMBINAÇÃO DO MODELO DISCRIMINATIVO , a combinação do modelo discriminativo fornece uma nova abordagem no reconhecimento automático de fala. Não ajuda apenas a otimizar a integração de vários tipos de modelos em uma distribuição de probabilidade posterior log-linear. A combinação também visa minimizar a taxa de erro de palavra empírica de amostras de treinamento.

No artigo, Um modelo unificado e discriminativo para refinamento de consulta, Guo e seus parceiros usam um modelo discriminativo unificado no refinamento de consulta usando classificador linear e obtêm com sucesso uma taxa de precisão muito maior. O experimento que eles projetam também considera o modelo generativo como uma comparação com o modelo unificado. Assim como esperado na aplicação do mundo real, o modelo generativo tem o pior desempenho em comparação com os outros modelos, incluindo os modelos sem sua melhoria.

Tipos

Exemplos de modelos discriminativos incluem:

Veja também

Referências