Modelo discriminativo - Discriminative model

Modelos discriminativos , também chamados de modelos condicionais , são uma classe de modelos logísticos usados para classificação ou regressão. Eles distinguem os limites de decisão por meio de dados observados, como aprovação / reprovação, vitória / derrota, vivo / morto ou saudável / doente.

Os modelos discriminativos típicos incluem regressão logística (LR), campos aleatórios condicionais (CRFs) (especificados em um gráfico não direcionado), árvores de decisão e muitos outros. As abordagens de modelo generativo típicas incluem classificadores Bayes ingênuos , modelos de mistura gaussiana , autoencoders variacionais , redes adversárias geradoras e outros.

Definição

Ao contrário da modelagem generativa, que estuda a partir da probabilidade conjunta , a modelagem discriminativa estuda o ou mapeia direta a determinada variável não observada (alvo), um rótulo de classe dependia das variáveis observadas (amostras de treinamento). Por exemplo, no reconhecimento de objeto , é provável que seja um vetor de pixels brutos (ou recursos extraídos dos pixels brutos da imagem). Dentro de uma estrutura probabilística, isso é feito modelando a distribuição de probabilidade condicional , que pode ser usada para prever a partir de . Observe que ainda há distinção entre o modelo condicional e o modelo discriminativo, embora mais frequentemente eles sejam simplesmente categorizados como modelo discriminativo. ${\ displaystyle P (x, y)}$ ${\ displaystyle P (y | x)}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle x}$ ${\ displaystyle P (y | x)}$ ${\ displaystyle y}$ ${\ displaystyle x}$

Modelo discriminativo puro vs. modelo condicional

Um modelo condicional modela a distribuição de probabilidade condicional, enquanto o modelo discriminativo tradicional visa otimizar o mapeamento da entrada em torno das amostras treinadas mais semelhantes.

Abordagens típicas de modelagem discriminativa

A abordagem a seguir é baseada na suposição de que recebe o conjunto de dados de treinamento , onde é a saída correspondente para a entrada . ${\ displaystyle D = \ {(x_ {i}; y_ {i}) | i \ leq N \ in \ mathbb {Z} \}}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle x_ {i}}$

Classificador linear

Pretendemos usar a função para simular o comportamento do que observamos a partir do conjunto de dados de treinamento pelo método do classificador linear . Usando o vetor de característica da junta , a função de decisão é definida como: ${\ displaystyle f (x)}$ ${\ displaystyle \ phi (x, y)}$

{\ displaystyle f (x, w) = \ arg \ max _ {y} w ^ {T} \ phi (x, y)}

De acordo com a interpretação de Memisevic , que também é , calcula uma pontuação que mede a computabilidade da entrada com a saída potencial . Em seguida, o determina a classe com a maior pontuação. ${\ displaystyle w ^ {T} \ phi (x, y)}$ ${\ displaystyle c (x, y; w)}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle \ arg \ max}$

Regressão logística (LR)

Uma vez que a função de perda 0-1 é comumente usada na teoria de decisão, a distribuição de probabilidade condicional , onde é um vetor de parâmetro para otimizar os dados de treinamento, pode ser reconsiderada como segue para o modelo de regressão logística: ${\ displaystyle P (y | x; w)}$ ${\ displaystyle w}$

{\ displaystyle P (y | x; w) = {\ frac {1} {Z (x; w)}} \ exp (w ^ {T} \ phi (x, y))}

, com

{\ displaystyle Z (x; w) = \ textstyle \ sum _ {y} \ displaystyle \ exp (w ^ {T} \ phi (x, y))}

A equação acima representa a regressão logística . Observe que a principal distinção entre os modelos é sua maneira de introduzir probabilidade posterior. A probabilidade posterior é inferida do modelo paramétrico. Podemos então maximizar o parâmetro seguindo a equação:

{\ displaystyle L (w) = \ textstyle \ sum _ {i} \ displaystyle \ log p (y ^ {i} | x ^ {i}; w)}

Ele também pode ser substituído pela equação de perda logarítmica abaixo:

{\ displaystyle l ^ {\ log} (x ^ {i}, y ^ {i}, c (x ^ {i}; w)) = - \ log p (y ^ {i} | x ^ {i} ; w) = \ log Z (x ^ {i}; w) -w ^ {T} \ phi (x ^ {i}, y ^ {i})}

Uma vez que a perda de log é diferenciável, um método baseado em gradiente pode ser usado para otimizar o modelo. Um ótimo global é garantido porque a função objetivo é convexa. O gradiente de probabilidade de log é representado por:

{\ displaystyle {\ frac {\ partial L (w)} {\ partial w}} = \ textstyle \ sum _ {i} \ displaystyle \ phi (x ^ {i}, y ^ {i}) - E_ {p (y | x ^ {i}; w)} \ phi (x ^ {i}, y)}

de onde está a expectativa . ${\ displaystyle E_ {p (y | x ^ {i}; w)}}$ ${\ displaystyle p (y | x ^ {i}; w)}$

O método acima fornecerá um cálculo eficiente para o número relativamente pequeno de classificações.

Contraste com o modelo generativo

Contraste nas abordagens

Digamos que recebamos os rótulos de classe (classificação) e variáveis de recurso,, como os exemplos de treinamento. ${\ displaystyle m}$ ${\ displaystyle n}$ ${\ displaystyle Y: \ {y_ {1}, y_ {2}, \ ldots, y_ {m} \}, X: \ {x_ {1}, x_ {2}, \ ldots, x_ {n} \} }$

Um modelo generativo pega a probabilidade conjunta , onde é a entrada e é o rótulo, e prevê o rótulo conhecido mais possível para a variável desconhecida usando o teorema de Bayes . ${\ displaystyle P (x, y)}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle {\ widetilde {y}} \ em Y}$ ${\ displaystyle {\ widetilde {x}}}$

Os modelos discriminativos, ao contrário dos modelos generativos , não permitem gerar amostras a partir da distribuição conjunta das variáveis observadas e alvo. No entanto, para tarefas como classificação e regressão que não requerem a distribuição conjunta, os modelos discriminativos podem gerar desempenho superior (em parte porque têm menos variáveis para calcular). Por outro lado, os modelos generativos são normalmente mais flexíveis do que os modelos discriminativos na expressão de dependências em tarefas de aprendizagem complexas. Além disso, a maioria dos modelos discriminativos são inerentemente supervisionados e não podem suportar facilmente o aprendizado não supervisionado . Os detalhes específicos do aplicativo determinam, em última análise, a adequação da seleção de um modelo discriminativo versus generativo.

Modelos discriminativos e modelos generativos também diferem na introdução da possibilidade posterior . Para manter a perda mínima esperada, deve-se buscar a minimização da classificação incorreta do resultado. No modelo discriminativo, as probabilidades posteriores,, são inferidas a partir de um modelo paramétrico, onde os parâmetros vêm dos dados de treinamento. Os pontos de estimativa dos parâmetros são obtidos a partir da maximização da probabilidade ou cálculo da distribuição sobre os parâmetros. Por outro lado, considerando que os modelos gerativos focam na probabilidade conjunta, a possibilidade posterior da classe é considerada no teorema de Bayes , que é ${\ displaystyle P (y | x)}$ ${\ displaystyle P (k)}$

{\ displaystyle P (y | x) = {\ frac {p (x | y) p (y)} {\ textstyle \ sum _ {i} p (x | i) p (i) \ displaystyle}} = { \ frac {p (x | y) p (y)} {p (x)}}}

.

Vantagens e desvantagens na aplicação

Nos experimentos repetidos, regressão logística e Bayes ingênuo são aplicados aqui para diferentes modelos na tarefa de classificação binária, o aprendizado discriminativo resulta em erros assintóticos mais baixos, enquanto o generativo resulta em erros assintóticos mais altos mais rapidamente. No entanto, no trabalho conjunto de Ulusoy e Bishop, Comparação de Técnicas Generativas e Discriminativas para Detecção e Classificação de Objetos , eles afirmam que a afirmação acima é verdadeira apenas quando o modelo é apropriado para os dados (isto é, a distribuição dos dados é modelada corretamente pelo modelo generativo )

Vantagens

As vantagens significativas do uso de modelagem discriminativa são:

Maior precisão, o que geralmente leva a melhores resultados de aprendizagem.
Permite a simplificação da entrada e fornece uma abordagem direta para ${\ displaystyle P (y | x)}$
Salva recurso de cálculo
Gera erros assintóticos mais baixos

Comparado com as vantagens de usar modelagem generativa:

Leva todos os dados em consideração, o que pode resultar em processamento mais lento como uma desvantagem
Requer menos amostras de treinamento
Uma estrutura flexível que poderia facilmente cooperar com outras necessidades do aplicativo

Desvantagens

O método de treinamento geralmente requer várias técnicas de otimização numérica
Da mesma forma, pela definição, o modelo discriminativo precisará da combinação de várias subtarefas para resolver um problema complexo do mundo real

Otimizações em aplicativos

Visto que ambas as vantagens e desvantagens estão presentes nas duas formas de modelagem, combinar as duas abordagens será uma boa modelagem na prática. Por exemplo, no artigo de Marras, A Joint Discriminative Generative Model for Deformble Model Construction and Classification , ele e seus co-autores aplicam a combinação de duas modelagens na classificação de faces dos modelos e recebem uma precisão maior do que a abordagem tradicional.

Da mesma forma, Kelm também propôs a combinação de duas modelagens para classificação de pixels em seu artigo Combinando métodos generativos e discriminativos para classificação de pixels com aprendizado multicondicional .

Durante o processo de extração das características discriminativas antes do agrupamento, a análise de componentes principais (PCA), embora comumente usada, não é uma abordagem necessariamente discriminativa. Em contraste, o LDA é discriminativo. A análise discriminante linear (LDA) fornece uma maneira eficiente de eliminar a desvantagem listada acima. Como sabemos, o modelo discriminativo precisa de uma combinação de várias subtarefas antes da classificação, e o LDA fornece a solução apropriada para esse problema reduzindo a dimensão.

No artigo de Beyerlein , COMBINAÇÃO DO MODELO DISCRIMINATIVO , a combinação do modelo discriminativo fornece uma nova abordagem no reconhecimento automático de fala. Não ajuda apenas a otimizar a integração de vários tipos de modelos em uma distribuição de probabilidade posterior log-linear. A combinação também visa minimizar a taxa de erro de palavra empírica de amostras de treinamento.

No artigo, Um modelo unificado e discriminativo para refinamento de consulta, Guo e seus parceiros usam um modelo discriminativo unificado no refinamento de consulta usando classificador linear e obtêm com sucesso uma taxa de precisão muito maior. O experimento que eles projetam também considera o modelo generativo como uma comparação com o modelo unificado. Assim como esperado na aplicação do mundo real, o modelo generativo tem o pior desempenho em comparação com os outros modelos, incluindo os modelos sem sua melhoria.

Tipos

Exemplos de modelos discriminativos incluem:

Regressão logística , um tipo de regressão linear generalizada usada para prever saídas binárias ou categóricas (também conhecido como classificadores de entropia máxima )
Boosting (meta-algoritmo)
Campos aleatórios condicionais
Regressão linear
Florestas aleatórias

Veja também

Modelo gerativo

Languages

In other projects