Previsão estruturada - Structured prediction

Predição estruturada ou aprendizado estruturado (saída) é um termo abrangente para técnicas de aprendizado de máquina supervisionado que envolve a previsão de objetos estruturados, em vez de valores escalares discretos ou reais .

Semelhante às técnicas de aprendizado supervisionado comumente usadas, os modelos de predição estruturados são normalmente treinados por meio de dados observados nos quais o valor de predição verdadeiro é usado para ajustar os parâmetros do modelo. Devido à complexidade do modelo e às inter-relações das variáveis preditas, o processo de predição usando um modelo treinado e de treinamento em si é frequentemente inviável computacionalmente e métodos de inferência e aprendizado aproximados são usados.

Formulários

Por exemplo, o problema de traduzir uma sentença de linguagem natural em uma representação sintática, como uma árvore de análise sintática, pode ser visto como um problema de previsão estruturado em que o domínio de saída estruturado é o conjunto de todas as árvores de análise sintática possíveis. A predição estruturada também é usada em uma ampla variedade de domínios de aplicação, incluindo bioinformática , processamento de linguagem natural , reconhecimento de fala e visão computacional .

Exemplo: marcação de sequência

A marcação de sequência é uma classe de problemas predominante no processamento de linguagem natural , onde os dados de entrada são frequentemente sequências (por exemplo, sentenças de texto). O problema de marcação de sequência aparece em várias formas, por exemplo, marcação de classes gramaticais e reconhecimento de entidade nomeada . Na marcação de POS, por exemplo, cada palavra em uma sequência deve receber uma "tag" (rótulo de classe) que expressa seu "tipo" de palavra:

Esse	DT
é	VBZ
uma	DT
marcado	JJ
frase	NN
.	.

O principal desafio desse problema é resolver a ambigüidade : a palavra "frase" também pode ser um verbo em inglês e, portanto, "tagged".

Embora esse problema possa ser resolvido simplesmente pela classificação de tokens individuais, essa abordagem não leva em consideração o fato empírico de que as tags não ocorrem independentemente; em vez disso, cada tag exibe uma forte dependência condicional da tag da palavra anterior. Esse fato pode ser explorado em um modelo de sequência, como um modelo de Markov oculto ou um campo aleatório condicional que prevê toda a sequência de tags para uma frase, em vez de apenas tags individuais, por meio do algoritmo de Viterbi .

Técnicas

Modelos gráficos probabilísticos formam uma grande classe de modelos de previsão estruturados. Em particular, redes bayesianas e campos aleatórios são populares. Outros algoritmos e modelos de previsão estruturado incluem programação indutiva lógica , raciocínio baseado em casos , SVMs estruturadas , redes lógicas de Markov , probabilística macia Logic , e modelos condicionais constrangidos . Principais técnicas:

Campo aleatório condicional
Máquina de vetor de suporte estruturado
Vizinhos mais próximos estruturados k
Rede neural recorrente , em particular a rede Elman

Perceptron estruturado

Uma das maneiras mais fáceis de entender algoritmos para predição estruturada geral é o perceptron estruturado de Collins . Este algoritmo combina o algoritmo perceptron para aprender classificadores lineares com um algoritmo de inferência (classicamente o algoritmo de Viterbi quando usado em dados de sequência) e pode ser descrito abstratamente como segue. Primeiro defina uma "função de característica conjunta" Φ ( x , y ) que mapeia uma amostra de treinamento x e uma previsão candidata y para um vetor de comprimento n ( x e y podem ter qualquer estrutura; n é dependente do problema, mas deve ser corrigido para cada modelo). Seja GEN uma função que gera previsões candidatas. Então:

Let Ser um vetor de peso de comprimento n

{\ displaystyle w}

Para um número predeterminado de iterações:

Para cada amostra no conjunto de treinamento com saída verdadeira :

{\ displaystyle x}

{\ displaystyle t}

Fazer uma previsão

{\ displaystyle {\ hat {y}} = {\ operatorname {arg \, max}} \, \ {{y} \ in {GEN} ({x}) \} \, ({w} ^ {T} \, \ phi ({x}, {y}))}

Atualização , a partir de : , é taxa de aprendizagem

{\ displaystyle w}

{\ displaystyle {\ hat {y}}}

{\ displaystyle t}

{\ displaystyle {w} = {w} + {c} (- \ phi ({x}, {\ hat {y}}) + \ phi ({x}, {t}))}

{\ displaystyle c}

Na prática, encontrar o argmax over será feito usando um algoritmo como Viterbi ou um algoritmo como max-sum , em vez de uma pesquisa exaustiva em um conjunto exponencialmente grande de candidatos. ${\ displaystyle {GEN} ({x})}$

A ideia de aprendizagem é semelhante ao perceptron multiclasse .

Referências

^ Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola e SVN Vishwanathan (2007), Predicting Structured Data , MIT Press.
^ ^a ^b Lafferty, J., McCallum, A., Pereira, F. (2001). "Campos aleatórios condicionais: modelos probabilísticos para segmentação e rotulagem de dados de sequência" (PDF) . Proc. 18th International Conf. no aprendizado de máquina . pp. 282–289.CS1 maint: usa o parâmetro de autores ( link )
^ Collins, Michael (2002). Métodos de treinamento discriminativo para modelos ocultos de Markov: Teoria e experimentos com algoritmos perceptron (PDF) . Proc. EMNLP. 10 .

Noah Smith, Linguistic Structure Prediction , 2011.
Michael Collins, Métodos de Treinamento Discriminativos para Modelos de Markov Ocultos , 2002.

links externos

Implementação do perceptron estruturado de Collins

[1] Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola e SVN Vishwanathan (2007), Predicting Structured Data , MIT Press.

[Laf:McC:Per01-2] Lafferty, J., McCallum, A., Pereira, F. (2001). "Campos aleatórios condicionais: modelos probabilísticos para segmentação e rotulagem de dados de sequência" (PDF) . Proc. 18th International Conf. no aprendizado de máquina . pp. 282–289.CS1 maint: usa o parâmetro de autores ( link )

[3] Collins, Michael (2002). Métodos de treinamento discriminativo para modelos ocultos de Markov: Teoria e experimentos com algoritmos perceptron (PDF) . Proc. EMNLP. 10 .

Languages

In other projects