Aprendizagem semissupervisionada - Semi-supervised learning

Um exemplo da influência de dados não rotulados na aprendizagem semissupervisionada. O painel superior mostra um limite de decisão que podemos adotar depois de ver apenas um exemplo positivo (círculo branco) e um negativo (círculo preto). O painel inferior mostra um limite de decisão que poderíamos adotar se, além dos dois exemplos rotulados, recebêssemos uma coleção de dados não rotulados (círculos cinza). Isso pode ser visto como a realização de agrupamento e, em seguida, rotulando os clusters com os dados rotulados, empurrando o limite de decisão para longe das regiões de alta densidade ou aprendendo uma variedade unidimensional subjacente onde os dados residem.

O aprendizado semissupervisionado é uma abordagem de aprendizado de máquina que combina uma pequena quantidade de dados rotulados com uma grande quantidade de dados não rotulados durante o treinamento. A aprendizagem semissupervisionada fica entre a aprendizagem não supervisionada (sem dados de treinamento rotulados) e a aprendizagem supervisionada (apenas com dados de treinamento rotulados). É um caso especial de supervisão fraca .

Os dados não rotulados, quando usados ​​em conjunto com uma pequena quantidade de dados rotulados, podem produzir uma melhoria considerável na precisão do aprendizado. A aquisição de dados rotulados para um problema de aprendizagem muitas vezes requer um agente humano habilidoso (por exemplo, para transcrever um segmento de áudio) ou um experimento físico (por exemplo, determinar a estrutura 3D de uma proteína ou determinar se há óleo em um local específico). O custo associado ao processo de rotulagem, portanto, pode tornar inviáveis ​​conjuntos de treinamento grandes e totalmente rotulados, ao passo que a aquisição de dados não rotulados é relativamente barata. Em tais situações, o aprendizado semi-supervisionado pode ser de grande valor prático. A aprendizagem semissupervisionada também é de interesse teórico na aprendizagem de máquina e como um modelo para a aprendizagem humana.

Um conjunto de exemplos distribuídos de forma independente e idêntica com rótulos correspondentes e exemplos não rotulados são processados. O aprendizado semissupervisionado combina essas informações para superar o desempenho de classificação que pode ser obtido descartando os dados não rotulados e fazendo o aprendizado supervisionado ou descartando os rótulos e fazendo o aprendizado não supervisionado.

A aprendizagem semissupervisionada pode referir-se a aprendizagem transdutiva ou aprendizagem indutiva . O objetivo do aprendizado transdutivo é inferir os rótulos corretos apenas para os dados não rotulados fornecidos . O objetivo da aprendizagem indutiva é inferir o mapeamento correto de para .

Intuitivamente, o problema de aprendizagem pode ser visto como um exame e os dados rotulados como exemplos de problemas que o professor resolve para a turma como um auxílio na solução de outro conjunto de problemas. No cenário transdutivo, esses problemas não resolvidos funcionam como perguntas do exame. No ambiente indutivo, eles se tornam problemas práticos do tipo que constituirá o exame.

É desnecessário (e, de acordo com o princípio de Vapnik , imprudente) realizar o aprendizado transdutivo por meio da inferência de uma regra de classificação sobre todo o espaço de entrada; no entanto, na prática, algoritmos formalmente projetados para transdução ou indução são frequentemente usados ​​de forma intercambiável.

Premissas

Para fazer qualquer uso de dados não rotulados, deve existir algum relacionamento com a distribuição de dados subjacente. Algoritmos de aprendizagem semissupervisionada fazem uso de pelo menos uma das seguintes suposições:

Suposição de continuidade

Os pontos próximos um do outro têm maior probabilidade de compartilhar um rótulo. Isso também é geralmente assumido no aprendizado supervisionado e produz uma preferência por limites de decisão geometricamente simples . No caso do aprendizado semissupervisionado, a suposição de suavidade adicionalmente produz uma preferência por limites de decisão em regiões de baixa densidade, portanto, poucos pontos estão próximos uns dos outros, mas em classes diferentes.

Suposição de cluster

Os dados tendem a formar clusters discretos e os pontos no mesmo cluster têm maior probabilidade de compartilhar um rótulo (embora os dados que compartilham um rótulo possam se espalhar por vários clusters). Este é um caso especial da suposição de suavidade e dá origem ao aprendizado de recursos com algoritmos de agrupamento.

Suposição de manifold

Os dados estão aproximadamente em uma variedade de dimensão muito menor do que o espaço de entrada. Nesse caso, aprender a variedade usando os dados rotulados e não rotulados pode evitar a maldição da dimensionalidade . Então, o aprendizado pode prosseguir usando distâncias e densidades definidas no coletor.

A suposição múltipla é prática quando dados de alta dimensão são gerados por algum processo que pode ser difícil de modelar diretamente, mas que tem apenas alguns graus de liberdade. Por exemplo, a voz humana é controlada por algumas pregas vocais e as imagens de várias expressões faciais são controladas por alguns músculos. Nestes casos, distâncias e suavidade no espaço natural do problema gerador são superiores a considerar o espaço de todas as ondas acústicas ou imagens possíveis, respectivamente.

História

A abordagem heurística de autotreinamento (também conhecida como autoaprendizagem ou auto-rotulagem ) é historicamente a abordagem mais antiga de aprendizagem semissupervisionada, com exemplos de aplicações a partir da década de 1960.

A estrutura de aprendizagem transdutiva foi formalmente introduzida por Vladimir Vapnik na década de 1970. O interesse pela aprendizagem indutiva usando modelos generativos também começou na década de 1970. Um limite de aprendizado provavelmente aproximadamente correto para aprendizado semissupervisionado de uma mistura gaussiana foi demonstrado por Ratsaby e Venkatesh em 1995.

A aprendizagem semissupervisionada tornou-se recentemente mais popular e praticamente relevante devido à variedade de problemas para os quais grandes quantidades de dados não rotulados estão disponíveis - por exemplo, texto em sites, sequências de proteínas ou imagens.

Métodos

Modelos gerativos

As abordagens gerativas da aprendizagem estatística procuram primeiro estimar a distribuição dos pontos de dados pertencentes a cada classe. A probabilidade de que um determinado ponto tem a etiqueta é então proporcional pela regra de Bayes . A aprendizagem semissupervisionada com modelos generativos pode ser vista como uma extensão da aprendizagem supervisionada (classificação mais informações sobre ) ou como uma extensão da aprendizagem não supervisionada (agrupamento mais alguns rótulos).

Os modelos gerativos assumem que as distribuições assumem alguma forma particular parametrizada pelo vetor . Se essas suposições estiverem incorretas, os dados não rotulados podem, na verdade, diminuir a precisão da solução em relação ao que teria sido obtido apenas com os dados rotulados. No entanto, se as suposições estiverem corretas, os dados não rotulados necessariamente melhoram o desempenho.

Os dados não rotulados são distribuídos de acordo com uma mistura de distribuições de classes individuais. Para aprender a distribuição da mistura a partir dos dados não rotulados, ela deve ser identificável, ou seja, diferentes parâmetros devem gerar diferentes distribuições somadas. As distribuições de mistura gaussiana são identificáveis ​​e comumente usadas para modelos generativos.

A distribuição conjunta parametrizada pode ser escrita usando a regra da cadeia . Cada vetor de parâmetro está associado a uma função de decisão . O parâmetro é então escolhido com base no ajuste aos dados rotulados e não rotulados, ponderado por :

Separação de baixa densidade

Outra classe importante de métodos tenta colocar limites em regiões com poucos pontos de dados (rotulados ou não). Um dos algoritmos mais comumente usados ​​é a máquina de vetor de suporte transdutivo , ou TSVM (que, apesar do nome, também pode ser usada para aprendizado indutivo). Enquanto as máquinas de vetores de suporte para aprendizagem supervisionada buscam um limite de decisão com margem máxima sobre os dados rotulados, o objetivo do TSVM é rotular os dados não rotulados de forma que o limite de decisão tenha margem máxima sobre todos os dados. Além da perda de dobradiça padrão para dados rotulados, uma função de perda é introduzida sobre os dados não rotulados por letting . O TSVM então seleciona a partir de um espaço de Hilbert do kernel de reprodução , minimizando o risco empírico regularizado :

Uma solução exata é intratável devido ao termo não convexo , então a pesquisa se concentra em aproximações úteis.

Outras abordagens que implementam a separação de baixa densidade incluem modelos de processos gaussianos, regularização de informações e minimização de entropia (da qual o TSVM é um caso especial).

Regularização laplaciana

A regularização laplaciana tem sido historicamente abordada através do grafo-laplaciano. Os métodos baseados em grafos para aprendizagem semissupervisionada usam uma representação gráfica dos dados, com um nó para cada exemplo etiquetado e não etiquetado. O gráfico pode ser construído usando conhecimento de domínio ou semelhança de exemplos; dois métodos comuns são conectar cada ponto de dados a seus vizinhos mais próximos ou a exemplos dentro de alguma distância . O peso de uma aresta entre e é então definido como .

No âmbito da regularização múltipla , o gráfico serve como proxy para a variedade. Um termo é adicionado ao problema de regularização de Tikhonov padrão para garantir a suavidade da solução em relação à variedade (no espaço intrínseco do problema), bem como em relação ao espaço de entrada do ambiente. O problema de minimização torna-se

onde está um espaço de Hilbert do kernel de reprodução e é o coletor no qual os dados estão. Os parâmetros de regularização e suavidade de controle nos espaços ambiente e intrínseco respectivamente. O gráfico é usado para aproximar o termo de regularização intrínseca. Definindo o gráfico Laplaciano onde e o vetor , temos

.

A abordagem baseada em gráficos para a regularização Laplaciana é relacionar com o método das diferenças finitas .

O Laplaciano também pode ser usado para estender os algoritmos de aprendizado supervisionado: mínimos quadrados regularizados e máquinas de vetores de suporte (SVM) para versões semissupervisionadas mínimos quadrados regularizados Laplacianos e SVM Laplaciano.

Abordagens heurísticas

Alguns métodos de aprendizagem semissupervisionada não são intrinsecamente voltados para aprender a partir de dados não rotulados e rotulados, mas, em vez disso, fazem uso de dados não rotulados em uma estrutura de aprendizagem supervisionada. Por exemplo, os exemplos rotulados e não rotulados podem informar uma escolha de representação, métrica de distância ou kernel para os dados em uma primeira etapa não supervisionada. Então, a aprendizagem supervisionada procede apenas dos exemplos rotulados. Nesse sentido, alguns métodos aprendem uma representação de baixa dimensão usando os dados supervisionados e, em seguida, aplicam a separação de baixa densidade ou métodos baseados em gráfico para a representação aprendida. Refinar iterativamente a representação e, em seguida, realizar a aprendizagem semissupervisionada na referida representação pode melhorar ainda mais o desempenho.

O autotreinamento é um método invólucro para a aprendizagem semissupervisionada. Primeiro, um algoritmo de aprendizado supervisionado é treinado com base apenas nos dados rotulados. Esse classificador é então aplicado aos dados não rotulados para gerar mais exemplos rotulados como entrada para o algoritmo de aprendizado supervisionado. Geralmente, apenas os rótulos nos quais o classificador tem mais confiança são adicionados a cada etapa.

O co-treinamento é uma extensão do autotreinamento em que vários classificadores são treinados em conjuntos de recursos diferentes (de preferência separados) e geram exemplos rotulados uns para os outros.

Na cognição humana

As respostas humanas a problemas formais de aprendizagem semissupervisionada produziram várias conclusões sobre o grau de influência dos dados não rotulados. Problemas de aprendizagem mais naturais também podem ser vistos como exemplos de aprendizagem semissupervisionada. Muito da aprendizagem de conceitos humanos envolve uma pequena quantidade de instrução direta (por exemplo, rotulagem dos pais de objetos durante a infância) combinada com grandes quantidades de experiência não rotulada (por exemplo, observação de objetos sem nomeá-los ou contá-los, ou pelo menos sem feedback).

Bebês humanos são sensíveis à estrutura de categorias naturais não rotuladas, como imagens de cães e gatos ou rostos masculinos e femininos. Bebês e crianças levam em consideração não apenas os exemplos não rotulados, mas o processo de amostragem do qual surgem os exemplos rotulados.

Veja também

Referências

Fontes

  • Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Aprendizagem semissupervisionada . Cambridge, Mass .: MIT Press. ISBN 978-0-262-03358-9.

links externos