Aprendizagem multitarefa - Multi-task learning

O aprendizado multitarefa (MTL) é um subcampo do aprendizado de máquina no qual várias tarefas de aprendizado são resolvidas ao mesmo tempo, enquanto se explora as semelhanças e diferenças entre as tarefas. Isso pode resultar em maior eficiência de aprendizagem e precisão de predição para os modelos de tarefas específicas, quando comparado ao treinamento dos modelos separadamente. As primeiras versões do MTL eram chamadas de "dicas".

Em um artigo de 1997 amplamente citado, Rich Caruana deu a seguinte caracterização:

O aprendizado multitarefa é uma abordagem para transferência indutiva que melhora a generalização usando as informações de domínio contidas nos sinais de treinamento de tarefas relacionadas como um viés indutivo . Ele faz isso aprendendo tarefas em paralelo enquanto usa uma representação compartilhada ; o que é aprendido para cada tarefa pode ajudar outras tarefas a serem aprendidas melhor.

No contexto da classificação, o MTL visa melhorar o desempenho de várias tarefas de classificação, aprendendo-as em conjunto. Um exemplo é um filtro de spam, que pode ser tratado como tarefas de classificação distintas, mas relacionadas, para diferentes usuários. Para tornar isso mais concreto, considere que diferentes pessoas têm diferentes distribuições de recursos que distinguem e-mails de spam dos legítimos, por exemplo, um falante de inglês pode descobrir que todos os e-mails em russo são spam, mas não para os que falam russo. No entanto, há uma semelhança definida nesta tarefa de classificação entre os usuários, por exemplo, um recurso comum pode ser texto relacionado à transferência de dinheiro. Resolver o problema de classificação de spam de cada usuário em conjunto via MTL pode permitir que as soluções se informem umas às outras e melhorem o desempenho. Outros exemplos de configurações para MTL incluem classificação multiclasse e classificação multi-rótulo .

O aprendizado multitarefa funciona porque a regularização induzida pela exigência de um algoritmo para um bom desempenho em uma tarefa relacionada pode ser superior à regularização que evita o overfitting ao penalizar toda a complexidade de maneira uniforme. Uma situação em que o MTL pode ser particularmente útil é se as tarefas compartilham semelhanças significativas e são geralmente pouco amostradas. No entanto, conforme discutido abaixo, MTL também demonstrou ser benéfico para o aprendizado de tarefas não relacionadas.

Métodos

Agrupamento e sobreposição de tarefas

Dentro do paradigma MTL, as informações podem ser compartilhadas entre algumas ou todas as tarefas. Dependendo da estrutura de relacionamento da tarefa, pode-se desejar compartilhar informações seletivamente entre as tarefas. Por exemplo, as tarefas podem ser agrupadas ou existir em uma hierarquia, ou estar relacionadas de acordo com alguma métrica geral. Suponha, conforme desenvolvido mais formalmente abaixo, que o vetor de parâmetros que modela cada tarefa é uma combinação linear de alguma base subjacente. A semelhança em termos dessa base pode indicar a relação das tarefas. Por exemplo, com esparsidade , a sobreposição de coeficientes diferentes de zero entre as tarefas indica comunalidade. Um agrupamento de tarefas então corresponde àquelas tarefas localizadas em um subespaço gerado por algum subconjunto de elementos de base, onde tarefas em grupos diferentes podem ser disjuntas ou sobrepor-se arbitrariamente em termos de suas bases. A relação de tarefas pode ser imposta a priori ou aprendida com os dados. A relação hierárquica de tarefas também pode ser explorada implicitamente, sem pressupor um conhecimento a priori ou relações de aprendizagem explicitamente. Por exemplo, a aprendizagem explícita da relevância da amostra entre as tarefas pode ser feita para garantir a eficácia da aprendizagem conjunta em vários domínios.

Explorando tarefas não relacionadas

Pode-se tentar aprender um grupo de tarefas principais usando um grupo de tarefas auxiliares, não relacionadas às principais. Em muitas aplicações, a aprendizagem conjunta de tarefas não relacionadas que usam os mesmos dados de entrada pode ser benéfica. A razão é que o conhecimento prévio sobre a relação de tarefas pode levar a representações mais esparsas e informativas para cada agrupamento de tarefas, essencialmente por filtrar as idiossincrasias da distribuição de dados. Foram propostos novos métodos que se baseiam em uma metodologia multitarefa anterior, favorecendo uma representação de baixa dimensão compartilhada dentro de cada agrupamento de tarefas. O programador pode impor uma penalidade a tarefas de grupos diferentes, o que encoraja as duas representações a serem ortogonais . Experimentos com dados sintéticos e reais indicaram que a incorporação de tarefas não relacionadas pode resultar em melhorias significativas em relação aos métodos de aprendizado multitarefa padrão.

Transferência de conhecimento

Relacionado à aprendizagem multitarefa está o conceito de transferência de conhecimento. Enquanto a aprendizagem multitarefa tradicional implica que uma representação compartilhada é desenvolvida simultaneamente entre as tarefas, a transferência de conhecimento implica em uma representação compartilhada sequencialmente. Projetos de aprendizado de máquina em grande escala, como a rede neural convolucional profunda GoogLeNet , um classificador de objetos baseado em imagem, podem desenvolver representações robustas que podem ser úteis para outras tarefas relacionadas ao aprendizado de algoritmos. Por exemplo, o modelo pré-treinado pode ser usado como um extrator de recursos para realizar o pré-processamento para outro algoritmo de aprendizagem. Ou o modelo pré-treinado pode ser usado para inicializar um modelo com arquitetura semelhante, que é então ajustado para aprender uma tarefa de classificação diferente.

Aprendizagem adaptativa em grupo online

Tradicionalmente, a aprendizagem multitarefa e a transferência de conhecimento são aplicadas a configurações de aprendizagem estacionárias. Sua extensão para ambientes não estacionários é denominada aprendizagem adaptativa online em grupo (GOAL). O compartilhamento de informações pode ser particularmente útil se os alunos operam em ambientes em constante mudança, porque um aluno pode se beneficiar da experiência anterior de outro aluno para se adaptar rapidamente ao novo ambiente. Essa aprendizagem adaptativa de grupo tem inúmeras aplicações, desde a previsão de séries temporais financeiras, por meio de sistemas de recomendação de conteúdo, até a compreensão visual para agentes autônomos adaptativos.

Matemática

Reproduzindo o espaço de Hilbert de funções com valor vetorial (RKHSvv)

O problema MTL pode ser lançado dentro do contexto de RKHSvv (um espaço de produto interno completo de funções com valor vetorial equipado com um kernel de reprodução ). Em particular, o foco recente tem sido nos casos em que a estrutura da tarefa pode ser identificada por meio de um kernel separável, descrito abaixo. A apresentação aqui deriva de Ciliberto et al., 2015.

Conceitos RKHSvv

Suponha que o conjunto de dados de treinamento é , com , onde t tarefa índices e . Deixe . Nesta configuração, há um espaço de entrada e saída consistente e a mesma função de perda para cada tarefa:. Isso resulta no problema de aprendizado de máquina regularizado:

 

 

 

 

( 1 )

onde é um vetor com valor reproduzindo o espaço de Hilbert do kernel com funções tendo componentes .

O kernel de reprodução para o espaço de funções é uma função simétrica com valor de matriz , de modo que e a seguinte propriedade de reprodução é válida:

 

 

 

 

( 2 )

O kernel de reprodução dá origem a um teorema do representador que mostra que qualquer solução para a equação 1 tem a forma:

 

 

 

 

( 3 )

Kernels separáveis

A forma do kernel Γ induz a representação do espaço de recursos e estrutura a saída nas tarefas. Uma simplificação natural é escolher um kernel separável, que fatora em kernels separados no espaço de entrada X e nas tarefas . Neste caso, o kernel relacionando componentes escalares e é fornecido por . Para funções de valor vetorial , podemos escrever , onde k é um kernel de reprodução escalar e A é uma matriz simétrica positiva semidefinida. Doravante denotar .

Esta propriedade de fatoração, separabilidade, implica que a representação do espaço de recursos de entrada não varia por tarefa. Ou seja, não há interação entre o kernel de entrada e o kernel da tarefa. A estrutura em tarefas é representada apenas por um . Métodos para grãos não separáveis Γ é um campo de pesquisa atual.

Para o caso separável, o teorema da representação é reduzido a . A saída do modelo nos dados de treinamento é então KCA , onde K é a matriz empírica do kernel com entradas e C é a matriz de linhas .

Com o kernel separável, a equação 1 pode ser reescrita como

 

 

 

 

( P )

onde V é uma média (ponderada) de L aplicada no início a Y e KCA . (O peso é zero se for uma observação ausente).

Observe que o segundo termo em P pode ser derivado da seguinte forma:

Estrutura de tarefa conhecida

Representações da estrutura da tarefa

Existem três maneiras amplamente equivalentes de representar a estrutura da tarefa: por meio de um regularizador; por meio de uma métrica de saída e por meio de um mapeamento de saída.

Regularizador  -  Com o kernel separável, pode-se mostrar (abaixo) que , onde está o elemento do pseudoinverso de , e é o RKHS baseado no kernel escalar , e . Esta formulação mostra que controla o peso da pena associada . (Observe que surge de .)

Prova  -

Métrica de saída  -  uma métrica de saída alternativa pode ser induzida pelo produto interno . Com a perda ao quadrado há uma equivalência entre os grãos separáveis sob a métrica alternativa e , sob a métrica canônica.

Mapeamento de saída  - as  saídas podem ser mapeadas para um espaço dimensional superior para codificar estruturas complexas como árvores, gráficos e strings. Para mapas lineares L , com escolha apropriada de kernel separável, pode-se mostrar isso .

Exemplos de estrutura de tarefas

Por meio da formulação do regularizador, pode-se representar facilmente uma variedade de estruturas de tarefas.

  • Deixando (onde é o T x T matriz identidade, e é o T x T matriz de uns) é equivalente a deixar Γ controlar a variação de tarefas da sua média . Por exemplo, os níveis sanguíneos de algum biomarcador podem ser medidos em pacientes T em pontos de tempo durante o curso de um dia e o interesse pode estar em regularizar a variação das previsões entre os pacientes.
  • Deixando , onde é equivalente a deixar controlar a variação de medida em relação a um grupo significativo: . (Aqui a cardinalidade do grupo r, e é a função do indicador). Por exemplo, pessoas em diferentes partidos políticos (grupos) podem ser regularizadas em conjunto com relação à previsão do índice de favorabilidade de um político. Observe que essa penalidade se reduz à primeira quando todas as tarefas estão no mesmo grupo.
  • Letting , onde é o Laplaciano para o grafo com matriz de adjacência M dando semelhanças entre pares de tarefas. Isso equivale a atribuir uma penalidade maior à distância que separa as tarefas t e s quando são mais semelhantes (de acordo com o peso ), ou seja, regularizam .
  • Todas as escolhas de A acima também induzem o termo de regularização adicional que penaliza a complexidade em f de forma mais ampla.

Tarefas de aprendizagem junto com sua estrutura

O problema de aprendizagem P pode ser generalizado para admitir a matriz de tarefas de aprendizagem A da seguinte forma:

 

 

 

 

( Q )

A escolha de deve ser projetada para aprender as matrizes A de um determinado tipo. Veja "Casos especiais" abaixo.

Otimização de Q

Restringindo ao caso de perdas convexas e penalidades coercitivas Ciliberto et al. mostraram que embora Q não seja convexo em C e A, um problema relacionado é convexo em conjunto.

Especificamente no conjunto convexo , o problema equivalente

 

 

 

 

( R )

é convexo com o mesmo valor mínimo. E se é um minimizador de R então é um minimizador para Q .

R pode ser resolvido por um método de barreira em um conjunto fechado, introduzindo a seguinte perturbação:

 

 

 

 

( S )

A perturbação por meio da barreira força as funções objetivo a serem iguais a na fronteira de .

S pode ser resolvido com um bloco de coordenadas método descida, alternando em C e A. Isto resulta numa sequcia de minimizadoresem S que converge para a solução em R como, e, por conseguinte, dá a solução para Q .

Casos especiais

Penalidades espectrais - Dinnuzo et al sugeriram definir F como a norma de Frobenius. Eles otimizaram Q diretamente usando a descida coordenada do bloco, não levando em consideração as dificuldades no limite de.

Aprendizagem de tarefas agrupadas - Jacob et al sugeriram aprender A no ambiente onde as tarefas T são organizadas em agrupamentos R disjuntos. Neste caso, seja a matriz com . Definindo , e , a matriz de tarefas pode ser parametrizada como uma função de : , com termos que penalizam a média, variância entre grupos e dentro de aglomerados de variância, respectivamente, das previsões de tarefas. M não é convexo, mas existe um relaxamento convexo . Nesta formulação ,.

Generalizações

Penalidades não convexas - As penalidades podem ser construídas de modo que A seja restrito a um gráfico Laplaciano, ou que A tenha fatoração de classificação baixa. Porém essas penalidades não são convexas, e a análise do método de barreira proposto por Ciliberto et al. não passa nesses casos.

Kernels não separáveis - Kernels separáveis ​​são limitados, em particular eles não levam em consideração as estruturas no espaço de interação entre os domínios de entrada e saída em conjunto. Trabalhos futuros são necessários para desenvolver modelos para esses kernels.

Formulários

Filtragem de spam

Usando os princípios da MTL, foram propostas técnicas de filtragem colaborativa de spam que facilita a personalização. Em sistemas de e-mail de associação aberta em grande escala, a maioria dos usuários não rotula mensagens suficientes para que um classificador local individual seja eficaz, enquanto os dados são muito barulhentos para serem usados ​​em um filtro global para todos os usuários. Um classificador híbrido global / individual pode ser eficaz em absorver a influência dos usuários que rotulam e-mails com muito cuidado do público em geral. Isso pode ser realizado ao mesmo tempo que fornece qualidade suficiente para usuários com poucas instâncias rotuladas.

pesquisa na internet

Usando árvores de decisão otimizadas , pode-se habilitar o compartilhamento e a regularização implícita de dados. Este método de aprendizagem pode ser usado em conjuntos de dados de classificação de pesquisa na web. Um exemplo é usar conjuntos de dados de classificação de vários países. Aqui, a aprendizagem multitarefa é particularmente útil, pois os conjuntos de dados de diferentes países variam muito em tamanho devido ao custo dos julgamentos editoriais. Foi demonstrado que aprender várias tarefas em conjunto pode levar a melhorias significativas no desempenho com confiabilidade surpreendente.

Pacote de software

O pacote Matlab Multitarefa de Aprendizagem via Regularização Estrutural (MALSAR) implementa os seguintes algoritmos de aprendizagem multitarefa:

  • Aprendizagem multitarefa regularizada média
  • Aprendizagem multitarefa com seleção de recursos conjuntos
  • Aprendizado robusto de recursos multitarefa
  • Aprendizagem multitarefa regularizada do Trace-Norm
  • Otimização Estrutural Alternada
  • Aprendizagem Incoerente de Classificação Baixa e Esparsa
  • Aprendizado multitarefa robusto de baixa classificação
  • Aprendizagem multitarefa agrupada
  • Aprendizagem multitarefa com estruturas de gráfico

Veja também

Referências

links externos

Programas