Aprendizagem de recursos - Feature learning

Na aprendizagem de máquina , aprendizagem recurso ou aprendizagem representação é um conjunto de técnicas que permite que um sistema para detectar automaticamente as representações necessárias para a funcionalidade de detecção e classificação de dados brutos. Isso substitui a engenharia de recursos manuais e permite que uma máquina aprenda os recursos e os use para executar uma tarefa específica.

O aprendizado de recursos é motivado pelo fato de que as tarefas de aprendizado de máquina, como classificação, geralmente requerem entradas que são matematicamente e computacionalmente convenientes para processar. No entanto, os dados do mundo real, como imagens, vídeo e dados do sensor, não renderam tentativas de definir algoritmicamente os recursos específicos. Uma alternativa é descobrir esses recursos ou representações por meio de exame, sem depender de algoritmos explícitos.

O aprendizado de recursos pode ser supervisionado ou não supervisionado.

Supervisionado

O aprendizado supervisionado de recursos é o aprendizado de recursos a partir de dados rotulados. O rótulo de dados permite que o sistema calcule um termo de erro, o grau em que o sistema falha em produzir o rótulo, que pode então ser usado como feedback para corrigir o processo de aprendizagem (reduzir / minimizar o erro). As abordagens incluem:

Aprendizagem supervisionada de dicionário

A aprendizagem de dicionário desenvolve um conjunto (dicionário) de elementos representativos a partir dos dados de entrada, de modo que cada ponto de dados pode ser representado como uma soma ponderada dos elementos representativos. Os elementos do dicionário e os pesos podem ser encontrados minimizando o erro médio de representação (sobre os dados de entrada), junto com a regularização L1 nos pesos para permitir a dispersão (ou seja, a representação de cada ponto de dados tem apenas alguns pesos diferentes de zero).

O aprendizado de dicionário supervisionado explora tanto a estrutura subjacente aos dados de entrada quanto os rótulos para otimizar os elementos do dicionário. Por exemplo, esta técnica de aprendizado de dicionário supervisionado aplica o aprendizado de dicionário em problemas de classificação, otimizando conjuntamente os elementos do dicionário, pesos para representar pontos de dados e parâmetros do classificador com base nos dados de entrada. Em particular, um problema de minimização é formulado, onde a função objetivo consiste no erro de classificação, o erro de representação, uma regularização L1 nos pesos representativos para cada ponto de dados (para permitir a representação esparsa de dados) e uma regularização L2 nos parâmetros do classificador.

Redes neurais

As redes neurais são uma família de algoritmos de aprendizagem que usam uma "rede" que consiste em várias camadas de nós interconectados. É inspirado no sistema nervoso animal, onde os nós são vistos como neurônios e as bordas são vistas como sinapses. Cada borda tem um peso associado e a rede define regras computacionais para passar dados de entrada da camada de entrada da rede para a camada de saída. Uma função de rede associada a uma rede neural caracteriza a relação entre as camadas de entrada e saída, que é parametrizada pelos pesos. Com funções de rede apropriadamente definidas, várias tarefas de aprendizagem podem ser realizadas minimizando uma função de custo sobre a função de rede (pesos).

As redes neurais multicamadas podem ser usadas para realizar o aprendizado de recursos, uma vez que aprendem uma representação de sua entrada na (s) camada (s) oculta (s) que é subsequentemente usada para classificação ou regressão na camada de saída. A arquitetura de rede mais popular desse tipo são as redes siamesas .

Sem supervisão

O aprendizado de recursos não supervisionado é o aprendizado de recursos a partir de dados não rotulados. O objetivo do aprendizado de recursos não supervisionado é frequentemente descobrir recursos de baixa dimensão que capturam alguma estrutura subjacente aos dados de entrada de alta dimensão. Quando o aprendizado de recursos é realizado de forma não supervisionada, ele permite uma forma de aprendizado semissupervisionado, onde recursos aprendidos de um conjunto de dados não rotulado são então empregados para melhorar o desempenho em um ambiente supervisionado com dados rotulados. Várias abordagens são apresentadas a seguir.

K significa agrupamento

O agrupamento de K -means é uma abordagem para quantização vetorial. Em particular, dado um conjunto de n vetores, k -means agrupamento os agrupa em k clusters (isto é, subconjuntos) de tal forma que cada vetor pertence ao cluster com a média mais próxima. O problema é computacionalmente NP-difícil , embora algoritmos gulosos subótimostenham sido desenvolvidos.

O agrupamento K-means pode ser usado para agrupar um conjunto não rotulado de entradas em k clusters e, em seguida, usar os centróides desses clusters para produzir recursos. Esses recursos podem ser produzidos de várias maneiras. O mais simples é adicionar k características binárias a cada amostra, onde cada característica j tem valor um sse o j o centróide aprendido por k -means é o mais próximo da amostra em consideração. Também é possível usar as distâncias aos clusters como recursos, talvez depois de transformá-los por meio de uma função de base radial (uma técnica que tem sido usada para treinar redes RBF ). Coates e Ng observam que certas variantes de k- significa que se comportam de forma semelhante a algoritmos de codificação esparsos .

Em uma avaliação comparativa de métodos de aprendizado de recursos não supervisionados, Coates, Lee e Ng descobriram que k- significa agrupamento com uma transformação apropriada supera os mais recentemente inventados auto-codificadores e RBMs em uma tarefa de classificação de imagem. K- significa também melhora o desempenho no domínio da PNL , especificamente para reconhecimento de entidade nomeada ; lá, ele compete com o agrupamento de Brown , bem como com representações de palavras distribuídas (também conhecidas como embeddings de palavras neurais).

Análise do componente principal

A análise de componente principal (PCA) é freqüentemente usada para redução de dimensão. Dado um conjunto não rotulado de n vetores de dados de entrada, o PCA gera p (que é muito menor do que a dimensão dos dados de entrada) vetores singulares corretos correspondentes aos p maiores valores singulares da matriz de dados, onde a k ésima linha da matriz de dados é o k- ésimo vetor de dados de entrada deslocado pela média da amostra da entrada (isto é, subtraindo a média da amostra do vetor de dados). Equivalentemente, esses vetores singulares são os autovetores correspondentes aos p maiores autovalores da matriz de covariância de amostra dos vetores de entrada. Esses p vetores singulares são os vetores de recursos aprendidos com os dados de entrada e representam as direções ao longo das quais os dados têm as maiores variações.

PCA é uma abordagem de aprendizado de recurso linear, uma vez que os vetores singulares p são funções lineares da matriz de dados. Os vetores singulares podem ser gerados por meio de um algoritmo simples com p iterações. Na i- ésima iteração, a projeção da matriz de dados no (i-1) o autovetor é subtraída, e o i- ésimo vetor singular é encontrado como o vetor singular correto correspondendo ao maior singular da matriz de dados residual.

O PCA tem várias limitações. Primeiro, ele assume que as direções com grande variação são de maior interesse, o que pode não ser o caso. O PCA depende apenas de transformações ortogonais dos dados originais e explora apenas os momentos de primeira e segunda ordem dos dados, o que pode não caracterizar bem a distribuição dos dados. Além disso, o PCA pode efetivamente reduzir a dimensão apenas quando os vetores de dados de entrada são correlacionados (o que resulta em alguns autovalores dominantes).

Incorporação linear local

A incorporação linear local (LLE) é uma abordagem de aprendizado não linear para gerar representações de preservação de vizinhança de baixa dimensão a partir de entrada de alta dimensão (não rotulada). A abordagem foi proposta por Roweis e Saul (2000). A ideia geral do LLE é reconstruir os dados dimensionais elevados originais usando pontos dimensionais inferiores, mantendo algumas propriedades geométricas das vizinhanças no conjunto de dados original.

O LLE consiste em duas etapas principais. A primeira etapa é para "preservação de vizinho", onde cada ponto de dados de entrada Xi é reconstruído como uma soma ponderada de K pontos de dados vizinhos mais próximos , e os pesos ótimos são encontrados minimizando o erro de reconstrução quadrático médio (ou seja, a diferença entre uma entrada ponto e sua reconstrução) sob a restrição de que os pesos associados a cada ponto somam um. A segunda etapa é para a "redução de dimensão", procurando por vetores em um espaço de dimensão inferior que minimiza o erro de representação usando os pesos otimizados na primeira etapa. Observe que na primeira etapa os pesos são otimizados com dados fixos, o que pode ser resolvido como um problema de mínimos quadrados . Na segunda etapa, os pontos dimensionais inferiores são otimizados com pesos fixos, que podem ser resolvidos por meio da decomposição esparsa de autovalores.

Os pesos de reconstrução obtidos na primeira etapa capturam as "propriedades geométricas intrínsecas" de uma vizinhança nos dados de entrada. Supõe-se que os dados originais estão em uma variedade de dimensão inferior suave , e as "propriedades geométricas intrínsecas" capturadas pelos pesos dos dados originais também devem estar na variedade. É por isso que os mesmos pesos são usados ​​na segunda etapa do LLE. Comparado com o PCA, o LLE é mais poderoso na exploração da estrutura de dados subjacente.

Análise de componentes independentes

A análise de componentes independentes (ICA) é uma técnica para formar uma representação de dados usando uma soma ponderada de componentes independentes não gaussianos. A suposição de não gaussiana é imposta, uma vez que os pesos não podem ser determinados exclusivamente quando todos os componentes seguem a distribuição gaussiana .

Aprendizagem de dicionário não supervisionada

O aprendizado de dicionário não supervisionado não utiliza rótulos de dados e explora a estrutura subjacente aos dados para otimizar os elementos do dicionário. Um exemplo de aprendizagem de dicionário não supervisionada é a codificação esparsa , que visa aprender funções básicas (elementos de dicionário) para representação de dados a partir de dados de entrada não rotulados. A codificação esparsa pode ser aplicada para aprender dicionários supercompletos, onde o número de elementos do dicionário é maior do que a dimensão dos dados de entrada. Aharon et al. algoritmo K-SVD proposto para aprendizagem de um dicionário de elementos que permite representação esparsa.

Arquiteturas multicamadas / profundas

A arquitetura hierárquica do sistema neural biológico inspira arquiteturas de aprendizado profundo para aprendizado de recursos ao empilhar várias camadas de nós de aprendizado. Essas arquiteturas são frequentemente projetadas com base na suposição de representação distribuída : os dados observados são gerados pelas interações de muitos fatores diferentes em vários níveis. Em uma arquitetura de aprendizado profundo, a saída de cada camada intermediária pode ser vista como uma representação dos dados de entrada originais. Cada nível usa a representação produzida pelo nível anterior como entrada e produz novas representações como saída, que é então alimentada para níveis superiores. A entrada na camada inferior são dados brutos e a saída da camada final é o recurso ou representação final de baixa dimensão.

Máquina de Boltzmann restrita

Máquinas de Boltzmann restritas (RBMs) são freqüentemente usadas como um bloco de construção para arquiteturas de aprendizagem multicamadas. Um RBM pode ser representado por um grafo bipartido não direcionado que consiste em um grupo de variáveis ​​ocultas binárias , um grupo de variáveis ​​visíveis e arestas conectando os nós ocultos e visíveis. É um caso especial das máquinas Boltzmann mais gerais com a restrição de nenhuma conexão entre nós. Cada aresta em um RBM está associada a um peso. Os pesos junto com as conexões definem uma função de energia , com base na qual uma distribuição conjunta de nós visíveis e ocultos pode ser planejada. Com base na topologia do RBM, as variáveis ​​ocultas (visíveis) são independentes, condicionadas às variáveis ​​visíveis (ocultas). Essa independência condicional facilita os cálculos.

Um RBM pode ser visto como uma arquitetura de camada única para aprendizado de recursos não supervisionado. Em particular, as variáveis ​​visíveis correspondem aos dados de entrada e as variáveis ​​ocultas correspondem aos detectores de recursos. Os pesos podem ser treinados, maximizando a probabilidade de variáveis visíveis, utilizando Hinton 's divergência contrastante algoritmo (CD).

Em geral, treinar RBM resolvendo o problema de maximização tende a resultar em representações não esparsas. RBM esparso foi proposto para permitir representações esparsas. A ideia é adicionar um termo de regularização na função objetivo de verossimilhança dos dados, que penaliza o desvio das variáveis ​​ocultas esperadas de uma pequena constante .

Autoencoder

Um autoencoder que consiste em um codificador e um decodificador é um paradigma para arquiteturas de aprendizado profundo. Um exemplo é fornecido por Hinton e Salakhutdinov onde o codificador usa dados brutos (por exemplo, imagem) como entrada e produz recurso ou representação como saída e o decodificador usa o recurso extraído do codificador como entrada e reconstrói os dados brutos de entrada originais como saída. O codificador e o decodificador são construídos empilhando várias camadas de RBMs. Os parâmetros envolvidos na arquitetura foram originalmente treinados de maneira ambiciosa camada por camada: depois que uma camada de detectores de recursos é aprendida, eles são alimentados como variáveis ​​visíveis para treinar o RBM correspondente. As abordagens atuais normalmente aplicam o treinamento de ponta a ponta com métodos de descida gradiente estocástico . O treinamento pode ser repetido até que alguns critérios de parada sejam satisfeitos.

Veja também

Referências