Unidade recorrente bloqueada - Gated recurrent unit

Gated recurrent unit s ( GRU s) são um mecanismo de gating em redes neurais recorrentes , introduzido em 2014 por Kyunghyun Cho et al. A GRU é como uma memória de curto prazo longa (LSTM) com uma porta de esquecimento, mas tem menos parâmetros do que a LSTM, pois não tem uma porta de saída. O desempenho do GRU em certas tarefas de modelagem polifônica de música, modelagem de sinal de voz e processamento de linguagem natural foi considerado semelhante ao de LSTM. GRUs demonstraram apresentar melhor desempenho em determinados conjuntos de dados menores e menos frequentes.

Arquitetura

Existem várias variações na unidade de portão completo, com o gating feito usando o estado oculto anterior e o viés em várias combinações, e uma forma simplificada chamada unidade de portão mínimo.

O operador denota o produto Hadamard a seguir.

Unidade totalmente fechada

Unidade recorrente bloqueada, versão totalmente bloqueada

Inicialmente, para , o vetor de saída é .

Variáveis

  • : vetor de entrada
  • : vetor de saída
  • : vetor de ativação candidato
  • : atualizar vetor de portão
  • : redefinir vetor de portão
  • , e : matrizes de parâmetro e vetor

Funções de ativação

Funções de ativação alternativas são possíveis, desde que .

Tipo 1
Tipo 2
Tipo 3

Os formulários alternativos podem ser criados alterando e

  • Tipo 1, cada porta depende apenas do estado oculto anterior e da polarização.
  • Tipo 2, cada porta depende apenas do estado oculto anterior.
  • Tipo 3, cada porta é calculada usando apenas o bias.

Unidade mínima fechada

A unidade mínima com portas é semelhante à unidade totalmente com portas, exceto que o vetor de atualização e redefinição é mesclado em uma porta de esquecimento. Isso também implica que a equação para o vetor de saída deve ser alterada:

Variáveis

  • : vetor de entrada
  • : vetor de saída
  • : vetor de ativação candidato
  • : esquecer vetor
  • , e : matrizes de parâmetro e vetor

Referências