Unidade recorrente bloqueada - Gated recurrent unit

Gated recurrent unit s ( GRU s) são um mecanismo de gating em redes neurais recorrentes , introduzido em 2014 por Kyunghyun Cho et al. A GRU é como uma memória de curto prazo longa (LSTM) com uma porta de esquecimento, mas tem menos parâmetros do que a LSTM, pois não tem uma porta de saída. O desempenho do GRU em certas tarefas de modelagem polifônica de música, modelagem de sinal de voz e processamento de linguagem natural foi considerado semelhante ao de LSTM. GRUs demonstraram apresentar melhor desempenho em determinados conjuntos de dados menores e menos frequentes.

Arquitetura

Existem várias variações na unidade de portão completo, com o gating feito usando o estado oculto anterior e o viés em várias combinações, e uma forma simplificada chamada unidade de portão mínimo.

O operador denota o produto Hadamard a seguir. ${\ displaystyle \ odot}$

Unidade totalmente fechada

Unidade recorrente bloqueada, versão totalmente bloqueada

Inicialmente, para , o vetor de saída é . ${\ displaystyle t = 0}$ ${\ displaystyle h_ {0} = 0}$

{\ displaystyle {\ begin {alinhados} z_ {t} & = \ sigma _ {g} (W_ {z} x_ {t} + U_ {z} h_ {t-1} + b_ {z}) \\ r_ {t} & = \ sigma _ {g} (W_ {r} x_ {t} + U_ {r} h_ {t-1} + b_ {r}) \\ {\ hat {h}} _ {t} & = \ phi _ {h} (W_ {h} x_ {t} + U_ {h} (r_ {t} \ odot h_ {t-1}) + b_ {h}) \\ h_ {t} & = (1-z_ {t}) \ odot h_ {t-1} + z_ {t} \ odot {\ hat {h}} _ {t} \ end {alinhado}}}

Variáveis

${\ displaystyle x_ {t}}$ : vetor de entrada
${\ displaystyle h_ {t}}$ : vetor de saída
${\ displaystyle {\ hat {h}} _ {t}}$ : vetor de ativação candidato
${\ displaystyle z_ {t}}$ : atualizar vetor de portão
${\ displaystyle r_ {t}}$ : redefinir vetor de portão
${\ displaystyle W}$ , e : matrizes de parâmetro e vetor ${\ displaystyle U}$ ${\ displaystyle b}$

Funções de ativação

${\ displaystyle \ sigma _ {g}}$ : O original é uma função sigmóide .
${\ displaystyle \ phi _ {h}}$ : O original é uma tangente hiperbólica .

Funções de ativação alternativas são possíveis, desde que . ${\ displaystyle \ sigma _ {g} (x) \ in [0,1]}$

Tipo 1

Tipo 2

Tipo 3

Os formulários alternativos podem ser criados alterando e ${\ displaystyle z_ {t}}$ ${\ displaystyle r_ {t}}$

Tipo 1, cada porta depende apenas do estado oculto anterior e da polarização.
${\ displaystyle {\ begin {alinhados} z_ {t} & = \ sigma _ {g} (U_ {z} h_ {t-1} + b_ {z}) \\ r_ {t} & = \ sigma _ { g} (U_ {r} h_ {t-1} + b_ {r}) \\\ fim {alinhado}}}$
Tipo 2, cada porta depende apenas do estado oculto anterior.
${\ displaystyle {\ begin {alinhados} z_ {t} & = \ sigma _ {g} (U_ {z} h_ {t-1}) \\ r_ {t} & = \ sigma _ {g} (U_ { r} h_ {t-1}) \\\ fim {alinhado}}}$
Tipo 3, cada porta é calculada usando apenas o bias.
${\ displaystyle {\ begin {alinhados} z_ {t} & = \ sigma _ {g} (b_ {z}) \\ r_ {t} & = \ sigma _ {g} (b_ {r}) \\\ fim {alinhado}}}$

Unidade mínima fechada

A unidade mínima com portas é semelhante à unidade totalmente com portas, exceto que o vetor de atualização e redefinição é mesclado em uma porta de esquecimento. Isso também implica que a equação para o vetor de saída deve ser alterada:

{\ displaystyle {\ begin {alinhados} f_ {t} & = \ sigma _ {g} (W_ {f} x_ {t} + U_ {f} h_ {t-1} + b_ {f}) \\ { \ hat {h}} _ {t} & = \ phi _ {h} (W_ {h} x_ {t} + U_ {h} (f_ {t} \ odot h_ {t-1}) + b_ {h }) \\ h_ {t} & = (1-f_ {t}) \ odot h_ {t-1} + f_ {t} \ odot {\ hat {h}} _ {t} \ end {alinhado}} }

Variáveis

${\ displaystyle x_ {t}}$ : vetor de entrada
${\ displaystyle h_ {t}}$ : vetor de saída
${\ displaystyle {\ hat {h}} _ {t}}$ : vetor de ativação candidato
${\ displaystyle f_ {t}}$ : esquecer vetor
${\ displaystyle W}$ , e : matrizes de parâmetro e vetor ${\ displaystyle U}$ ${\ displaystyle b}$

Languages

In other projects

Unidade recorrente bloqueada - Gated recurrent unit

Conteúdo

Arquitetura

Unidade totalmente fechada

Unidade mínima fechada

Referências