Função de ativação - Activation function

Função de ativação logística

Em redes neurais artificiais , a função de ativação de um nó define a saída desse nó dada uma entrada ou conjunto de entradas. Um circuito integrado padrão pode ser visto como uma rede digital de funções de ativação que podem ser "ON" (1) ou "OFF" (0), dependendo da entrada. Isso é semelhante ao perceptron linear em redes neurais . No entanto, apenas funções de ativação não lineares permitem que tais redes computem problemas não triviais usando apenas um pequeno número de nós, e tais funções de ativação são chamadas de não linearidades .

Classificação das funções de ativação

As funções de ativação mais comuns podem ser divididas em três categorias: funções de crista , funções radiais e funções de dobra .

Funções de ativação do cume

As funções Ridge são funções multivariadas que atuam em uma combinação linear das variáveis ​​de entrada. Os exemplos mais usados ​​incluem:

  • Linear activação: ,
  • Relu activação: ,
  • Heaviside activação: ,
  • Logística activação: .

Em redes neurais inspiradas biologicamente , a função de ativação é geralmente uma abstração que representa a taxa de disparo do potencial de ação na célula. Em sua forma mais simples, essa função é binária - ou seja, o neurônio está disparando ou não. A função se parece com , onde está a função de etapa de Heaviside .

Uma linha de inclinação positiva pode ser usada para refletir o aumento na taxa de disparo que ocorre à medida que a corrente de entrada aumenta. Essa função seria da forma .

Funções de ativação de unidade linear retificada e unidade linear de erro Gaussiano

Os neurônios também não podem disparar mais rápido do que uma certa taxa, motivando funções de ativação sigmóide cujo alcance é um intervalo finito.

Funções de ativação radial

Uma classe especial de funções de ativação conhecidas como funções de base radial (RBFs) são usadas em redes RBF , que são extremamente eficientes como aproximadores de função universal. Essas funções de ativação podem assumir várias formas, como:

  • Gaussiano :
  • Multiquadráticos:

onde é o vetor que representa o centro da função e e são parâmetros que afetam a propagação do raio.

Funções de ativação de dobramento

As funções de ativação de dobramento são amplamente utilizadas nas camadas de agrupamento em redes neurais convolucionais e em camadas de saída de redes de classificação multiclasse. Essas ativações realizam agregação sobre as entradas, como tomar a média , mínimo ou máximo . Na classificação multiclasse, a ativação softmax é freqüentemente usada.

Comparação de funções de ativação

Existem inúmeras funções de ativação. O artigo seminal de Hinton et al. De 2012 sobre reconhecimento automático de fala usa uma função de ativação sigmóide logística. A arquitetura seminal de visão computacional AlexNet 2012 usa a função de ativação ReLU, assim como a arquitetura seminal de visão computacional ResNet 2015 . O modelo de processamento de linguagem seminal de 2018 BERT usa uma versão suave do ReLU, o GELU.

Além de seu desempenho empírico, as funções de ativação também têm diferentes propriedades matemáticas:

Não linear
Quando a função de ativação não é linear, pode-se provar que uma rede neural de duas camadas é um aproximador de função universal. Isso é conhecido como Teorema da Aproximação Universal . A função de ativação de identidade não satisfaz esta propriedade. Quando várias camadas usam a função de ativação de identidade, toda a rede é equivalente a um modelo de camada única.
Faixa
Quando o intervalo da função de ativação é finito, os métodos de treinamento baseados em gradiente tendem a ser mais estáveis, porque as apresentações de padrões afetam significativamente apenas pesos limitados. Quando o intervalo é infinito, o treinamento geralmente é mais eficiente porque as apresentações dos padrões afetam significativamente a maioria dos pesos. No último caso, taxas de aprendizado menores são normalmente necessárias.
Continuamente diferenciável
Esta propriedade é desejável ( ReLU não é continuamente diferenciável e tem alguns problemas com a otimização baseada em gradiente, mas ainda é possível) para habilitar métodos de otimização baseados em gradiente. A função de ativação de etapa binária não é diferenciável em 0 e se diferencia em 0 para todos os outros valores, portanto, os métodos baseados em gradiente não podem progredir com ela.

Equivalência de sinal para função de identidade

Dois função real f e g são disse a ser sinal equivalentes se para todos os valores de z no domínio. Onde signo é a função signum . Funções de ativação como tanh, Leaky ReLU, GELU, ELU, Swish e Mish são sinais equivalentes à função de identidade e não podem aprender a função XOR com um único neurônio. A saída de um único neurônio ou sua ativação é , onde g é a função de ativação. O limite de decisão para um único neurônio é o conjunto de pontos que geram uma saída igual a zero. Assim, o limite de decisão para um neurônio usando qualquer uma das funções de ativação de sinal equivalente à função de identidade é um único hiperplano. No entanto, as funções de ativação oscilatória podem ter muitos zeros e, portanto, um único neurônio pode ter vários hiperplanos como parte de seu limite de decisão. Embora as redes multicamadas sejam necessárias para atingir limites de decisão não lineares, o uso de funções de ativação oscilatória permite que até mesmo neurônios individuais exibam limites de decisão não lineares.

Essas propriedades não influenciam decisivamente o desempenho, nem são as únicas propriedades matemáticas que podem ser úteis. Por exemplo, a faixa estritamente positiva do softplus o torna adequado para prever variações em autoencoders variacionais .

Tabela de funções de ativação

A tabela a seguir compara as propriedades de várias funções de ativação que são funções de uma dobra x da camada ou camadas anteriores:

Nome Enredo Função, Derivado de , Faixa Ordem de continuidade
Identidade Identidade de ativação.svg
Passo binário Etapa binária de ativação.svg
Logística , sigmóide ou  etapa suave Activation logistic.svg
Tangente hiperbólica ( tanh ) Ativação tanh.svg
Unidade linear retificada (ReLU) Ativação retificada linear.svg
Unidade Linear de Erro Gaussiano (GELU) Visualização da Unidade Linear de Erro Gaussiano (GELU)
Softplus Ativação softplus.svg
Unidade linear exponencial (ELU) Elu.svg de ativação
com parâmetro
Unidade linear exponencial em escala (SELU)
com parâmetros e
Unidade linear retificada com vazamento (ReLU com vazamento) Ativação prelu.svg
Unidade linear retificada paramétrica (PReLU) Ativação prelu.svg
com parâmetro
Unidade linear sigmóide (SiLU, redução sigmóide, SiL ou Swish-‍1) Função de ativação Swish
Mish
Gaussiana Ativação gaussian.svg

A tabela a seguir lista as funções de ativação que não são funções de uma única dobra x da camada ou camadas anteriores:

Nome Equação, Derivados , Faixa Ordem de continuidade
Softmax    para i = 1, ..., J
Maxout
^ Aquiestá odelta de Kronecker.
^ Por exemplo,poderia ser iterar através do número de kernels da camada de rede neural anterior enquantoitera através do número de kernels da camada atual.

Veja também

Referências