Rede Hopfield - Hopfield network

Uma rede Hopfield (ou modelo de Ising de uma rede neural ou modelo Ising-Lenz-Little ) é uma forma de rede neural artificial recorrente e um tipo de sistema de vidro giratório popularizado por John Hopfield em 1982, conforme descrito anteriormente por Little em 1974 com base em Ernst O trabalho de Ising com Wilhelm Lenz no modelo de Ising . As redes Hopfield servem como sistemas de memória endereçáveis por conteúdo ("associativo") com nós de limiar binários ou com variáveis ​​contínuas. As redes de Hopfield também fornecem um modelo para a compreensão da memória humana.

Origens

O modelo de Ising de uma rede neural como um modelo de memória é proposto pela primeira vez por William A. Little em 1974, que é reconhecido por Hopfield em seu artigo de 1982. Redes com dinâmica contínua foram desenvolvidas por Hopfield em seu artigo de 1984. Um grande avanço na capacidade de armazenamento de memória foi desenvolvido por Krotov e Hopfield em 2016 por meio de uma mudança na dinâmica da rede e na função de energia. Essa ideia foi estendida por Demircigil e colaboradores em 2017. A dinâmica contínua de modelos de grande capacidade de memória foi desenvolvida em uma série de artigos entre 2016 e 2020. Grande capacidade de armazenamento de memória As Hopfield Networks são agora chamadas de Dense Associative Memories ou modernas Hopfield Networks .

Estrutura

Uma rede Hopfield com quatro unidades

As unidades nas redes Hopfield são unidades binárias de limiar, ou seja, as unidades assumem apenas dois valores diferentes para seus estados, e o valor é determinado pelo fato de a entrada da unidade exceder ou não seu limiar . Redes discretas de Hopfield descrevem relacionamentos entre neurônios binários (ativando ou não) . Em um determinado momento, o estado da rede neural é descrito por um vetor , que registra quais neurônios estão disparando em uma palavra binária de N bits.

As interações entre os neurônios têm unidades que geralmente assumem valores de 1 ou -1, e essa convenção será usada ao longo deste artigo. No entanto, outra literatura pode usar unidades que assumem valores de 0 e 1. Essas interações são "aprendidas" por meio da lei de associação de Hebb, de modo que, para um determinado estado

mas .

(Observe que a regra de aprendizagem Hebbian assume a forma quando as unidades assumem valores em {0, 1}.)

Depois que a rede for treinada, não evolua mais. Se um novo estado de neurônios é introduzido na rede neural, a rede atua sobre os neurônios de tal forma que

  • E se
  • E se

onde é o valor limite do i'ésimo neurônio (geralmente considerado 0). Dessa forma, as redes Hopfield têm a capacidade de "lembrar" os estados armazenados na matriz de interação, porque se um novo estado for submetido à matriz de interação, cada neurônio mudará até que corresponda ao estado original (consulte a seção Atualizações abaixo).

As conexões em uma rede Hopfield normalmente têm as seguintes restrições:

  • (nenhuma unidade tem uma conexão consigo mesma)
  • (as conexões são simétricas)

A restrição de que os pesos são simétricos garante que a função de energia diminua monotonicamente enquanto segue as regras de ativação. Uma rede com pesos assimétricos pode exibir algum comportamento periódico ou caótico; entretanto, Hopfield descobriu que esse comportamento está confinado a partes relativamente pequenas do espaço de fase e não prejudica a capacidade da rede de agir como um sistema de memória associativa endereçável por conteúdo.

Hopfield também modelou redes neurais para valores contínuos, em que a saída elétrica de cada neurônio não é binária, mas algum valor entre 0 e 1. Ele descobriu que esse tipo de rede também era capaz de armazenar e reproduzir estados memorizados.

Observe que cada par de unidades i e j em uma rede Hopfield tem uma conexão que é descrita pelo peso da conectividade . Nesse sentido, a rede Hopfield pode ser formalmente descrita como um grafo completo não direcionado , onde é um conjunto de neurônios McCulloch-Pitts e é uma função que liga pares de unidades a um valor real, o peso da conectividade.

Atualizando

A atualização de uma unidade (nó no gráfico que simula o neurônio artificial) na rede Hopfield é realizada usando a seguinte regra:

Onde:

  • é a força do peso da conexão da unidade j à unidade i (o peso da conexão).
  • é o estado da unidade i.
  • é o limite da unidade i.

As atualizações na rede Hopfield podem ser realizadas de duas maneiras diferentes:

  • Assíncrono : apenas uma unidade é atualizada por vez. Esta unidade pode ser escolhida aleatoriamente ou uma ordem predefinida pode ser imposta desde o início.
  • Síncrono : todas as unidades são atualizadas ao mesmo tempo. Isso requer um relógio central para o sistema, a fim de manter a sincronização. Este método é visto por alguns como menos realista, com base na ausência de um relógio global observado influenciando sistemas biológicos ou físicos análogos de interesse.

Os neurônios "atraem ou repelem uns aos outros" no espaço de estados

O peso entre duas unidades tem um impacto poderoso sobre os valores dos neurônios. Considere o peso da conexão entre dois neurônios i e j. Se , a regra de atualização implica que:

  • quando , a contribuição de j na soma ponderada é positiva. Assim, é puxado por j em direção ao seu valor
  • quando , a contribuição de j na soma ponderada é negativa. Então, novamente, é empurrado por j em direção ao seu valor

Assim, os valores dos neurônios i e j irão convergir se o peso entre eles for positivo. Da mesma forma, eles irão divergir se o peso for negativo.

Princípios de funcionamento de redes Hopfield discretas e contínuas

Bruck lançou luz sobre o comportamento de um neurônio na rede discreta de Hopfield ao provar sua convergência em seu artigo em 1990. Um artigo subsequente investigou ainda mais o comportamento de qualquer neurônio em redes de Hopfield de tempo discreto e contínuo quando a função de energia correspondente é minimizado durante um processo de otimização. Bruck mostra que o neurônio j muda seu estado se, e somente se , diminuir ainda mais o seguinte pseudo-corte enviesado. A rede discreta de Hopfield minimiza o seguinte pseudo-corte tendencioso para a matriz de peso sináptica da rede de Hopfield.

onde e representa o conjunto de neurônios que são -1 e +1, respectivamente, no tempo . Para obter mais detalhes, consulte o artigo recente.

A Rede Hopfield de tempo discreto sempre minimiza exatamente o seguinte pseudo-corte

A rede Hopfield de tempo contínuo sempre minimiza um limite superior para o seguinte corte ponderado

onde é uma função sigmóide centrada em zero.

A complexa rede de Hopfield, por outro lado, geralmente tende a minimizar o chamado corte de sombra da complexa matriz de peso da rede.

Energia

Paisagem Energética de uma Rede Hopfield, destacando o estado atual da rede (subindo a colina), um estado atrator para o qual ela eventualmente convergirá, um nível mínimo de energia e uma bacia de atração sombreada em verde. Observe como a atualização da rede Hopfield está sempre caindo em energia.

As redes Hopfield têm um valor escalar associado a cada estado da rede, denominado "energia", E , da rede, onde:

Essa quantidade é chamada de "energia" porque diminui ou permanece a mesma quando as unidades da rede são atualizadas. Além disso, com atualizações repetidas, a rede acabará por convergir para um estado que é um mínimo local na função de energia (que é considerada uma função de Lyapunov ). Portanto, se um estado é um mínimo local na função de energia, é um estado estável para a rede. Observe que esta função de energia pertence a uma classe geral de modelos em física sob o nome de modelos de Ising ; estes, por sua vez, são um caso especial de redes de Markov , uma vez que a medida de probabilidade associada , a medida de Gibbs , tem a propriedade de Markov .

Rede Hopfield em otimização

Hopfield e Tank apresentaram a aplicação da rede Hopfield na solução do problema clássico do caixeiro viajante em 1985. Desde então, a rede Hopfield tem sido amplamente usada para otimização. A ideia de usar a rede de Hopfield em problemas de otimização é direta: se uma função de custo restrita / irrestrita pode ser escrita na forma da função de energia de Hopfield E, então existe uma rede de Hopfield cujos pontos de equilíbrio representam soluções para a otimização restrita / irrestrita problema. Minimizar a função de energia de Hopfield minimiza a função objetivo e satisfaz as restrições também, pois as restrições são “embutidas” nos pesos sinápticos da rede. Embora incluir as restrições de otimização nos pesos sinápticos da melhor maneira possível seja uma tarefa desafiadora, na verdade muitos vários problemas de otimização difíceis com restrições em diferentes disciplinas foram convertidos para a função de energia de Hopfield: sistemas de memória associativa, conversão analógico para digital, problema de programação de job-shop, atribuição quadrática e outros problemas NP-completos relacionados, problema de alocação de canal em redes sem fio, problema de roteamento de rede ad-hoc móvel, restauração de imagem, identificação de sistema, otimização combinatória, etc, apenas para citar alguns. Mais detalhes podem ser encontrados, por exemplo, no artigo.

Inicialização e execução

A inicialização das redes Hopfield é feita definindo os valores das unidades para o padrão de início desejado. Atualizações repetidas são então realizadas até que a rede convirja para um padrão atrator. A convergência é geralmente garantida, pois Hopfield provou que os atratores desse sistema dinâmico não linear são estáveis, não periódicos ou caóticos como em alguns outros sistemas. Portanto, no contexto de redes de Hopfield, um padrão atrator é um estado estável final, um padrão que não pode mudar nenhum valor dentro dele durante a atualização.

Treinamento

Treinar uma rede Hopfield envolve diminuir a energia dos estados que a rede deve "lembrar". Isso permite que a rede sirva como um sistema de memória endereçável de conteúdo, ou seja, a rede convergirá para um estado "lembrado" se receber apenas parte do estado. A rede pode ser usada para recuperar de uma entrada distorcida para o estado treinado que é mais semelhante a essa entrada. Isso é chamado de memória associativa porque recupera memórias com base na semelhança. Por exemplo, se treinarmos uma rede de Hopfield com cinco unidades de modo que o estado (1, −1, 1, −1, 1) seja um mínimo de energia, e dermos à rede o estado (1, −1, −1, −1, 1) ele irá convergir para (1, −1, 1, −1, 1). Assim, a rede é devidamente treinada quando a energia dos estados que a rede deve lembrar são mínimos locais. Observe que, em contraste com o treinamento do Perceptron , os limiares dos neurônios nunca são atualizados.

Regras de aprendizagem

Existem várias regras de aprendizagem diferentes que podem ser usadas para armazenar informações na memória da rede Hopfield. É desejável que uma regra de aprendizado tenha as duas propriedades a seguir:

  • Local : uma regra de aprendizado é local se cada peso for atualizado usando as informações disponíveis para os neurônios em qualquer um dos lados da conexão associada a esse peso específico.
  • Incremental : novos padrões podem ser aprendidos sem o uso de informações dos padrões antigos que também foram usados ​​para treinamento. Ou seja, quando um novo padrão é usado para treinamento, os novos valores para os pesos dependem apenas dos valores antigos e do novo padrão.

Essas propriedades são desejáveis, uma vez que uma regra de aprendizado que as satisfaça é mais biologicamente plausível. Por exemplo, uma vez que o cérebro humano está sempre aprendendo novos conceitos, pode-se raciocinar que o aprendizado humano é incremental. Um sistema de aprendizado que não fosse incremental geralmente seria treinado apenas uma vez, com um grande lote de dados de treinamento.

Regra de aprendizagem Hebbian para redes Hopfield

A Teoria Hebbian foi introduzida por Donald Hebb em 1949, a fim de explicar a "aprendizagem associativa", na qual a ativação simultânea de células neuronais leva a aumentos pronunciados na força sináptica entre essas células. Muitas vezes é resumido como "Neurônios que disparam juntos, conectam-se juntos. Neurônios que disparam fora de sincronia, falham ao conectar".

A regra Hebbian é local e incremental. Para as redes Hopfield, ele é implementado da seguinte maneira, ao aprender padrões binários:

onde representa o bit i do padrão .

Se os bits correspondentes aos neurônios i e j forem iguais em padrão , o produto será positivo. Isso, por sua vez, teria um efeito positivo sobre o peso e os valores de i e j tenderão a se igualar. O oposto acontece se os bits correspondentes aos neurônios i e j forem diferentes.

Regra de aprendizagem Storkey

Essa regra foi introduzida por Amos Storkey em 1997 e é local e incremental. Storkey também mostrou que uma rede Hopfield treinada usando esta regra tem uma capacidade maior do que uma rede correspondente treinada usando a regra Hebbian. Diz-se que a matriz de peso de uma rede neural atratora segue a regra de aprendizagem Storkey se obedecer:

onde é uma forma de campo local no neurônio i.

Essa regra de aprendizado é local, uma vez que as sinapses levam em consideração apenas os neurônios de seus lados. A regra faz uso de mais informações dos padrões e pesos do que a regra Hebbian generalizada, devido ao efeito do campo local.

Padrões espúrios

Os padrões que a rede usa para treinamento (chamados de estados de recuperação ) tornam-se atratores do sistema. As atualizações repetidas acabariam por levar à convergência para um dos estados de recuperação. No entanto, às vezes a rede convergirá para padrões espúrios (diferentes dos padrões de treinamento). A energia nesses padrões espúrios também é um mínimo local. Para cada padrão armazenado x, a negação -x também é um padrão espúrio.

Um estado espúrio também pode ser uma combinação linear de um número ímpar de estados de recuperação. Por exemplo, ao usar 3 padrões , pode-se obter o seguinte estado espúrio:

Padrões espúrios que têm um número par de estados não podem existir, uma vez que podem somar zero

Capacidade

A capacidade da rede do modelo de rede Hopfield é determinada pela quantidade de neurônios e conexões dentro de uma determinada rede. Portanto, o número de memórias que podem ser armazenadas depende dos neurônios e das conexões. Além disso, foi mostrado que a precisão de recall entre vetores e nós foi de 0,138 (aproximadamente 138 vetores podem ser recuperados do armazenamento para cada 1000 nós) (Hertz et al., 1991). Portanto, é evidente que muitos erros ocorrerão se tentarmos armazenar um grande número de vetores. Quando o modelo de Hopfield não lembra o padrão correto, é possível que tenha ocorrido uma intrusão, uma vez que itens semanticamente relacionados tendem a confundir o indivíduo, e ocorre a lembrança do padrão errado. Portanto, o modelo de rede Hopfield é mostrado para confundir um item armazenado com o de outro na recuperação. Rechamadas perfeitas e alta capacidade,> 0,14, podem ser carregadas na rede pelo método de aprendizagem Storkey; ETAM, experimentos ETAM também em. Modelos ulteriores inspirados na rede Hopfield foram posteriormente concebidos para aumentar o limite de armazenamento e reduzir a taxa de erro de recuperação, com alguns sendo capazes de aprendizado único .

A capacidade de armazenamento pode ser dada como onde está o número de neurônios na rede

Memória humana

O modelo de Hopfield leva em conta a memória associativa por meio da incorporação de vetores de memória. Os vetores de memória podem ser ligeiramente usados, e isso desencadearia a recuperação do vetor mais semelhante na rede. No entanto, descobriremos que devido a esse processo, podem ocorrer intrusões. Na memória associativa para a rede Hopfield, existem dois tipos de operações: auto-associação e hetero-associação. O primeiro é quando um vetor está associado a si mesmo e o último quando dois vetores diferentes estão associados no armazenamento. Além disso, ambos os tipos de operações são possíveis de armazenar dentro de uma única matriz de memória, mas apenas se essa dada matriz de representação não for uma ou outra das operações, mas sim a combinação (auto-associativa e hetero-associativa) das duas. É importante notar que o modelo de rede de Hopfield utiliza a mesma regra de aprendizagem que a regra de aprendizagem de Hebb (1949) , que basicamente tentou mostrar que a aprendizagem ocorre como resultado do fortalecimento dos pesos quando a atividade está ocorrendo.

Rizzuto e Kahana (2001) foram capazes de mostrar que o modelo de rede neural pode explicar a repetição na precisão da recordação, incorporando um algoritmo de aprendizagem probabilística. Durante o processo de recuperação, nenhum aprendizado ocorre. Como resultado, os pesos da rede permanecem fixos, mostrando que o modelo é capaz de passar de um estágio de aprendizado para um estágio de recuperação. Ao adicionar deriva contextual, eles foram capazes de mostrar o esquecimento rápido que ocorre em um modelo de Hopfield durante uma tarefa de evocação com indicação. Toda a rede contribui para a mudança na ativação de um único nó.

A regra dinâmica de McCulloch e Pitts (1943), que descreve o comportamento dos neurônios, o faz de uma forma que mostra como as ativações de vários neurônios se mapeiam na ativação da taxa de disparo de um novo neurônio e como os pesos dos neurônios fortalecem o conexões sinápticas entre o novo neurônio ativado (e aqueles que o ativaram). Hopfield usaria a regra dinâmica de McCulloch-Pitts para mostrar como a recuperação é possível na rede de Hopfield. No entanto, é importante observar que Hopfield faria isso de maneira repetitiva. Hopfield usaria uma função de ativação não linear, em vez de usar uma função linear. Isso criaria, portanto, a regra dinâmica de Hopfield e com isso, Hopfield foi capaz de mostrar que com a função de ativação não linear, a regra dinâmica sempre modificará os valores do vetor de estado na direção de um dos padrões armazenados.

Memória associativa densa ou rede Hopfield moderna

Redes de Hopfield são redes neurais recorrentes com trajetórias dinâmicas convergindo para estados atratores de ponto fixo e descritas por uma função de energia. O estado de cada neurônio modelo é definido por uma variável dependente do tempo , que pode ser escolhida para ser discreta ou contínua. Um modelo completo descreve a matemática de como o estado futuro de atividade de cada neurônio depende da atividade presente ou anterior conhecida de todos os neurônios.

No modelo original de Hopfield de memória associativa, as variáveis ​​eram binárias e a dinâmica era descrita por uma atualização do estado dos neurônios uma por vez. Uma função de energia quadrática no foi definida, e a dinâmica consistia em mudar a atividade de cada neurônio individual apenas se isso diminuir a energia total do sistema. Essa mesma ideia foi estendida para o caso de ser uma variável contínua representando a saída do neurônio , e ser uma função monotônica de uma corrente de entrada. A dinâmica passou a ser expressa como um conjunto de equações diferenciais de primeira ordem para as quais a "energia" do sistema sempre diminuía. A energia no caso contínuo tem um termo que é quadrático no (como no modelo binário) e um segundo termo que depende da função de ganho (função de ativação do neurônio). Embora tenham muitas propriedades desejáveis ​​de memória associativa, ambos os sistemas clássicos sofrem de uma pequena capacidade de armazenamento de memória, que se escala linearmente com o número de recursos de entrada.

As memórias associativas densas (também conhecidas como as redes modernas de Hopfield) são generalizações das redes de Hopfield clássicas que quebram a relação de escala linear entre o número de recursos de entrada e o número de memórias armazenadas. Isso é obtido pela introdução de não linearidades mais fortes (seja na função de energia ou nas funções de ativação dos neurônios), levando a uma capacidade de armazenamento de memória superlinear (até mesmo exponencial) em função do número de neurônios característicos. A rede ainda requer um número suficiente de neurônios ocultos.

A ideia teórica chave por trás das redes modernas de Hopfield é usar uma função de energia e uma regra de atualização que tem um pico mais nítido em torno das memórias armazenadas no espaço das configurações dos neurônios em comparação com a rede clássica de Hopfield.

Variáveis ​​discretas

Um exemplo simples da rede Hopfield moderna pode ser escrito em termos de variáveis ​​binárias que representam o estado ativo e inativo do neurônio modelo .

Nesta fórmula, os pesos representam a matriz de vetores de memória (o índice enumera memórias diferentes e o índice enumera o conteúdo de cada memória correspondente ao -ésimo neurônio característico), e a função é uma função não linear de crescimento rápido. A regra de atualização para neurônios individuais (no caso assíncrono) pode ser escrita da seguinte forma
que afirma que, para calcular o estado atualizado do -ésimo neurônio, a rede compara duas energias: a energia da rede com o -ésimo neurônio no estado LIGADO e a energia da rede com o -ésimo neurônio no estado DESLIGADO , dados os estados do neurônio remanescente. O estado atualizado do -ésimo neurônio seleciona o estado que possui a menor das duas energias.

No caso limite, quando a função de energia não linear é quadrática, essas equações se reduzem à função de energia familiar e à regra de atualização para a rede de Hopfield binária clássica.

A capacidade de armazenamento de memória dessas redes pode ser calculada para padrões binários aleatórios. Para a função de energia de potência, o número máximo de memórias que podem ser armazenadas e recuperadas desta rede sem erros é dado por

Para uma função de energia exponencial, a capacidade de armazenamento da memória é exponencial no número de neurônios característicos
Fig.1 Um exemplo de uma rede Hopfield moderna contínua com neurônios característicos e neurônios de memória (ocultos) com conexões sinápticas simétricas entre eles.

Variáveis ​​contínuas

As redes modernas de Hopfield ou memórias associativas densas podem ser melhor compreendidas em variáveis ​​contínuas e tempo contínuo. Considere a arquitetura da rede, mostrada na Fig.1, e as equações para a evolução dos estados dos neurônios

 

 

 

 

( 1 )

onde as correntes dos neurônios característicos são denotadas por e as correntes dos neurônios da memória são denotadas por ( significa neurônios ocultos). Não há conexões sinápticas entre os neurônios característicos ou os neurônios da memória. Uma matriz denota a força das sinapses de um neurônio de característica para o neurônio de memória . As sinapses são consideradas simétricas, de modo que o mesmo valor caracteriza uma sinapse física diferente do neurônio da memória para o neurônio da característica . As saídas dos neurônios da memória e dos neurônios característicos são denotadas por e , que são funções não lineares das correntes correspondentes. Em geral essas saídas podem depender das correntes de todos os neurônios nessa camada para que e . É conveniente definir essas funções de ativação como derivados das funções Lagrangianas para os dois grupos de neurônios.

 

 

 

 

( 2 )

Desta forma, a forma específica das equações para os estados dos neurônios é completamente definida uma vez que as funções Lagrangianas são especificadas. Finalmente, as constantes de tempo para os dois grupos de neurônios são denotadas por e , é a corrente de entrada para a rede que pode ser acionada pelos dados apresentados. 

Fig.2 Teoria efetiva sobre os neurônios característicos para várias escolhas comuns das funções Lagrangianas. O modelo A reduz-se aos modelos estudados em dependendo da escolha da função de ativação, o modelo B reduz-se ao modelo estudado em, o modelo C reduz-se ao modelo de.

Os sistemas gerais de equações diferenciais não lineares podem ter muitos comportamentos complicados que podem depender da escolha das não linearidades e das condições iniciais. Para a Hopfield Networks, no entanto, esse não é o caso - as trajetórias dinâmicas sempre convergem para um estado atrator de ponto fixo. Esta propriedade é alcançada porque essas equações são especificamente projetadas para que tenham uma função de energia subjacente

 

 

 

 

( 3 )

Os termos agrupados em colchetes representam uma transformação de Legendre da função Lagrangiana com relação aos estados dos neurônios. Se as matrizes Hessianas das funções Lagrangeanas são semi-definidas positivas, a função de energia é garantida para diminuir na trajetória dinâmica

 

 

 

 

( 4 )

Essa propriedade permite provar que o sistema de equações dinâmicas que descrevem a evolução temporal das atividades dos neurônios acabará por atingir um estado atrator de ponto fixo.

Em certas situações, pode-se supor que a dinâmica dos neurônios ocultos se equilibra em uma escala de tempo muito mais rápida em comparação com os neurônios característicos ,. Nesse caso, a solução de estado estacionário da segunda equação no sistema ( 1 ) pode ser usada para expressar as correntes das unidades ocultas por meio das saídas dos neurônios característicos. Isso torna possível reduzir a teoria geral ( 1 ) a uma teoria eficaz apenas para neurônios característicos. As regras de atualização efetiva resultantes e as energias para várias escolhas comuns das funções Lagrangianas são mostradas na Fig.2. No caso da função Lagrangiana log-soma-exponencial, a regra de atualização (se aplicada uma vez) para os estados dos neurônios característicos é o mecanismo de atenção comumente usado em muitos sistemas de IA modernos (ver Ref. Para a derivação deste resultado do contínuo formulação de tempo).

Relação com a rede Hopfield clássica com variáveis ​​contínuas

A formulação clássica de redes de Hopfield contínuas pode ser entendida como um caso limite especial das redes de Hopfield modernas com uma camada oculta. Redes de Hopfield contínuas para neurônios com resposta gradativa são normalmente descritas pelas equações dinâmicas

 

 

 

 

( 5 )

e a função de energia

 

 

 

 

( 6 )

onde , e é o inverso da função de ativação . Este modelo é um limite especial da classe de modelos que é chamada de modelos A, com a seguinte escolha das funções Lagrangianas

 

 

 

 

( 7 )

que, de acordo com a definição ( 2 ), leva às funções de ativação

 

 

 

 

( 8 )

Se integrarmos os neurônios ocultos, o sistema de equações ( 1 ) se reduz às equações dos neurônios característicos ( 5 ) com , e a expressão geral para a energia ( 3 ) se reduz à energia efetiva

 

 

 

 

( 9 )

Enquanto os dois primeiros termos da equação ( 6 ) são iguais aos da equação ( 9 ), os terceiros termos parecem superficialmente diferentes. Na equação ( 9 ), é uma transformada de Legendre da Lagrangiana para os neurônios característicos, enquanto em ( 6 ) o terceiro termo é uma integral da função de ativação inversa. No entanto, essas duas expressões são de fato equivalentes, uma vez que as derivadas de uma função e sua transformada de Legendre são funções inversas uma da outra. A maneira mais fácil de ver que esses dois termos são iguais explicitamente é diferenciar cada um em relação a . Os resultados dessas diferenciações para ambas as expressões são iguais a . Assim, as duas expressões são iguais até uma constante aditiva. Isso completa a prova de que a rede de Hopfield clássica com estados contínuos é um caso limite especial da rede de Hopfield moderna ( 1 ) com energia ( 3 ).

Formulação geral da moderna rede Hopfield

Fig.3 O diagrama de conectividade da moderna rede Hopfield totalmente conectada que consiste em cinco neurônios. Os pesos sinápticos são descritos por uma matriz simétrica .

As redes neurais biológicas têm um grande grau de heterogeneidade em termos de diferentes tipos de células. Esta seção descreve um modelo matemático de uma rede Hopfield moderna totalmente conectada, assumindo o grau extremo de heterogeneidade: cada neurônio é diferente. Especificamente, uma função de energia e as equações dinâmicas correspondentes são descritas assumindo que cada neurônio tem sua própria função de ativação e escala de tempo cinético. Supõe-se que a rede esteja totalmente conectada, de modo que cada neurônio seja conectado a todos os outros neurônios usando uma matriz simétrica de pesos , índices e enumerando diferentes neurônios na rede, ver Fig.3. A maneira mais fácil de formular matematicamente esse problema é definir a arquitetura por meio de uma função Lagrangiana que depende das atividades de todos os neurônios da rede. A função de ativação para cada neurônio é definida como uma derivada parcial do Lagrangiano em relação à atividade desse neurônio

 

 

 

 

( 10 )

Do ponto de vista biológico, pode-se pensar em uma saída axonal do neurônio . No caso mais simples, quando o Lagrangiano é aditivo para diferentes neurônios, essa definição resulta na ativação que é uma função não linear da atividade daquele neurônio. Para Lagrangianos não aditivos, esta função de ativação pode depender das atividades de um grupo de neurônios. Por exemplo, pode conter normalização contrastiva (softmax) ou divisiva. As equações dinâmicas que descrevem a evolução temporal de um determinado neurônio são dadas por

 

 

 

 

( 11 )

Essa equação pertence à classe de modelos chamados modelos de taxa de disparo em neurociência. Cada neurônio coleta as saídas axonais de todos os neurônios, pondera-as com os coeficientes sinápticos e produz sua própria atividade dependente do tempo . A evolução temporal possui uma constante de tempo , que em geral pode ser diferente para cada neurônio. Esta rede tem uma função de energia global

 

 

 

 

( 12 )

onde os dois primeiros termos representam a transformada de Legendre da função Lagrangiana em relação às correntes dos neurônios . A derivada temporal desta função de energia pode ser calculada nas trajetórias dinâmicas que levam a (ver para detalhes)

 

 

 

 

( 13 )

O último sinal de desigualdade é válido desde que a matriz (ou sua parte simétrica) seja semidefinida positiva. Se, além disso, a função de energia for limitada por baixo, as equações dinâmicas não lineares convergirão para um estado atrator de ponto fixo. A vantagem de formular essa rede em termos das funções lagrangianas é que ela torna possível experimentar facilmente diferentes escolhas das funções de ativação e diferentes arranjos arquitetônicos de neurônios. Para todas essas escolhas flexíveis, as condições de convergência são determinadas pelas propriedades da matriz e pela existência do limite inferior na função de energia.

Fig.4 O diagrama de conectividade da rede de Memória Associativa Hierárquica em camadas. Cada camada pode ter um número diferente de neurônios, funções de ativação diferentes e escalas de tempo diferentes. Os pesos de feedforward e de feedback são iguais.

Rede de memória associativa hierárquica

Os neurônios podem ser organizados em camadas de modo que cada neurônio em uma determinada camada tenha a mesma função de ativação e a mesma escala de tempo dinâmica. Se assumirmos que não há conexões horizontais entre os neurônios dentro da camada (conexões laterais) e não há conexões skip-layer, a rede geral totalmente conectada ( 11 ), ( 12 ) se reduz à arquitetura mostrada na Fig.4. Ele tem camadas de neurônios conectados de forma recorrente com os estados descritos por variáveis ​​contínuas e as funções de ativação , índice enumera as camadas da rede e índice enumera neurônios individuais nessa camada. As funções de ativação podem depender das atividades de todos os neurônios da camada. Cada camada pode ter um número diferente de neurônios . Esses neurônios são conectados de forma recorrente com os neurônios das camadas anteriores e subsequentes. As matrizes de pesos que conectam neurônios em camadas e são denotadas por (a ordem dos índices superiores para pesos é a mesma que a ordem dos índices inferiores; no exemplo acima, isso significa que o índice enumera neurônios na camada , e o índice enumera neurônios na camada ). Os pesos de feedforward e os pesos de feedback são iguais. As equações dinâmicas para os estados dos neurônios podem ser escritas como

 

 

 

 

( 14 )

com condições de limite

 

 

 

 

( 15 )

A principal diferença dessas equações em relação às redes feedforward convencionais é a presença do segundo termo, que é responsável pelo feedback das camadas superiores. Esses sinais de cima para baixo ajudam os neurônios nas camadas inferiores a decidir sobre sua resposta aos estímulos apresentados. Seguindo a receita geral, é conveniente introduzir uma função Lagrangiana para a -ésima camada oculta, que depende das atividades de todos os neurônios nessa camada. As funções de ativação nessa camada podem ser definidas como derivadas parciais do Lagrangiano

 

 

 

 

( 16 )

Com essas definições, a função de energia (Lyapunov) é dada por

 

 

 

 

( 17 )

Se as funções Lagrangianas, ou equivalentemente as funções de ativação, são escolhidas de tal forma que os Hessianos para cada camada são semidefinidos positivos e a energia total é limitada a partir de baixo, este sistema é garantido para convergir para um estado atrator de ponto fixo. A derivada temporal desta função de energia é dada por

 

 

 

 

( 18 )

Assim, a rede em camadas hierárquicas é de fato uma rede de atratores com a função de energia global. Essa rede é descrita por um conjunto hierárquico de pesos sinápticos que podem ser aprendidos para cada problema específico.

Veja também

Referências

links externos