Aprendizagem da diferença temporal - Temporal difference learning

Aprendizagem de diferença temporal ( TD ) refere-se a uma classe de métodos de aprendizagem de reforço sem modelo que aprendem por bootstrap da estimativa atual da função de valor. Esses métodos são amostras do ambiente, como métodos de Monte Carlo , e executam atualizações com base nas estimativas atuais, como métodos de programação dinâmica .

Enquanto os métodos de Monte Carlo apenas ajustam suas estimativas quando o resultado final é conhecido, os métodos TD ajustam as previsões para corresponder às previsões posteriores e mais precisas sobre o futuro antes que o resultado final seja conhecido. Esta é uma forma de autoinicialização , conforme ilustrado no exemplo a seguir:

"Suponha que você deseja prever o tempo para sábado e tem algum modelo que prevê o tempo de sábado, considerando o clima de cada dia da semana. No caso padrão, você esperaria até sábado e ajustaria todos os seus modelos. No entanto, quando é, por exemplo, sexta-feira, você deve ter uma boa ideia de como o tempo estaria no sábado - e assim ser capaz de alterar, digamos, o modelo do sábado antes da chegada do sábado. "

Os métodos de diferença temporal estão relacionados ao modelo de diferença temporal de aprendizagem animal.

Formulação matemática

O método tabular TD (0) é um dos métodos TD mais simples. É um caso especial de métodos de aproximação estocásticos mais gerais. Ele estima a função de valor de estado de um processo de decisão de Markov de estado finito (MDP) sob uma política . Vamos denotar a função de valor de estado do MDP com estados , recompensas e taxa de desconto de acordo com a política :

Tiramos a ação da notação por conveniência. satisfaz a Equação de Hamilton-Jacobi-Bellman :

o mesmo acontece com uma estimativa imparcial para . Essa observação motiva o seguinte algoritmo de estimativa .

O algoritmo começa inicializando uma tabela arbitrariamente, com um valor para cada estado do MDP. Uma taxa de aprendizagem positiva é escolhida.

Em seguida, avaliamos repetidamente a política , obtemos uma recompensa e atualizamos a função de valor para o estado antigo usando a regra:

onde e estão os estados antigo e novo, respectivamente. O valor é conhecido como alvo TD.

TD-Lambda

TD-Lambda é um algoritmo de aprendizagem inventado por Richard S. Sutton com base em trabalhos anteriores sobre aprendizagem por diferença temporal de Arthur Samuel . Esse algoritmo foi aplicado por Gerald Tesauro para criar o TD-Gammon , um programa que aprendeu a jogar gamão no nível de jogadores humanos experientes.

O parâmetro lambda ( ) se refere ao parâmetro de decaimento do traço, com . Configurações mais altas levam a traços mais duradouros; ou seja, uma proporção maior de crédito de uma recompensa pode ser dada a estados e ações mais distantes quando é maior, com a produção de aprendizado paralelo para algoritmos RL de Monte Carlo.

Algoritmo TD em neurociência

O algoritmo TD também tem recebido atenção no campo da neurociência . Os pesquisadores descobriram que a taxa de disparo dos neurônios de dopamina na área tegmental ventral (VTA) e na substância negra (SNc) parecem imitar a função de erro no algoritmo. A função de erro relata a diferença entre a recompensa estimada em qualquer estado ou etapa de tempo e a recompensa real recebida. Quanto maior for a função de erro, maior será a diferença entre a recompensa esperada e a real. Quando isso é emparelhado com um estímulo que reflete com precisão uma recompensa futura, o erro pode ser usado para associar o estímulo à recompensa futura .

As células dopaminérgicas parecem se comportar de maneira semelhante. Em um experimento, medições de células de dopamina foram feitas durante o treinamento de um macaco para associar um estímulo à recompensa do suco. Inicialmente, as células de dopamina aumentaram as taxas de disparo quando o macaco recebeu suco, indicando uma diferença nas recompensas esperadas e reais. Com o tempo, esse aumento no disparo se propagou até o primeiro estímulo confiável para a recompensa. Uma vez que o macaco estava totalmente treinado, não houve aumento na taxa de tiro após a apresentação da recompensa prevista. Posteriormente, a taxa de disparo para as células de dopamina diminuiu abaixo da ativação normal quando a recompensa esperada não foi produzida. Isso imita de perto como a função de erro no DT é usada para aprendizagem por reforço .

A relação entre o modelo e a função neurológica potencial produziu pesquisas que tentam usar o DT para explicar muitos aspectos da pesquisa comportamental. Também tem sido usado para estudar condições como a esquizofrenia ou as consequências das manipulações farmacológicas da dopamina na aprendizagem.

Veja também

Notas

  1. ^ a b Richard Sutton & Andrew Barto (1998). Aprendizagem por reforço . MIT Press. ISBN 978-0-585-02445-5. Arquivado do original em 30/03/2017.
  2. ^ a b Richard Sutton (1988). “Aprender a prever pelos métodos das diferenças temporais” . Aprendizado de máquina . 3 (1): 9–44. doi : 10.1007 / BF00115009 .(Uma versão revisada está disponível na página de publicação de Richard Sutton Arquivado em 30-03-2017 na Wayback Machine )
  3. ^ a b Schultz, W, Dayan, P & Montague, PR. (1997). "Um substrato neural de predição e recompensa". Ciência . 275 (5306): 1593–1599. CiteSeerX  10.1.1.133.6176 . doi : 10.1126 / science.275.5306.1593 . PMID  9054347 .CS1 maint: vários nomes: lista de autores ( link )
  4. ^ a b Montague, PR; Dayan, P .; Sejnowski, TJ (1996-03-01). "Uma estrutura para sistemas de dopamina mesencefálica com base na aprendizagem hebraica preditiva" (PDF) . The Journal of Neuroscience . 16 (5): 1936–1947. doi : 10.1523 / JNEUROSCI.16-05-01936.1996 . ISSN  0270-6474 . PMC  6578666 . PMID  8774460 .
  5. ^ a b Montague, PR; Dayan, P .; Nowlan, SJ; Pouget, A .; Sejnowski, TJ (1993). "Usando reforço aperiódico para auto-organização dirigida" (PDF) . Avanços em Sistemas de Processamento de Informação Neural . 5 : 969–976.
  6. ^ a b Montague, PR; Sejnowski, TJ (1994). "O cérebro preditivo: coincidência temporal e ordem temporal nos mecanismos de aprendizagem sináptica". Aprendizagem e memória . 1 (1): 1–33. ISSN  1072-0502 . PMID  10467583 .
  7. ^ a b Sejnowski, TJ; Dayan, P .; Montague, PR (1995). "Aprendizagem hebbian preditiva" (PDF) . Proceedings of Eighth ACM Conference on Computational Learning Theory : 15-18. doi : 10.1145 / 225298.225300 . ISBN 0897917235.
  8. ^ O parâmetro de taxa de desconto permite uma preferência de tempo em direção a recompensas mais imediatas, e longe de recompensas futuras distantes
  9. ^ Aprendizagem por reforço: Uma introdução (PDF) . p. 130. Arquivado do original (PDF) em 12/07/2017.
  10. ^ Tesauro, Gerald (março de 1995). "Aprendizagem por diferença temporal e TD-Gammon" . Comunicações da ACM . 38 (3): 58–68. doi : 10.1145 / 203330.203343 . Página visitada em 2010-02-08 .
  11. ^ Schultz, W. (1998). "Sinal de recompensa preditiva de neurônios de dopamina". Journal of Neurophysiology . 80 (1): 1–27. CiteSeerX  10.1.1.408.5994 . doi : 10.1152 / jn.1998.80.1.1 . PMID  9658025 .
  12. ^ Dayan, P. (2001). "Aprendizagem por reforço motivado" (PDF) . Avanços em Sistemas de Processamento de Informação Neural . MIT Press. 14 : 11–18.
  13. ^ Smith, A., Li, M., Becker, S. e Kapur, S. (2006). "Dopamina, erro de predição e aprendizagem associativa: uma conta baseada em modelo". Rede: Computação em Sistemas Neurais . 17 (1): 61–84. doi : 10.1080 / 09548980500361624 . PMID  16613795 .CS1 maint: vários nomes: lista de autores ( link )

Bibliografia

links externos