Aprendizagem da diferença temporal - Temporal difference learning

Aprendizagem de diferença temporal ( TD ) refere-se a uma classe de métodos de aprendizagem de reforço sem modelo que aprendem por bootstrap da estimativa atual da função de valor. Esses métodos são amostras do ambiente, como métodos de Monte Carlo , e executam atualizações com base nas estimativas atuais, como métodos de programação dinâmica .

Enquanto os métodos de Monte Carlo apenas ajustam suas estimativas quando o resultado final é conhecido, os métodos TD ajustam as previsões para corresponder às previsões posteriores e mais precisas sobre o futuro antes que o resultado final seja conhecido. Esta é uma forma de autoinicialização , conforme ilustrado no exemplo a seguir:

"Suponha que você deseja prever o tempo para sábado e tem algum modelo que prevê o tempo de sábado, considerando o clima de cada dia da semana. No caso padrão, você esperaria até sábado e ajustaria todos os seus modelos. No entanto, quando é, por exemplo, sexta-feira, você deve ter uma boa ideia de como o tempo estaria no sábado - e assim ser capaz de alterar, digamos, o modelo do sábado antes da chegada do sábado. "

Os métodos de diferença temporal estão relacionados ao modelo de diferença temporal de aprendizagem animal.

Formulação matemática

O método tabular TD (0) é um dos métodos TD mais simples. É um caso especial de métodos de aproximação estocásticos mais gerais. Ele estima a função de valor de estado de um processo de decisão de Markov de estado finito (MDP) sob uma política . Vamos denotar a função de valor de estado do MDP com estados , recompensas e taxa de desconto de acordo com a política : ${\ displaystyle \ pi}$ ${\ displaystyle V ^ {\ pi}}$ ${\ displaystyle (s_ {t}) _ {t \ in \ mathbb {N}}}$ ${\ displaystyle (r_ {t}) _ {t \ in \ mathbb {N}}}$ ${\ displaystyle \ gamma}$ ${\ displaystyle \ pi}$

{\ displaystyle V ^ {\ pi} (s) = E_ {a \ sim \ pi} \ left \ {\ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t} (a_ {t}) {\ Bigg |} s_ {0} = s \ right \}.}

Tiramos a ação da notação por conveniência. satisfaz a Equação de Hamilton-Jacobi-Bellman : ${\ displaystyle V ^ {\ pi}}$

{\ displaystyle V ^ {\ pi} (s) = E _ {\ pi} \ {r_ {0} + \ gamma V ^ {\ pi} (s_ {1}) | s_ {0} = s \},}

o mesmo acontece com uma estimativa imparcial para . Essa observação motiva o seguinte algoritmo de estimativa . ${\ displaystyle r_ {0} + \ gamma V ^ {\ pi} (s_ {1})}$ ${\ displaystyle V ^ {\ pi} (s)}$ ${\ displaystyle V ^ {\ pi}}$

O algoritmo começa inicializando uma tabela arbitrariamente, com um valor para cada estado do MDP. Uma taxa de aprendizagem positiva é escolhida. ${\ displaystyle V (s)}$ ${\ displaystyle \ alpha}$

Em seguida, avaliamos repetidamente a política , obtemos uma recompensa e atualizamos a função de valor para o estado antigo usando a regra: ${\ displaystyle \ pi}$ ${\ displaystyle r}$

{\ displaystyle V (s) \ leftarrow V (s) + \ alpha (\ overbrace {r + \ gamma V (s ')} ^ {\ text {O alvo TD}} - V (s))}

onde e estão os estados antigo e novo, respectivamente. O valor é conhecido como alvo TD. ${\ displaystyle s}$ ${\ displaystyle s '}$ ${\ displaystyle r + \ gamma V (s ')}$

TD-Lambda

TD-Lambda é um algoritmo de aprendizagem inventado por Richard S. Sutton com base em trabalhos anteriores sobre aprendizagem por diferença temporal de Arthur Samuel . Esse algoritmo foi aplicado por Gerald Tesauro para criar o TD-Gammon , um programa que aprendeu a jogar gamão no nível de jogadores humanos experientes.

O parâmetro lambda ( ) se refere ao parâmetro de decaimento do traço, com . Configurações mais altas levam a traços mais duradouros; ou seja, uma proporção maior de crédito de uma recompensa pode ser dada a estados e ações mais distantes quando é maior, com a produção de aprendizado paralelo para algoritmos RL de Monte Carlo. ${\ displaystyle \ lambda}$ ${\ displaystyle 0 \ leqslant \ lambda \ leqslant 1}$ ${\ displaystyle \ lambda}$ ${\ displaystyle \ lambda = 1}$

Algoritmo TD em neurociência

O algoritmo TD também tem recebido atenção no campo da neurociência . Os pesquisadores descobriram que a taxa de disparo dos neurônios de dopamina na área tegmental ventral (VTA) e na substância negra (SNc) parecem imitar a função de erro no algoritmo. A função de erro relata a diferença entre a recompensa estimada em qualquer estado ou etapa de tempo e a recompensa real recebida. Quanto maior for a função de erro, maior será a diferença entre a recompensa esperada e a real. Quando isso é emparelhado com um estímulo que reflete com precisão uma recompensa futura, o erro pode ser usado para associar o estímulo à recompensa futura .

As células dopaminérgicas parecem se comportar de maneira semelhante. Em um experimento, medições de células de dopamina foram feitas durante o treinamento de um macaco para associar um estímulo à recompensa do suco. Inicialmente, as células de dopamina aumentaram as taxas de disparo quando o macaco recebeu suco, indicando uma diferença nas recompensas esperadas e reais. Com o tempo, esse aumento no disparo se propagou até o primeiro estímulo confiável para a recompensa. Uma vez que o macaco estava totalmente treinado, não houve aumento na taxa de tiro após a apresentação da recompensa prevista. Posteriormente, a taxa de disparo para as células de dopamina diminuiu abaixo da ativação normal quando a recompensa esperada não foi produzida. Isso imita de perto como a função de erro no DT é usada para aprendizagem por reforço .

A relação entre o modelo e a função neurológica potencial produziu pesquisas que tentam usar o DT para explicar muitos aspectos da pesquisa comportamental. Também tem sido usado para estudar condições como a esquizofrenia ou as consequências das manipulações farmacológicas da dopamina na aprendizagem.

Veja também

Notas

^ ^a ^b Richard Sutton & Andrew Barto (1998). Aprendizagem por reforço . MIT Press. ISBN 978-0-585-02445-5. Arquivado do original em 30/03/2017.
^ ^a ^b Richard Sutton (1988). “Aprender a prever pelos métodos das diferenças temporais” . Aprendizado de máquina . 3 (1): 9–44. doi : 10.1007 / BF00115009 .(Uma versão revisada está disponível na página de publicação de Richard Sutton Arquivado em 30-03-2017 na Wayback Machine )
^ ^a ^b Schultz, W, Dayan, P & Montague, PR. (1997). "Um substrato neural de predição e recompensa". Ciência . 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176 . doi : 10.1126 / science.275.5306.1593 . PMID 9054347 .CS1 maint: vários nomes: lista de autores ( link )
^ ^a ^b Montague, PR; Dayan, P .; Sejnowski, TJ (1996-03-01). "Uma estrutura para sistemas de dopamina mesencefálica com base na aprendizagem hebraica preditiva" (PDF) . The Journal of Neuroscience . 16 (5): 1936–1947. doi : 10.1523 / JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .
^ ^a ^b Montague, PR; Dayan, P .; Nowlan, SJ; Pouget, A .; Sejnowski, TJ (1993). "Usando reforço aperiódico para auto-organização dirigida" (PDF) . Avanços em Sistemas de Processamento de Informação Neural . 5 : 969–976.
^ ^a ^b Montague, PR; Sejnowski, TJ (1994). "O cérebro preditivo: coincidência temporal e ordem temporal nos mecanismos de aprendizagem sináptica". Aprendizagem e memória . 1 (1): 1–33. ISSN 1072-0502 . PMID 10467583 .
^ ^a ^b Sejnowski, TJ; Dayan, P .; Montague, PR (1995). "Aprendizagem hebbian preditiva" (PDF) . Proceedings of Eighth ACM Conference on Computational Learning Theory : 15-18. doi : 10.1145 / 225298.225300 . ISBN 0897917235.
^ O parâmetro de taxa de desconto permite uma preferência de tempo em direção a recompensas mais imediatas, e longe de recompensas futuras distantes
^ Aprendizagem por reforço: Uma introdução (PDF) . p. 130. Arquivado do original (PDF) em 12/07/2017.
^ Tesauro, Gerald (março de 1995). "Aprendizagem por diferença temporal e TD-Gammon" . Comunicações da ACM . 38 (3): 58–68. doi : 10.1145 / 203330.203343 . Página visitada em 2010-02-08 .
^ Schultz, W. (1998). "Sinal de recompensa preditiva de neurônios de dopamina". Journal of Neurophysiology . 80 (1): 1–27. CiteSeerX 10.1.1.408.5994 . doi : 10.1152 / jn.1998.80.1.1 . PMID 9658025 .
^ Dayan, P. (2001). "Aprendizagem por reforço motivado" (PDF) . Avanços em Sistemas de Processamento de Informação Neural . MIT Press. 14 : 11–18.
^ Smith, A., Li, M., Becker, S. e Kapur, S. (2006). "Dopamina, erro de predição e aprendizagem associativa: uma conta baseada em modelo". Rede: Computação em Sistemas Neurais . 17 (1): 61–84. doi : 10.1080 / 09548980500361624 . PMID 16613795 .CS1 maint: vários nomes: lista de autores ( link )

Bibliografia

Sutton, RS, Barto AG (1990). "Modelos Derivativos de Tempo de Reforço Pavloviano" (PDF) . Learning and Computational Neuroscience: Foundations of Adaptive Networks : 497–537.CS1 maint: vários nomes: lista de autores ( link )
Gerald Tesauro (março de 1995). "Aprendizagem por diferença temporal e TD-Gammon" . Comunicações da ACM . 38 (3): 58–68. doi : 10.1145 / 203330.203343 .
Imran Ghory. Aprendizagem por Reforço em Jogos de Tabuleiro .
SP Meyn, 2007. Control Techniques for Complex Networks , Cambridge University Press, 2007. Veja o capítulo final e o apêndice com o resumo de Meyn & Tweedie .

links externos

Scholarpedia Diferença Temporal Aprendizagem
TD-Gammon
Grupo de Pesquisa TD-Networks
Applet Connect Four TDGravity (+ versão para celular) - autoaprendizado usando o método TD-Leaf (combinação de TD-Lambda com pesquisa em árvore rasa)
Autoaprendizado Meta-Tic-Tac-Toe Exemplo de aplicativo da web mostrando como o aprendizado de diferença temporal pode ser usado para aprender constantes de avaliação de estado para um minimax AI jogando um jogo de tabuleiro simples.
Problema de Aprendizagem por Reforço , documento que explica como a aprendizagem de diferença temporal pode ser usada para acelerar o Q-learning
TD-Simulator Simulador de diferença temporal para condicionamento clássico

[RSutton-1998-1] Richard Sutton & Andrew Barto (1998). Aprendizagem por reforço . MIT Press. ISBN 978-0-585-02445-5. Arquivado do original em 30/03/2017.

[RSutton-1988-2] Richard Sutton (1988). “Aprender a prever pelos métodos das diferenças temporais” . Aprendizado de máquina . 3 (1): 9–44. doi : 10.1007 / BF00115009 .(Uma versão revisada está disponível na página de publicação de Richard Sutton Arquivado em 30-03-2017 na Wayback Machine )

[WSchultz-1997-3] Schultz, W, Dayan, P & Montague, PR. (1997). "Um substrato neural de predição e recompensa". Ciência . 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176 . doi : 10.1126 / science.275.5306.1593 . PMID 9054347 .CS1 maint: vários nomes: lista de autores ( link )

[:0-4] Montague, PR; Dayan, P .; Sejnowski, TJ (1996-03-01). "Uma estrutura para sistemas de dopamina mesencefálica com base na aprendizagem hebraica preditiva" (PDF) . The Journal of Neuroscience . 16 (5): 1936–1947. doi : 10.1523 / JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .

[:1-5] Montague, PR; Dayan, P .; Nowlan, SJ; Pouget, A .; Sejnowski, TJ (1993). "Usando reforço aperiódico para auto-organização dirigida" (PDF) . Avanços em Sistemas de Processamento de Informação Neural . 5 : 969–976.

[:2-6] Montague, PR; Sejnowski, TJ (1994). "O cérebro preditivo: coincidência temporal e ordem temporal nos mecanismos de aprendizagem sináptica". Aprendizagem e memória . 1 (1): 1–33. ISSN 1072-0502 . PMID 10467583 .

[:3-7] Sejnowski, TJ; Dayan, P .; Montague, PR (1995). "Aprendizagem hebbian preditiva" (PDF) . Proceedings of Eighth ACM Conference on Computational Learning Theory : 15-18. doi : 10.1145 / 225298.225300 . ISBN 0897917235.

[8] ^ O parâmetro de taxa de desconto permite uma preferência de tempo em direção a recompensas mais imediatas, e longe de recompensas futuras distantes

[9] Aprendizagem por reforço: Uma introdução (PDF) . p. 130. Arquivado do original (PDF) em 12/07/2017.

[CACM-10] Tesauro, Gerald (março de 1995). "Aprendizagem por diferença temporal e TD-Gammon" . Comunicações da ACM . 38 (3): 58–68. doi : 10.1145 / 203330.203343 . Página visitada em 2010-02-08 .

[WSchultz-1998-11] Schultz, W. (1998). "Sinal de recompensa preditiva de neurônios de dopamina". Journal of Neurophysiology . 80 (1): 1–27. CiteSeerX 10.1.1.408.5994 . doi : 10.1152 / jn.1998.80.1.1 . PMID 9658025 .

[PDayan-2001-12] Dayan, P. (2001). "Aprendizagem por reforço motivado" (PDF) . Avanços em Sistemas de Processamento de Informação Neural . MIT Press. 14 : 11–18.

[ASmith-2006-13] Smith, A., Li, M., Becker, S. e Kapur, S. (2006). "Dopamina, erro de predição e aprendizagem associativa: uma conta baseada em modelo". Rede: Computação em Sistemas Neurais . 17 (1): 61–84. doi : 10.1080 / 09548980500361624 . PMID 16613795 .CS1 maint: vários nomes: lista de autores ( link )

Languages

In other projects