Estado-ação-recompensa-estado-ação - State–action–reward–state–action

Estado-ação-recompensa-estado-ação ( SARSA ) é um algoritmo para aprender uma política de processo de decisão de Markov , usado na área de aprendizado por reforço do aprendizado de máquina . Foi proposto por Rummery e Niranjan em uma nota técnica com o nome "Modified Connectionist Q-Learning" (MCQ-L). O nome alternativo SARSA, proposto por Rich Sutton , foi mencionado apenas em nota de rodapé.

Este nome simplesmente reflete o fato de que a função principal para atualizar o valor Q depende do estado atual do agente " S 1 ", a ação que o agente escolhe " A 1 ", a recompensa " R " que o agente obtém por escolher este ação, o estado " S 2 " que o agente entra após realizar aquela ação e, finalmente, a próxima ação " A 2 " que o agente escolhe em seu novo estado. A sigla para o quíntuplo (s t , a t , r t , s t + 1 , a t + 1 ) é SARSA. Alguns autores usam uma convenção ligeiramente diferente e escrevem o quíntuplo (s t , a t , r t + 1 , s t + 1 , a t + 1 ), dependendo a qual intervalo de tempo a recompensa é formalmente atribuída. O restante do artigo usa a convenção anterior.

Algoritmo

Um agente SARSA interage com o ambiente e atualiza a política com base nas ações executadas, portanto, isso é conhecido como um algoritmo de aprendizagem na política . O valor Q para uma ação de estado é atualizado por um erro, ajustado pela taxa de aprendizagem alfa. Os valores de Q representam a possível recompensa recebida na próxima etapa de tempo por realizar uma ação a in state s , mais a recompensa futura com desconto recebida na próxima observação de ação de estado.

O Q-learning de Watkin atualiza uma estimativa da função de valor de ação de estado ótima com base na recompensa máxima de ações disponíveis. Enquanto o SARSA aprende os valores Q associados à adoção da política que ele segue, o Q-learning do Watkin aprende os valores Q associados à adoção da política ótima enquanto segue uma política de exploração / exploração .

Algumas otimizações do Q-learning de Watkin podem ser aplicadas ao SARSA.

Hiperparâmetros

Taxa de aprendizagem (alfa)

A taxa de aprendizado determina em que medida as informações recém-adquiridas substituem as informações antigas. Um fator de 0 fará com que o agente não aprenda nada, enquanto um fator de 1 faria com que o agente considerasse apenas as informações mais recentes.

Fator de desconto (gama)

O fator de desconto determina a importância das recompensas futuras. Um fator de desconto de fator de 0 torna o agente "oportunista" ou "míope", por exemplo, por considerar apenas as recompensas atuais, enquanto um fator próximo a 1 o fará se empenhar por uma alta recompensa de longo prazo. Se o fator de desconto for igual ou superior a 1, os valores podem divergir.

Condições iniciais ( Q ( s 0 , a 0 ) )

Como o SARSA é um algoritmo iterativo, ele assume implicitamente uma condição inicial antes que ocorra a primeira atualização. Um valor inicial baixo (infinito), também conhecido como "condições iniciais otimistas", pode encorajar a exploração: não importa qual ação ocorra, a regra de atualização faz com que ela tenha valores mais altos que a outra alternativa, aumentando assim sua probabilidade de escolha. Em 2013, foi sugerido que a primeira recompensa r pudesse ser usada para redefinir as condições iniciais. De acordo com esta ideia, a primeira vez que uma ação seja tomada a recompensa é usado para definir o valor de Q . Isso permite o aprendizado imediato no caso de recompensas determinísticas fixas. Esta abordagem de redefinição das condições iniciais (RIC) parece ser consistente com o comportamento humano em experimentos de escolha binária repetidos.

Referências