Controle estocástico - Stochastic control

O controle estocástico ou controle estocástico ótimo é um subcampo da teoria de controle que lida com a existência de incerteza nas observações ou no ruído que impulsiona a evolução do sistema. O projetista do sistema assume, de uma maneira baseada na probabilidade bayesiana , que o ruído aleatório com distribuição de probabilidade conhecida afeta a evolução e a observação das variáveis ​​de estado. O controle estocástico visa projetar a trajetória temporal das variáveis ​​controladas que realizam a tarefa de controle desejada com custo mínimo, de alguma forma definido, apesar da presença deste ruído. O contexto pode ser tempo discreto ou tempo contínuo .

Equivalência de certeza

Uma formulação extremamente bem estudada no controle estocástico é a do controle gaussiano quadrático linear . Aqui, o modelo é linear, a função objetivo é o valor esperado de uma forma quadrática e os distúrbios são puramente aditivos. Um resultado básico para sistemas centralizados em tempo discreto com apenas incerteza aditiva é a propriedade de equivalência de certeza : que a solução de controle ótima, neste caso, é a mesma que seria obtida na ausência das perturbações aditivas. Esta propriedade é aplicável a todos os sistemas centralizados com equações lineares de evolução, função de custo quadrática e ruído entrando no modelo apenas aditivamente; a suposição quadrática permite que as leis de controle ótimas, que seguem a propriedade de equivalência de certeza, sejam funções lineares das observações dos controladores.

Qualquer desvio das suposições acima - uma equação de estado não linear, uma função objetivo não quadrática, ruído nos parâmetros multiplicativos do modelo ou descentralização do controle - faz com que a propriedade de equivalência de certeza não seja válida. Por exemplo, seu fracasso em manter o controle descentralizado foi demonstrado no contra-exemplo de Witsenhausen .

Tempo discreto

Em um contexto de tempo discreto, o tomador de decisão observa a variável de estado, possivelmente com ruído observacional, em cada período de tempo. O objetivo pode ser otimizar a soma dos valores esperados de uma função objetivo não linear (possivelmente quadrática) ao longo de todos os períodos de tempo do presente ao período final de interesse, ou otimizar o valor da função objetivo apenas a partir do período final . A cada período de tempo, novas observações são feitas e as variáveis ​​de controle devem ser ajustadas de forma otimizada. Encontrar a solução ótima para o tempo presente pode envolver a iteração de uma equação de matriz de Riccati para trás no tempo desde o último período até o período presente.

No caso de tempo discreto com incerteza sobre os valores dos parâmetros na matriz de transição (dando o efeito dos valores atuais das variáveis ​​de estado em sua própria evolução) e / ou a matriz de resposta de controle da equação de estado, mas ainda com um estado linear equação e função objetivo quadrática, uma equação de Riccati ainda pode ser obtida para iterar para trás para a solução de cada período, embora a equivalência de certeza não se aplique. ch.13 O caso de tempo discreto de uma função de perda não quadrática, mas apenas distúrbios aditivos também podem ser tratados, embora com mais complicações.

Exemplo

Uma especificação típica do problema de controle quadrático linear estocástico de tempo discreto é minimizar

onde E 1 é o operador de valor esperado condicional em y 0 , o sobrescrito T indica uma transposta de matriz e S é o horizonte de tempo, sujeito à equação de estado

onde y é um vetor n × 1 de variáveis ​​de estado observáveis, u é um vetor k × 1 de variáveis ​​de controle, A t é o tempo t realização da matriz de transição de estado estocástica n × n , B t é o tempo t realização da matriz estocástica n × k de multiplicadores de controle e Q ( n × n ) e R ( k × k ) são matrizes de custo definido positivo simétrico conhecidas. Assumimos que cada elemento de A e B é distribuído conjuntamente de forma independente e idêntica ao longo do tempo, de modo que as operações de valor esperado não precisam ser condicionais no tempo.

A indução para trás no tempo pode ser usada para obter a solução de controle ideal a cada momento,

com a matriz simétrica positiva definida de custo para avançar X evoluindo para trás no tempo de acordo com

que é conhecido como a equação de Riccati dinâmica em tempo discreto desse problema. A única informação necessária em relação aos parâmetros desconhecidos nas matrizes A e B é o valor esperado e a variância de cada elemento de cada matriz e as covariâncias entre os elementos da mesma matriz e entre os elementos nas matrizes.

A solução de controle ideal não é afetada se choques aditivos iid de média zero também aparecem na equação de estado, desde que não estejam correlacionados com os parâmetros nas matrizes A e B. Mas se eles estiverem correlacionados, então a solução de controle ideal para cada período contém um vetor de constante aditiva adicional. Se um vetor de constante aditiva aparecer na equação de estado, então, novamente, a solução de controle ideal para cada período contém um vetor de constante aditiva adicional.

A caracterização de estado estacionário de X (se existir), relevante para o problema de horizonte infinito em que S vai para o infinito, pode ser encontrada iterando a equação dinâmica para X repetidamente até que ela convirja; então X é caracterizado por remover os subscritos de tempo de sua equação dinâmica.

Tempo contínuo

Se o modelo estiver em tempo contínuo, o controlador conhece o estado do sistema a cada instante de tempo. O objectivo é o de maximizar quer um integrante de, por exemplo, uma função côncava de uma variável de estado ao longo de um horizonte de tempo zero (o presente) para um tempo terminal T , ou uma função côncava de uma variável de estado numa data futura T . Conforme o tempo passa, novas observações são feitas continuamente e as variáveis ​​de controle são continuamente ajustadas de maneira ótima.

Controle preditivo do modelo estocástico

Na literatura, existem dois tipos de MPCs para sistemas estocásticos; Controle preditivo de modelo robusto e Controle Preditivo de Modelo Estocástico (SMPC). O controle preditivo do modelo robusto é um método mais conservador que considera o pior cenário no procedimento de otimização. No entanto, este método, semelhante a outros controles robustos, deteriora o desempenho geral do controlador e também é aplicável apenas para sistemas com incertezas limitadas. O método alternativo, SMPC, considera restrições suaves que limitam o risco de violação por uma desigualdade probabilística.

Nas finanças

Em uma abordagem de tempo contínuo em um contexto financeiro , a variável de estado na equação diferencial estocástica é geralmente riqueza ou patrimônio líquido, e os controles são as ações colocadas a cada momento nos vários ativos. Dada a alocação de ativos escolhida a qualquer momento, os determinantes da mudança na riqueza são geralmente os retornos estocásticos dos ativos e a taxa de juros do ativo livre de risco. O campo do controle estocástico se desenvolveu muito desde a década de 1970, principalmente em suas aplicações financeiras. Robert Merton usou o controle estocástico para estudar carteiras ideais de ativos seguros e arriscados. Seu trabalho e o de Black-Scholes mudaram a natureza da literatura financeira . Tratamentos de livros de matemática influentes foram feitos por Fleming e Rishel e por Fleming e Soner . Essas técnicas foram aplicadas por Stein na crise financeira de 2007-08 .

A maximização, digamos, do logaritmo esperado do patrimônio líquido em uma data terminal T , está sujeita a processos estocásticos sobre os componentes da riqueza. Nesse caso, em tempo contínuo a equação de Itô é a principal ferramenta de análise. No caso em que a maximização é uma integral de uma função côncava de utilidade ao longo de um horizonte (0, T ), a programação dinâmica é usada. Não há equivalência de certeza como na literatura mais antiga, porque os coeficientes das variáveis ​​de controle - isto é, os retornos recebidos pelas ações escolhidas dos ativos - são estocásticos.

Veja também

Referências

Leitura adicional

  • Dixit, Avinash (1991). "Um tratamento simplificado da teoria da regulação ótima do movimento browniano". Journal of Economic Dynamics and Control . 15 (4): 657–673. doi : 10.1016 / 0165-1889 (91) 90037-2 .
  • Yong, Jiongmin; Zhou, Xun Yu (1999). Controles estocásticos: sistemas hamiltonianos e equações HJB . Nova York: Springer. ISBN 0-387-98723-1.