Controle ideal - Optimal control

A teoria do controle ótimo é um ramo da otimização matemática que trata de encontrar um controle para um sistema dinâmico ao longo de um período de tempo de modo que uma função objetivo seja otimizada. Ele tem inúmeras aplicações em ciência, engenharia e pesquisa operacional. Por exemplo, o sistema dinâmico pode ser uma espaçonave com controles correspondentes a propulsores de foguetes, e o objetivo pode ser chegar à lua com um gasto mínimo de combustível. Ou o sistema dinâmico poderia ser a economia de uma nação , com o objetivo de minimizar o desemprego ; os controles, neste caso, poderiam ser a política fiscal e monetária . Um sistema dinâmico também pode ser introduzido para incorporar problemas de pesquisa operacional dentro da estrutura da teoria de controle ótimo.

O controle ótimo é uma extensão do cálculo de variações e é um método de otimização matemática para derivar políticas de controle . O método é em grande parte devido ao trabalho de Lev Pontryagin e Richard Bellman na década de 1950, após contribuições para o cálculo das variações por Edward J. McShane . O controle ótimo pode ser visto como uma estratégia de controle na teoria de controle .

Método geral

O controle ótimo lida com o problema de encontrar uma lei de controle para um determinado sistema de forma que um certo critério de otimalidade seja alcançado. Um problema de controle inclui um funcional de custo que é uma função das variáveis ​​de estado e de controle. Um controle ótimo é um conjunto de equações diferenciais que descrevem os caminhos das variáveis ​​de controle que minimizam a função de custo. O controle ideal pode ser derivado usando o princípio máximo de Pontryagin (uma condição necessária também conhecida como princípio mínimo de Pontryagin ou simplesmente Princípio de Pontryagin), ou resolvendo a equação de Hamilton – Jacobi – Bellman (uma condição suficiente ).

Começamos com um exemplo simples. Considere um carro viajando em linha reta em uma estrada acidentada. A questão é: como o motorista deve pisar no pedal do acelerador para minimizar o tempo total de viagem? Neste exemplo, o termo lei de controle se refere especificamente à maneira como o motorista pressiona o acelerador e muda as marchas. O sistema consiste no carro e na estrada, e o critério de otimização é a minimização do tempo total de viagem. Os problemas de controle geralmente incluem restrições auxiliares . Por exemplo, a quantidade de combustível disponível pode ser limitada, o pedal do acelerador não pode ser empurrado pelo chão do carro, limites de velocidade, etc.

Uma função de custo adequada será uma expressão matemática que fornece o tempo de viagem em função da velocidade, considerações geométricas e condições iniciais do sistema. As restrições geralmente são intercambiáveis ​​com a função de custo.

Outro problema de controle ótimo relacionado pode ser encontrar a forma de dirigir o carro de forma a minimizar seu consumo de combustível, visto que ele deve completar um determinado percurso em um tempo não superior a uma determinada quantidade. Ainda outro problema de controle relacionado pode ser minimizar o custo monetário total de completar a viagem, dados os preços monetários presumidos para tempo e combustível.

Uma estrutura mais abstrata é a seguinte. Minimize o funcional de custo de tempo contínuo

sujeito às restrições dinâmicas de primeira ordem (a equação de estado )

as restrições do caminho algébrico

e as condições do endpoint

onde é o estado , é o controle , é a variável independente (em geral, tempo), é o tempo inicial e é o tempo terminal. Os termos e são chamados de custo do terminal e custo operacional, respectivamente. No cálculo das variações, e são referidos como o termo de Mayer e o Lagrangiano , respectivamente. Além disso, é observado que as restrições de caminho são, em geral , restrições de desigualdade e, portanto, podem não estar ativas (ou seja, iguais a zero) na solução ótima. Também é observado que o problema de controle ideal, conforme declarado acima, pode ter várias soluções (ou seja, a solução pode não ser única). Assim, é mais frequente o caso de qualquer solução para o problema de controle ótimo estar minimizando localmente .

Controle quadrático linear

Um caso especial do problema geral de controle ótimo não linear dado na seção anterior é o problema de controle ótimo linear quadrático (LQ) . O problema LQ é declarado da seguinte maneira. Minimize o funcional de custo de tempo contínuo quadrático

Sujeito às restrições dinâmicas lineares de primeira ordem

e a condição inicial

Uma forma particular do problema LQ que surge em muitos problemas no sistema de controlo é o do regulador linear quadrático (RLQ), onde todas as matrizes (isto é, , , , e ) são constante , o tempo inicial é arbitrariamente definido como zero, e o tempo terminal é levado no limite (esta última suposição é conhecida como horizonte infinito ). O problema LQR é declarado como segue. Minimize o funcional de custo de tempo contínuo quadrático de horizonte infinito

Sujeito às restrições dinâmicas de primeira ordem invariáveis ​​no tempo linear

e a condição inicial

No caso de horizonte finito, as matrizes são restritas nesse caso e são semi-definidas positivas e definidas positivas, respectivamente. No caso do horizonte infinito, entretanto, as matrizes e não são apenas semidefinidas positivas e definidas positivas, respectivamente, mas também são constantes . Essas restrições adicionais no e no caso do horizonte infinito são aplicadas para garantir que o funcional de custo permaneça positivo. Além disso, a fim de garantir que a função de custo seja limitada , a restrição adicional é imposta para que o par seja controlável . Observe que o funcional de custo LQ ou LQR pode ser pensado fisicamente como uma tentativa de minimizar a energia de controle (medida como uma forma quadrática).

O problema do horizonte infinito (isto é, LQR) pode parecer excessivamente restritivo e essencialmente inútil porque assume que o operador está levando o sistema ao estado zero e, portanto, levando a saída do sistema a zero. Isso é realmente correto. No entanto, o problema de direcionar a saída para um nível desejado diferente de zero pode ser resolvido depois que a saída zero for. Na verdade, pode-se provar que este problema secundário de LQR pode ser resolvido de uma maneira muito direta. Foi demonstrado na teoria clássica de controle ótimo que o controle ótimo LQ (ou LQR) tem a forma de feedback

onde está uma matriz devidamente dimensionada, dada como

e é a solução da equação diferencial de Riccati . A equação diferencial de Riccati é dada como

Para o problema de horizonte finito LQ, a equação de Riccati é integrada retroativamente usando a condição de contorno terminal

Para o problema LQR de horizonte infinito, a equação diferencial de Riccati é substituída pela equação algébrica de Riccati (ARE) dada como

Entendendo que a ARE surge o problema do horizonte infinito, as matrizes , , , e são todos constante . É notado que existem em geral soluções múltiplas para a equação algébrica de Riccati e a solução positiva definida (ou semi-definida positiva) é aquela que é usada para calcular o ganho de feedback. O problema LQ (LQR) foi elegantemente resolvido por Rudolf Kálmán .

Métodos numéricos para controle ideal

Problemas de controle ótimo são geralmente não lineares e, portanto, geralmente não têm soluções analíticas (por exemplo, como o problema de controle ótimo linear-quadrático). Como resultado, é necessário empregar métodos numéricos para resolver problemas de controle ótimo. Nos primeiros anos de controle ótimo ( c. 1950 a 1980), a abordagem preferida para resolver problemas de controle ótimo era a dos métodos indiretos . Em um método indireto, o cálculo das variações é empregado para obter as condições de otimalidade de primeira ordem. Essas condições resultam em um problema de valor limite de dois pontos (ou, no caso de um problema complexo, de vários pontos) . Esse problema de valor de contorno na verdade tem uma estrutura especial porque surge da derivada de um hamiltoniano . Assim, o sistema dinâmico resultante é um sistema hamiltoniano da forma

Onde

é o hamiltoniano aumentado e, em um método indireto, o problema do valor de contorno é resolvido (usando as condições de contorno ou transversalidade apropriadas ). A beleza de usar um método indireto é que o estado e o adjunto (isto é, ) são resolvidos e a solução resultante é prontamente verificada como uma trajetória extrema. A desvantagem dos métodos indiretos é que o problema do valor limite é frequentemente extremamente difícil de resolver (particularmente para problemas que abrangem grandes intervalos de tempo ou problemas com restrições de pontos internos). Um conhecido programa de software que implementa métodos indiretos é o BNDSCO.

A abordagem que ganhou destaque no controle numérico ótimo desde a década de 1980 é a dos chamados métodos diretos . Em um método direto, o estado ou o controle, ou ambos, são aproximados usando uma aproximação de função apropriada (por exemplo, aproximação polinomial ou parametrização constante por partes). Simultaneamente, o funcional de custo é aproximado como uma função de custo . Em seguida, os coeficientes das aproximações da função são tratados como variáveis ​​de otimização e o problema é "transcrito" para um problema de otimização não linear da forma:

Minimizar

sujeito às restrições algébricas

Dependendo do tipo de método direto empregado, o tamanho do problema de otimização não linear pode ser muito pequeno (por exemplo, como em um tiro direto ou método de quase-linearização), moderado (por exemplo, controle pseudoespectral ótimo ) ou pode ser muito grande (por exemplo, um direto método de colocação ). No último caso (isto é, um método de colocação), o problema de otimização não linear pode ser literalmente de milhares a dezenas de milhares de variáveis ​​e restrições. Dado o tamanho de muitos PNL que surgem de um método direto, pode parecer um tanto contra-intuitivo que resolver o problema de otimização não linear seja mais fácil do que resolver o problema do valor limite. É, entretanto, o fato de que a PNL é mais fácil de resolver do que o problema do valor limite. A razão para a relativa facilidade de computação, particularmente de um método de colocação direta, é que a PNL é esparsa e existem muitos programas de software bem conhecidos (por exemplo, SNOPT ) para resolver PNL grandes e esparsas. Como resultado, a gama de problemas que podem ser resolvidos por meio de métodos diretos (particularmente métodos de colocação direta que são muito populares nos dias de hoje) é significativamente maior do que a gama de problemas que podem ser resolvidos por métodos indiretos. Na verdade, os métodos diretos se tornaram tão populares hoje em dia que muitas pessoas escreveram programas de software elaborados que empregam esses métodos. Em particular, muitos desses programas incluem DIRCOL , SOCS, OTIS, GESOP / ASTOS , DITAN. e PyGMO / PyKEP. Nos últimos anos, devido ao advento da linguagem de programação MATLAB , o software de controle ideal no MATLAB se tornou mais comum. Exemplos de ferramentas de software MATLAB desenvolvidas academicamente que implementam métodos diretos incluem RIOTS , DIDO , DIRECT , FALCON.m e GPOPS, enquanto um exemplo de ferramenta MATLAB desenvolvida pela indústria é PROPT . Essas ferramentas de software aumentaram significativamente a oportunidade para as pessoas explorarem problemas complexos de controle ótimo tanto para pesquisa acadêmica quanto para problemas industriais. Finalmente, deve-se observar que os ambientes de otimização MATLAB de uso geral, como o TOMLAB , tornaram a codificação de problemas de controle ótimo complexos significativamente mais fácil do que era possível anteriormente em linguagens como C e FORTRAN .

Controle ótimo em tempo discreto

Os exemplos até agora mostraram sistemas de tempo contínuo e soluções de controle. Na verdade, como as soluções de controle ideais agora são frequentemente implementadas digitalmente , a teoria de controle contemporânea está agora principalmente preocupada com sistemas e soluções de tempo discreto . A Teoria das Aproximações Consistentes fornece condições sob as quais as soluções para uma série de problemas de controle ótimo discretizado cada vez mais preciso convergem para a solução do problema original de tempo contínuo. Nem todos os métodos de discretização têm essa propriedade, mesmo os aparentemente óbvios. Por exemplo, usar uma rotina de tamanho de passo variável para integrar as equações dinâmicas do problema pode gerar um gradiente que não converge para zero (ou aponta na direção certa) conforme a solução é abordada. O método direto RIOTS é baseado na Teoria da Aproximação Consistente.

Exemplos

Uma estratégia de solução comum em muitos problemas de controle ideal é resolver pelo custo (às vezes chamado de preço sombra ) . O costate resume em um número o valor marginal da expansão ou contração da variável de estado no próximo turno. O valor marginal não é apenas os ganhos acumulados no próximo turno, mas também associados à duração do programa. É bom quando pode ser resolvido analiticamente, mas normalmente, o máximo que se pode fazer é descrevê-lo suficientemente bem para que a intuição possa captar o caráter da solução e um solucionador de equações possa resolver numericamente os valores.

Tendo obtido , o valor ótimo turn-t para o controle pode geralmente ser resolvido como uma equação diferencial condicionada ao conhecimento de . Novamente, é raro, especialmente em problemas de tempo contínuo, que se obtenha o valor do controle ou do estado explicitamente. Normalmente, a estratégia é resolver limites e regiões que caracterizam o controle ótimo e usar um solucionador numérico para isolar os valores de escolha reais no tempo.

Tempo finito

Considere o problema de um proprietário de mina que deve decidir a que taxa extrair o minério de sua mina. Eles possuem direitos sobre o minério de hoje em dia . Na data, há minério no solo, e a quantidade dependente do tempo de minério deixado no solo diminui na proporção em que o proprietário da mina o extrai. O proprietário da mina extrai o minério a custo (o custo de extração aumenta com o quadrado da velocidade de extração e o inverso da quantidade de minério restante) e vende o minério a um preço constante . Qualquer minério deixado no solo no momento não pode ser vendido e não tem valor (não há "valor de sucata"). O proprietário escolhe a taxa de extração variando com o tempo para maximizar os lucros durante o período de propriedade, sem desconto de tempo.

1. Versão em tempo discreto

O gerente maximiza o lucro :

sujeito à lei de evolução para a variável de estado

Forme o hamiltoniano e diferencie:

Como o proprietário da mina não valoriza o minério restante no tempo ,

Usando as equações acima, é fácil resolver para a série e

e usando as condições inicial e turn-T, a série pode ser resolvida explicitamente, dando .

2. Versão de tempo contínuo

O gerente maximiza o lucro :

onde a variável de estado evolui da seguinte maneira:

Forme o hamiltoniano e diferencie:

Como o proprietário da mina não valoriza o minério restante no tempo ,

Usando as equações acima, é fácil resolver para as equações diferenciais que governam e

e usando as condições iniciais e de curva-T, as funções podem ser resolvidas para produzir

Veja também

Referências

Leitura adicional

links externos