Princípio da entropia máxima - Principle of maximum entropy

O princípio da entropia máxima afirma que a distribuição de probabilidade que melhor representa o estado atual de conhecimento sobre um sistema é aquela com a maior entropia , no contexto de dados anteriores precisamente declarados (como uma proposição que expressa informações testáveis ).

Outra maneira de afirmar isso: pegue dados anteriores precisamente declarados ou informações testáveis ​​sobre uma função de distribuição de probabilidade. Considere o conjunto de todas as distribuições de probabilidade de tentativa que codificariam os dados anteriores. De acordo com este princípio, a distribuição com máxima entropia de informação é a melhor escolha.

Uma vez que a distribuição com a entropia máxima é a que faz menos suposições sobre a verdadeira distribuição dos dados, o princípio da entropia máxima pode ser visto como uma aplicação da navalha de Occam .

História

O princípio foi exposto pela primeira vez por ET Jaynes em dois artigos em 1957, onde ele enfatizou uma correspondência natural entre a mecânica estatística e a teoria da informação . Em particular, Jaynes ofereceu uma justificativa nova e muito geral por que o método gibbsiano de mecânica estatística funciona. Ele argumentou que a entropia da mecânica estatística e a entropia da informação da teoria da informação são basicamente a mesma coisa. Consequentemente, a mecânica estatística deve ser vista apenas como uma aplicação particular de uma ferramenta geral de inferência lógica e teoria da informação.

Visão geral

Na maioria dos casos práticos, os dados anteriores declarados ou informações testáveis ​​são dados por um conjunto de quantidades conservadas (valores médios de algumas funções de momento), associadas à distribuição de probabilidade em questão. Esta é a maneira como o princípio de entropia máxima é mais frequentemente usado em termodinâmica estatística . Outra possibilidade é prescrever algumas simetrias da distribuição de probabilidade. A equivalência entre quantidades conservadas e grupos de simetria correspondentes implica uma equivalência semelhante para essas duas formas de especificar a informação testável no método de entropia máxima.

O princípio da entropia máxima também é necessário para garantir a unicidade e consistência das atribuições de probabilidade obtidas por diferentes métodos, mecânica estatística e inferência lógica em particular.

O princípio da entropia máxima torna explícita nossa liberdade de usar diferentes formas de dados anteriores . Como um caso especial, uma densidade de probabilidade a priori uniforme (o princípio da indiferença de Laplace , às vezes chamado de princípio da razão insuficiente), pode ser adotada. Assim, o princípio de entropia máxima não é meramente uma forma alternativa de ver os métodos usuais de inferência da estatística clássica, mas representa uma generalização conceitual significativa desses métodos.

No entanto, essas afirmações não implicam que os sistemas termodinâmicos não precisam ser mostrados como ergódicos para justificar o tratamento como um conjunto estatístico .

Na linguagem comum, pode-se dizer que o princípio da entropia máxima expressa uma reivindicação de modéstia epistêmica ou de ignorância máxima. A distribuição selecionada é aquela que menos afirma ser informada além dos dados anteriores declarados, ou seja, aquela que mais admite desconhecimento além dos dados anteriores declarados.

Informação testável

O princípio da entropia máxima é útil explicitamente apenas quando aplicado a informações testáveis . Informação testável é uma declaração sobre uma distribuição de probabilidade cuja verdade ou falsidade é bem definida. Por exemplo, as declarações

a expectativa da variável é 2,87

e

(onde e são probabilidades de eventos) são declarações de informações testáveis.

Dada a informação testável, o procedimento de entropia máxima consiste em buscar a distribuição de probabilidade que maximize a entropia da informação , sujeita às restrições da informação. Este problema de otimização restrita é normalmente resolvido usando o método dos multiplicadores de Lagrange .

A maximização da entropia sem informações testáveis ​​respeita a "restrição" universal de que a soma das probabilidades é um. Sob esta restrição, a distribuição de probabilidade discreta de entropia máxima é a distribuição uniforme ,

Formulários

O princípio da entropia máxima é comumente aplicado de duas maneiras para problemas inferenciais:

Probabilidades anteriores

O princípio da entropia máxima é freqüentemente usado para obter distribuições de probabilidade anteriores para inferência Bayesiana . Jaynes era um forte defensor dessa abordagem, alegando que a distribuição de entropia máxima representava a distribuição menos informativa. Uma grande quantidade de literatura é agora dedicada à elicitação de antecedentes de entropia máxima e links com codificação de canal .

Probabilidades posteriores

A entropia máxima é uma regra de atualização suficiente para o probabilismo radical . A cinemática de probabilidade de Richard Jeffrey é um caso especial de inferência de entropia máxima. No entanto, a entropia máxima não é uma generalização de todas essas regras de atualização suficientes.

Modelos de entropia máxima

Alternativamente, o princípio é freqüentemente invocado para a especificação do modelo: neste caso, os próprios dados observados são considerados as informações testáveis. Esses modelos são amplamente usados ​​no processamento de linguagem natural . Um exemplo de tal modelo é a regressão logística , que corresponde ao classificador de entropia máxima para observações independentes.

Estimativa de densidade de probabilidade

Uma das principais aplicações do princípio de entropia máxima é na estimativa de densidade discreta e contínua . Semelhante aos estimadores de máquina de vetor de suporte , o princípio de entropia máxima pode exigir a solução para um problema de programação quadrática e, assim, fornecer um modelo de mistura esparsa como o estimador de densidade ideal. Uma vantagem importante do método é sua capacidade de incorporar informações anteriores na estimativa da densidade.

Solução geral para a distribuição de entropia máxima com restrições lineares

Caso discreto

Temos algumas informações testável I sobre uma quantidade x tomando valores em { x 1 , x 2 , ..., x n }. Assumimos que essa informação tem a forma de m restrições sobre as expectativas das funções f k ; ou seja, exigimos nossa distribuição de probabilidade para satisfazer as restrições de desigualdade / igualdade do momento:

onde são observáveis. Também exigimos que a densidade de probabilidade some um, o que pode ser visto como uma restrição primitiva na função de identidade e um observável igual a 1 dando a restrição

A distribuição de probabilidade com entropia de informação máxima sujeita a essas restrições de desigualdade / igualdade é da forma:

para alguns . Às vezes, é chamada de distribuição de Gibbs . A constante de normalização é determinada por:

e é convencionalmente chamada de função de partição . (O teorema de Pitman-Koopman afirma que a condição necessária e suficiente para uma distribuição de amostragem admitir estatísticas suficientes de dimensão limitada é que ela tenha a forma geral de uma distribuição de entropia máxima.)

Os parâmetros λ k são multiplicadores de Lagrange. No caso de restrições de igualdade seus valores são determinados a partir da solução das equações não lineares

No caso de restrições de desigualdade, os multiplicadores de Lagrange são determinados a partir da solução de um programa de otimização convexa com restrições lineares. Em ambos os casos, não há solução de forma fechada , e o cálculo dos multiplicadores de Lagrange geralmente requer métodos numéricos .

Caso contínuo

Para distribuições contínuas , a entropia de Shannon não pode ser usada, pois é definida apenas para espaços de probabilidade discretos. Em vez disso, Edwin Jaynes (1963, 1968, 2003) deu a seguinte fórmula, que está intimamente relacionada à entropia relativa (ver também entropia diferencial ).

onde q ( x ), que Jaynes chamou de "medida invariante", é proporcional à densidade limite de pontos discretos . Por enquanto, devemos assumir que q é conhecido; discutiremos isso mais adiante, depois que as equações de solução forem fornecidas.

Uma quantidade intimamente relacionada, a entropia relativa, é geralmente definida como a divergência de Kullback-Leibler de p de q (embora às vezes seja, confusamente, definida como o negativo disso). O princípio de inferência de minimizar isso, devido a Kullback, é conhecido como o Princípio da Informação de Discriminação Mínima .

Temos algumas informações testáveis I sobre uma quantidade x que assume valores em algum intervalo dos números reais (todas as integrais abaixo estão acima desse intervalo). Assumimos que essa informação tem a forma de m restrições sobre as expectativas das funções f k , ou seja, exigimos nossa função de densidade de probabilidade para satisfazer as restrições de momento de desigualdade (ou igualdade pura):

onde são observáveis. Também exigimos que a densidade de probabilidade se integre a um, o que pode ser visto como uma restrição primitiva na função de identidade e um observável igual a 1 dando a restrição

A função de densidade de probabilidade com H c máximo sujeito a essas restrições é:

com a função de partição determinada por

Como no caso discreto, no caso em que todas as restrições de momento são igualdades, os valores dos parâmetros são determinados pelo sistema de equações não lineares:

No caso de restrições de momento de desigualdade, os multiplicadores de Lagrange são determinados a partir da solução de um programa de otimização convexa .

A função de medida invariável q ( x ) pode ser melhor compreendida supondo que se sabe que x assume valores apenas no intervalo limitado ( a , b ) e que nenhuma outra informação é fornecida. Então, a função de densidade de probabilidade de entropia máxima é

onde A é uma constante de normalização. A função de medida invariável é, na verdade, a função de densidade anterior que codifica 'falta de informação relevante'. Não pode ser determinado pelo princípio da entropia máxima e deve ser determinado por algum outro método lógico, como o princípio dos grupos de transformação ou a teoria da marginalização .

Exemplos

Para vários exemplos de distribuições de entropia máxima, consulte o artigo sobre distribuições de probabilidade de entropia máxima .

Justificativas para o princípio da entropia máxima

Os proponentes do princípio da entropia máxima justificam seu uso na atribuição de probabilidades de várias maneiras, incluindo os dois argumentos a seguir. Esses argumentos tomam o uso da probabilidade bayesiana como dada e, portanto, estão sujeitos aos mesmos postulados.

Entropia de informação como uma medida de 'falta de informação'

Considere uma distribuição de probabilidade discreta entre proposições mutuamente exclusivas . A distribuição mais informativa ocorreria quando uma das proposições fosse conhecida como verdadeira. Nesse caso, a entropia da informação seria igual a zero. A distribuição menos informativa ocorreria quando não houvesse razão para favorecer qualquer uma das proposições sobre as outras. Nesse caso, a única distribuição de probabilidade razoável seria uniforme, e então a entropia da informação seria igual ao seu valor máximo possível ,. A entropia da informação pode, portanto, ser vista como uma medida numérica que descreve o quão pouco informativa é uma distribuição de probabilidade particular, variando de zero (completamente informativa) a (completamente não informativa).

Ao escolher usar a distribuição com a entropia máxima permitida por nossas informações, continua o argumento, estamos escolhendo a distribuição menos informativa possível. Escolher uma distribuição com entropia mais baixa seria assumir informações que não possuímos. Assim, a distribuição de entropia máxima é a única distribuição razoável. A dependência da solução da medida dominante representada por é, no entanto, fonte de críticas à abordagem, uma vez que esta medida dominante é de fato arbitrária.

A derivação Wallis

O seguinte argumento é o resultado de uma sugestão feita por Graham Wallis a ET Jaynes em 1962. É essencialmente o mesmo argumento matemático usado para a estatística de Maxwell-Boltzmann em mecânica estatística , embora a ênfase conceitual seja bem diferente. Tem a vantagem de ser de natureza estritamente combinatória, não fazendo referência à entropia da informação como uma medida de 'incerteza', 'falta de informação' ou qualquer outro conceito definido imprecisamente. A função de entropia da informação não é assumida a priori , mas é encontrada no decorrer do argumento; e o argumento leva naturalmente ao procedimento de maximizar a entropia da informação, ao invés de tratá-la de alguma outra forma.

Suponha que um indivíduo deseja fazer uma atribuição de probabilidade entre proposições mutuamente exclusivas . Ele tem algumas informações testáveis, mas não tem certeza de como incluir essas informações em sua avaliação de probabilidade. Ele, portanto, concebe o seguinte experimento aleatório. Ele distribuirá quanta de probabilidade (cada valor ) aleatoriamente entre as possibilidades. (Pode-se imaginar que ele jogará bolas em baldes com os olhos vendados. Para ser o mais justo possível, cada lançamento deve ser independente de qualquer outro, e cada balde deve ter o mesmo tamanho.) Uma vez feito o experimento, ele verificará se a atribuição de probabilidade assim obtida é consistente com suas informações. (Para que esta etapa seja bem-sucedida, a informação deve ser uma restrição dada por um conjunto aberto no espaço das medidas de probabilidade). Se for inconsistente, ele o rejeitará e tentará novamente. Se for consistente, sua avaliação será

onde é a probabilidade da enésima proposição, enquanto n i é o número de quanta que foram atribuídos à enésima proposição (ou seja, o número de bolas que terminaram no balde ).

Agora, para reduzir a 'granulação' da atribuição de probabilidade, será necessário usar um número bastante grande de quanta de probabilidade. Em vez de realmente realizar, e possivelmente ter que repetir, o experimento aleatório um tanto longo, o protagonista decide simplesmente calcular e usar o resultado mais provável. A probabilidade de qualquer resultado particular é a distribuição multinomial ,

Onde

às vezes é conhecido como a multiplicidade do resultado.

O resultado mais provável é aquele que maximiza a multiplicidade . Em vez de maximizar diretamente, o protagonista poderia maximizar equivalentemente qualquer função crescente monotônica de . Ele decide maximizar

Neste ponto, para simplificar a expressão, o protagonista assume o limite como , ou seja, à medida que os níveis de probabilidade vão de valores discretos granulados a valores contínuos suaves. Usando a aproximação de Stirling , ele encontra

Tudo o que resta ao protagonista fazer é maximizar a entropia sob as restrições de suas informações testáveis. Ele descobriu que a distribuição de entropia máxima é a mais provável de todas as distribuições aleatórias "justas", no limite à medida que os níveis de probabilidade vão de discretos a contínuos.

Compatibilidade com o teorema de Bayes

Giffin e Caticha (2007) afirmam que o teorema de Bayes e o princípio da entropia máxima são totalmente compatíveis e podem ser vistos como casos especiais do "método da entropia relativa máxima". Eles afirmam que este método reproduz todos os aspectos dos métodos de inferência Bayesianos ortodoxos. Além disso, este novo método abre a porta para resolver problemas que não poderiam ser tratados pelo princípio de entropia máxima ou métodos Bayesianos ortodoxos individualmente. Além disso, contribuições recentes (Lazar 2003 e Schennach 2005) mostram que abordagens de inferência freqüentistas baseadas em entropia relativa (como probabilidade empírica e probabilidade empírica exponencialmente inclinada - ver, por exemplo, Owen 2001 e Kitamura 2006) podem ser combinadas com informações anteriores para realizar Bayesian análise posterior.

Jaynes afirmou que o teorema de Bayes era uma maneira de calcular uma probabilidade, enquanto a entropia máxima era uma maneira de atribuir uma distribuição de probabilidade anterior.

No entanto, é possível em conceito resolver para uma distribuição posterior diretamente de uma distribuição anterior declarada usando o princípio da entropia cruzada mínima (ou o Princípio da Entropia Máxima sendo um caso especial de usar uma distribuição uniforme como a anterior dada), independentemente de quaisquer considerações Bayesianas tratando o problema formalmente como um problema de otimização restrito, o funcional Entropia sendo a função objetivo. Para o caso de determinados valores médios como informação testável (média sobre a distribuição de probabilidade procurada), a distribuição procurada é formalmente a distribuição de Gibbs (ou Boltzmann) cujos parâmetros devem ser resolvidos a fim de atingir entropia cruzada mínima e satisfazer as informações testáveis ​​fornecidas.

Relevância para a física

O princípio da entropia máxima tem uma relação com um pressuposto fundamental da teoria cinética dos gases, conhecido como caos molecular ou Stosszahlansatz . Isso afirma que a função de distribuição que caracteriza as partículas que entram em uma colisão pode ser fatorada. Embora essa afirmação possa ser entendida como uma hipótese estritamente física, ela também pode ser interpretada como uma hipótese heurística sobre a configuração mais provável das partículas antes da colisão.

Veja também

Notas

Referências

Leitura adicional