Probabilidade anterior - Prior probability

Na inferência estatística bayesiana , uma distribuição de probabilidade anterior , freqüentemente chamada simplesmente de prior , de uma quantidade incerta é a distribuição de probabilidade que expressaria as crenças de alguém sobre essa quantidade antes que alguma evidência seja levada em consideração. Por exemplo, o anterior poderia ser a distribuição de probabilidade que representa as proporções relativas de eleitores que votarão em um determinado político em uma eleição futura. A quantidade desconhecida pode ser um parâmetro do modelo ou uma variável latente ao invés de uma variável observável .

O teorema de Bayes calcula o produto pontual renormalizado da função anterior e da verossimilhança , para produzir a distribuição de probabilidade posterior , que é a distribuição condicional da quantidade incerta dados os dados.

Da mesma forma, a probabilidade anterior de um evento aleatório ou de uma proposição incerta é a probabilidade incondicional que é atribuída antes que qualquer evidência relevante seja levada em consideração.

Anteriores podem ser criados usando vários métodos. Um anterior pode ser determinado a partir de informações anteriores, como experimentos anteriores. Um prévio pode ser obtido a partir da avaliação puramente subjetiva de um especialista experiente. Um prévio não informativo pode ser criado para refletir um equilíbrio entre os resultados quando nenhuma informação está disponível. Priors também podem ser escolhidos de acordo com algum princípio, como simetria ou maximização de entropia determinadas restrições; exemplos são o prior de Jeffreys ou o prior de referência de Bernardo. Quando existe uma família de priors conjugados , escolher um prior dessa família simplifica o cálculo da distribuição posterior.

Os parâmetros de distribuições anteriores são uma espécie de hiperparâmetro . Por exemplo, se alguém usa uma distribuição beta para modelar a distribuição do parâmetro p de uma distribuição de Bernoulli , então:

  • p é um parâmetro do sistema subjacente (distribuição de Bernoulli), e
  • α e β são parâmetros da distribuição anterior (distribuição beta); portanto, hiper parâmetros.

Os próprios hiperparâmetros podem ter distribuições hiperprioris que expressam crenças sobre seus valores. Um modelo Bayesiano com mais de um nível de prior como este é chamado de modelo Bayesiano hierárquico .

Antigos informativos

Um prior informativo expressa informações específicas e definidas sobre uma variável. Um exemplo é uma distribuição prévia da temperatura ao meio-dia de amanhã. Uma abordagem razoável é fazer da anterior uma distribuição normal com valor esperado igual à temperatura do meio-dia de hoje, com variação igual à variação diária da temperatura atmosférica, ou uma distribuição da temperatura para aquele dia do ano.

Este exemplo tem uma propriedade em comum com muitos anteriores, a saber, que o posterior de um problema (a temperatura de hoje) se torna o anterior para outro problema (a temperatura de amanhã); a evidência pré-existente que já foi levada em consideração faz parte da anterior e, à medida que mais evidências se acumulam, a posterior é determinada em grande parte pela evidência, e não por qualquer suposição original, desde que a suposição original admitisse a possibilidade do que a evidência é sugerindo. Os termos "anterior" e "posterior" são geralmente relativos a um dado ou observação específicos.

Antigos pouco informativos

Um prior fracamente informativo expressa informações parciais sobre uma variável. Um exemplo é, ao definir a distribuição anterior da temperatura ao meio-dia de amanhã em St. Louis, usar uma distribuição normal com média de 50 graus Fahrenheit e desvio padrão de 40 graus, o que restringe vagamente a temperatura ao intervalo (10 graus, 90 graus) com uma pequena chance de estar abaixo de -30 graus ou acima de 130 graus. A finalidade de um prior fracamente informativo é a regularização , ou seja, manter as inferências em um intervalo razoável.

Antigos não informativos

Um prévio não informativo ou difuso expressa informações vagas ou gerais sobre uma variável. O termo "prior não informativo" é um tanto impróprio. Esse prior também pode ser chamado de prior não muito informativo ou de prior objetivo , ou seja, não eliciado subjetivamente.

Priors não informativos podem expressar informações "objetivas", como "a variável é positiva" ou "a variável é menor que algum limite". A regra mais simples e mais antiga para determinar um prior não informativo é o princípio da indiferença , que atribui probabilidades iguais a todas as possibilidades. Em problemas de estimativa de parâmetros, o uso de um prior não informativo normalmente produz resultados que não são muito diferentes da análise estatística convencional, já que a função de verossimilhança geralmente produz mais informações do que o prior não informativo.

Algumas tentativas foram feitas para encontrar probabilidades a priori , isto é, distribuições de probabilidade em algum sentido logicamente exigidas pela natureza do estado de incerteza de alguém; estes são um assunto de controvérsia filosófica, com os Bayesianos sendo aproximadamente divididos em duas escolas: "Bayesianos objetivos", que acreditam que tais prioris existem em muitas situações úteis, e "Bayesianos subjetivos" que acreditam que na prática os prioris geralmente representam julgamentos subjetivos de opinião que não pode ser rigorosamente justificado (Williamson 2010). Talvez os argumentos mais fortes para o bayesianismo objetivo tenham sido dados por Edwin T. Jaynes , baseados principalmente nas consequências das simetrias e no princípio da entropia máxima.

Como exemplo de um a priori priori, devido a Jaynes (2003), considere uma situação em que se sabe que uma bola foi escondida sob uma das três xícaras, A, B ou C, mas nenhuma outra informação está disponível sobre sua localização . Nesse caso, um prior uniforme de p ( A ) = p ( B ) = p ( C ) = 1/3 parece intuitivamente a única escolha razoável. Mais formalmente, podemos ver que o problema permanece o mesmo se trocarmos os rótulos ("A", "B" e "C") das xícaras. Seria, portanto, estranho escolher um prior para o qual uma permutação dos rótulos causaria uma mudança em nossas previsões sobre em qual copo a bola será encontrada; o prior uniforme é o único que preserva essa invariância. Se aceitarmos esse princípio de invariância, podemos ver que o prior uniforme é o anterior logicamente correto para representar esse estado de conhecimento. Este prior é "objetivo" no sentido de ser a escolha correta para representar um determinado estado de conhecimento, mas não é objetivo no sentido de ser uma característica do mundo independente do observador: na realidade, a bola existe sob uma xícara particular , e só faz sentido falar de probabilidades nesta situação se houver um observador com conhecimento limitado sobre o sistema.

Como um exemplo mais contencioso, Jaynes publicou um argumento (Jaynes 1968) baseado na invariância do anterior sob uma mudança de parâmetros que sugere que o prior que representa a incerteza completa sobre uma probabilidade deve ser o Haldane anterior p −1 (1 -  p ) -1 . O exemplo que Jaynes dá é de encontrar uma substância química em um laboratório e perguntar se ela se dissolverá na água em experimentos repetidos. O Haldane anterior dá, de longe, o maior peso para e , indicando que a amostra se dissolverá todas as vezes ou nunca se dissolverá, com igual probabilidade. No entanto, se alguém observou que amostras do produto químico se dissolvem em um experimento e não se dissolvem em outro experimento, então esta prévia é atualizada para a distribuição uniforme no intervalo [0, 1]. Isso é obtido aplicando o teorema de Bayes ao conjunto de dados que consiste em uma observação de dissolução e uma de não dissolução, usando o anterior acima. O Haldane prior é uma distribuição anterior imprópria (o que significa que tem uma massa infinita). Harold Jeffreys desenvolveu uma maneira sistemática de projetar priors não informativos como, por exemplo, Jeffreys prior p −1/2 (1 -  p ) −1/2 para a variável aleatória de Bernoulli.

Priores podem ser construídos que são proporcionais à medida de Haar se o espaço de parâmetros X carrega uma estrutura de grupo natural que deixa invariante nosso estado de conhecimento Bayesiano (Jaynes, 1968). Isso pode ser visto como uma generalização do princípio de invariância usado para justificar o uniforme anterior sobre as três xícaras no exemplo acima. Por exemplo, em física, podemos esperar que um experimento forneça os mesmos resultados, independentemente de nossa escolha da origem de um sistema de coordenadas. Isso induz a estrutura de grupo do grupo de tradução em X , que determina a probabilidade anterior como um prior impróprio constante . Da mesma forma, algumas medidas são naturalmente invariantes para a escolha de uma escala arbitrária (por exemplo, se centímetros ou polegadas são usados, os resultados físicos devem ser iguais). Nesse caso, o grupo de escala é a estrutura natural do grupo e o prior correspondente em X é proporcional a 1 / x . Às vezes, importa se usamos a medida de Haar invariante à esquerda ou invariante à direita. Por exemplo, as medidas de Haar invariantes à esquerda e à direita no grupo afim não são iguais. Berger (1985, p. 413) argumenta que a medida de Haar invariante à direita é a escolha correta.

Outra ideia, defendida por Edwin T. Jaynes , é usar o princípio da entropia máxima (MAXENT). A motivação é que a entropia de Shannon de uma distribuição de probabilidade mede a quantidade de informação contida na distribuição. Quanto maior a entropia, menos informação é fornecida pela distribuição. Assim, ao maximizar a entropia sobre um conjunto adequado de distribuições de probabilidade em X , encontra-se a distribuição que é menos informativa no sentido de que contém a menor quantidade de informação consistente com as restrições que definem o conjunto. Por exemplo, a entropia máxima anterior em um espaço discreto, dado apenas que a probabilidade é normalizada para 1, é a anterior que atribui probabilidade igual a cada estado. E no caso contínuo, a entropia máxima anterior dado que a densidade é normalizada com média zero e variância unitária é a distribuição normal padrão . O princípio da entropia cruzada mínima generaliza MAXENT para o caso de "atualizar" uma distribuição a priori arbitrária com restrições adequadas no sentido de entropia máxima.

Uma ideia relacionada, os priores de referência , foi apresentada por José-Miguel Bernardo . Aqui, a ideia é maximizar a divergência de Kullback – Leibler esperada da distribuição posterior em relação à anterior. Isso maximiza a informação posterior esperada sobre X quando a densidade anterior é p ( x ); assim, em certo sentido, p ( x ) é o prior "menos informativo" sobre X. O prior de referência é definido no limite assintótico, ou seja, considera-se o limite dos priors assim obtido à medida que o número de pontos de dados vai ao infinito . No caso presente, a divergência KL entre as distribuições anterior e posterior é dada por

Aqui está uma estatística suficiente para algum parâmetro . A integral interna é a divergência KL entre as distribuições posterior e anterior e o resultado é a média ponderada de todos os valores de . Dividindo o logaritmo em duas partes, invertendo a ordem das integrais na segunda parte e observando que não depende de rendimentos

A integral interna na segunda parte é a integral sobre a densidade da junta . Esta é a distribuição marginal , então temos

Agora usamos o conceito de entropia que, no caso de distribuições de probabilidade, é o valor esperado negativo do logaritmo da massa de probabilidade ou função de densidade ou usando isso na última equação resulta

Em palavras, KL é o valor esperado negativo sobre a entropia de condicional em mais a entropia marginal (isto é, incondicional) de . No caso limite em que o tamanho da amostra tende ao infinito, o teorema de Bernstein-von Mises afirma que a distribuição de condicional em um dado valor observado de é normal com uma variância igual ao recíproco da informação de Fisher no valor 'verdadeiro' de . A entropia de uma função de densidade normal é igual à metade do logaritmo de onde está a variância da distribuição. Nesse caso, portanto, onde é o tamanho da amostra arbitrariamente grande (ao qual a informação de Fisher é proporcional) e é o valor 'verdadeiro'. Como isso não depende disso, pode ser retirado da integral e, como essa integral está sobre um espaço de probabilidade, ela é igual a um. Portanto, podemos escrever a forma assintótica de KL como

onde é proporcional ao tamanho da amostra (assintoticamente grande). Não sabemos o valor de . Na verdade, a própria ideia vai contra a filosofia da inferência bayesiana, na qual os valores 'verdadeiros' dos parâmetros são substituídos por distribuições anteriores e posteriores. Portanto, removemos substituindo-o por e tomando o valor esperado da entropia normal, que obtemos multiplicando por e integrando . Isso nos permite combinar os logaritmos produzindo

Esta é uma divergência quase-KL ("quase" no sentido de que a raiz quadrada das informações de Fisher pode ser o núcleo de uma distribuição inadequada). Devido ao sinal de menos, precisamos minimizar isso a fim de maximizar a divergência KL com a qual começamos. O valor mínimo da última equação ocorre onde as duas distribuições no argumento do logaritmo, impróprias ou não, não divergem. Isso, por sua vez, ocorre quando a distribuição anterior é proporcional à raiz quadrada da informação de Fisher da função de verossimilhança. Portanto, no caso de parâmetro único, os priors de referência e os anteriores de Jeffreys são idênticos, embora Jeffreys tenha uma base lógica muito diferente.

Priors de referência são freqüentemente o objetivo prioritário de escolha em problemas multivariados, uma vez que outras regras (por exemplo, a regra de Jeffreys ) podem resultar em priors com comportamento problemático.

Distribuições anteriores objetivas também podem ser derivadas de outros princípios, como informação ou teoria de codificação (ver, por exemplo, comprimento mínimo de descrição ) ou estatísticas frequentistas (ver correspondência frequentista ). Esses métodos são usados ​​na teoria da inferência indutiva de Solomonoff . A construção de antecedentes objetivos foi recentemente introduzida na bioinformática, e especialmente na inferência na biologia de sistemas de câncer, onde o tamanho da amostra é limitado e uma vasta quantidade de conhecimento prévio está disponível. Nestes métodos, um critério baseado na teoria da informação, como divergência KL ou função log-verossimilhança para problemas binários de aprendizagem supervisionada e problemas de modelo de mistura.

Problemas filosóficos associados a antecedentes não informativos estão associados à escolha de uma métrica apropriada ou escala de medição. Suponha que queiramos uma prioridade para a velocidade de corrida de um corredor que não conhecemos. Poderíamos especificar, digamos, uma distribuição normal como o prior de sua velocidade, mas, alternativamente, poderíamos especificar um prior normal para o tempo que ele leva para completar 100 metros, que é proporcional ao recíproco do primeiro prior. São antecedentes muito diferentes, mas não está claro qual deve ser o preferido. O método frequentemente esquecido de Jaynes de grupos de transformação pode responder a essa pergunta em algumas situações.

Da mesma forma, se solicitados a estimar uma proporção desconhecida entre 0 e 1, podemos dizer que todas as proporções são igualmente prováveis ​​e usar um prior uniforme. Alternativamente, podemos dizer que todas as ordens de magnitude para a proporção são igualmente prováveis, o prior logarítmico , que é o prior uniforme no logaritmo da proporção. O Jeffreys prior tenta resolver este problema computando um prior que expressa a mesma crença, não importa qual métrica seja usada. A prioridade de Jeffreys para uma proporção desconhecida p é p −1/2 (1 -  p ) −1/2 , que difere da recomendação de Jaynes.

Priors baseados em noções de probabilidade algorítmica são usados ​​em inferência indutiva como base para indução em configurações muito gerais.

Problemas práticos associados a priors não informativos incluem o requisito de que a distribuição posterior seja adequada. Os antecedentes não informativos usuais sobre variáveis ​​contínuas e ilimitadas são impróprios. Isso não precisa ser um problema se a distribuição posterior for adequada. Outra questão importante é que se um prior não informativo for usado rotineiramente , ou seja, com muitos conjuntos de dados diferentes, ele deve ter boas propriedades frequentistas . Normalmente, um bayesiano não se preocuparia com essas questões, mas pode ser importante nesta situação. Por exemplo, seria desejável que qualquer regra de decisão baseada na distribuição posterior fosse admissível sob a função de perda adotada. Infelizmente, a admissibilidade costuma ser difícil de verificar, embora alguns resultados sejam conhecidos (por exemplo, Berger e Strawderman 1996). A questão é particularmente aguda com os modelos Bayes hierárquicos ; os priors usuais (por exemplo, o prior de Jeffreys) podem fornecer regras de decisão inadmissíveis se empregados nos níveis mais altos da hierarquia.

Antigos impróprios

Deixe os eventos serem mutuamente exclusivos e exaustivos. Se o teorema de Bayes é escrito como

então é claro que o mesmo resultado seria obtido se todas as probabilidades anteriores P ( A i ) e P ( A j ) fossem multiplicadas por uma dada constante; o mesmo seria verdadeiro para uma variável aleatória contínua . Se o somatório no denominador convergir, as probabilidades posteriores ainda somarão (ou integrarão) em 1, mesmo que os valores anteriores não o façam e, portanto, os anteriores podem apenas precisar ser especificados na proporção correta. Levando essa ideia adiante, em muitos casos a soma ou integral dos valores anteriores pode nem mesmo precisar ser finita para obter respostas sensatas para as probabilidades posteriores. Quando for esse o caso, o prior é chamado de prior impróprio . No entanto, a distribuição posterior não precisa ser uma distribuição adequada se a anterior for inadequada. Isso fica claro no caso em que o evento B é independente de todos os A j .

Os estatísticos às vezes usam priors impróprios como priors não informativos . Por exemplo, se eles precisam de uma distribuição anterior para a média e variância de uma variável aleatória, eles podem assumir p ( m v ) ~ 1 / v (para v  > 0) o que sugere que qualquer valor para a média é "igualmente provável "e que um valor para a variância positiva se torna" menos provável "na proporção inversa de seu valor. Muitos autores (Lindley, 1973; De Groot, 1937; Kass e Wasserman, 1996) alertam contra o perigo de interpretar excessivamente esses antecedentes, uma vez que não são densidades de probabilidade. A única relevância que eles têm é encontrada no posterior correspondente, desde que seja bem definido para todas as observações. (O Haldane anterior é um contra-exemplo típico.)

Por outro lado, as funções de verossimilhança não precisam ser integradas, e uma função de verossimilhança que é uniformemente 1 corresponde à ausência de dados (todos os modelos são igualmente prováveis, sem dados): a regra de Bayes multiplica a anterior pela probabilidade, e um produto vazio é apenas a probabilidade constante 1. No entanto, sem começar com uma distribuição de probabilidade anterior, não se acaba obtendo uma distribuição de probabilidade posterior e, portanto, não pode integrar ou computar valores esperados ou perda. Consulte Função de probabilidade § Não integrabilidade para obter detalhes.

Exemplos

Exemplos de antecedentes impróprios incluem:

Observe que essas funções, interpretadas como distribuições uniformes, também podem ser interpretadas como a função de verossimilhança na ausência de dados, mas não são a priori adequadas.

Veja também

Notas

  1. ^ Carlin, Bradley P .; Louis, Thomas A. (2008). Métodos Bayesianos para Análise de Dados (Terceira ed.). CRC Press. ISBN   9781584886983 .
  2. ^ Este prior foi proposto por JBS Haldane em "Uma nota sobre probabilidade inversa", Mathematical Proceedings of the Cambridge Philosophical Society 28, 55-61, 1932, doi : 10.1017 / S0305004100010495 . Ver também J. Haldane, "A precisão dos valores observados de pequenas frequências", Biometrika, 35: 297–300, 1948, doi : 10.2307 / 2332350 , JSTOR   2332350 .
  3. ^ Esfahani, MS; Dougherty, ER (2014). "Incorporação do Conhecimento de Percursos Biológicos na Construção de Priors para Classificação Bayesiana Ótima - IEEE Journals & Magazine". Transações IEEE / ACM em Biologia Computacional e Bioinformática . 11 (1): 202–18. doi : 10.1109 / TCBB.2013.143 . PMID   26355519 .
  4. ^ Boluki, Shahin; Esfahani, Mohammad Shahrokh; Qian, Xiaoning; Dougherty, Edward R (dezembro de 2017). "Incorporando conhecimento prévio biológico para a aprendizagem Bayesiana por meio de antecedentes de informação orientados por conhecimento máximo" . BMC Bioinformatics . 18 (S14): 552. doi : 10.1186 / s12859-017-1893-4 . ISSN   1471-2105 . PMC   5751802 . PMID   29297278 .
  5. ^ Jaynes (1968), pp. 17, veja também Jaynes (2003), capítulo 12. Observe que o capítulo 12 não está disponível na pré-impressão online, mas pode ser visualizado via Google Books.
  6. ^ Christensen, Ronald; Johnson, Wesley; Branscum, Adam; Hanson, Timothy E. (2010). Idéias Bayesianas e Análise de Dados: Uma Introdução para Cientistas e Estatísticos . Hoboken: CRC Press. p. 69. ISBN   9781439894798 .

Referências