Probabilidade bayesiana - Bayesian probability

A probabilidade bayesiana é uma interpretação do conceito de probabilidade , em que, ao invés da frequência ou propensão de algum fenômeno, a probabilidade é interpretada como expectativa razoável que representa um estado de conhecimento ou como quantificação de uma crença pessoal.

A interpretação bayesiana da probabilidade pode ser vista como uma extensão da lógica proposicional que permite raciocinar com hipóteses ; isto é, com proposições cuja verdade ou falsidade é desconhecida. Na visão bayesiana, uma probabilidade é atribuída a uma hipótese, enquanto na inferência frequentista , uma hipótese é tipicamente testada sem ser atribuída uma probabilidade.

A probabilidade bayesiana pertence à categoria de probabilidades evidenciais; para avaliar a probabilidade de uma hipótese, o probabilista bayesiano especifica uma probabilidade a priori . Este, por sua vez, é então atualizado para uma probabilidade posterior à luz de novos dados relevantes (evidências). A interpretação bayesiana fornece um conjunto padrão de procedimentos e fórmulas para realizar esse cálculo.

O termo bayesiano deriva do matemático e teólogo do século 18 Thomas Bayes , que forneceu o primeiro tratamento matemático de um problema não trivial de análise de dados estatísticos usando o que agora é conhecido como inferência bayesiana . O matemático Pierre-Simon Laplace foi o pioneiro e popularizou o que hoje é chamado de probabilidade bayesiana.

Metodologia bayesiana

Os métodos bayesianos são caracterizados por conceitos e procedimentos da seguinte forma:

  • O uso de variáveis ​​aleatórias , ou mais geralmente quantidades desconhecidas, para modelar todas as fontes de incerteza em modelos estatísticos, incluindo incerteza resultante da falta de informação (ver também incerteza aleatória e epistêmica ).
  • A necessidade de determinar a distribuição de probabilidade anterior levando em consideração as informações (anteriores) disponíveis.
  • O uso sequencial da fórmula de Bayes : quando mais dados estiverem disponíveis, calcule a distribuição posterior usando a fórmula de Bayes; subsequentemente, a distribuição posterior se torna a próxima anterior.
  • Enquanto para o frequentista, uma hipótese é uma proposição (que deve ser verdadeira ou falsa ) de modo que a probabilidade frequentista de uma hipótese seja 0 ou 1, na estatística bayesiana, a probabilidade que pode ser atribuída a uma hipótese também pode estar em um intervalo de 0 a 1 se o valor verdade for incerto.

Probabilidades Bayesianas objetivas e subjetivas

Em termos gerais, existem duas interpretações da probabilidade bayesiana. Para os objetivistas, que interpretam a probabilidade como uma extensão da lógica , a probabilidade quantifica a expectativa razoável de que todos (até mesmo um "robô") que compartilhe o mesmo conhecimento devem compartilhar de acordo com as regras da estatística bayesiana, o que pode ser justificado pelo teorema de Cox . Para os subjetivistas, a probabilidade corresponde a uma crença pessoal. A racionalidade e a coerência permitem uma variação substancial dentro das restrições que representam; as restrições são justificadas pelo argumento do livro holandês ou pela teoria da decisão e o teorema de de Finetti . As variantes objetivas e subjetivas da probabilidade bayesiana diferem principalmente em sua interpretação e construção da probabilidade anterior.

História

O termo bayesiano deriva de Thomas Bayes (1702–1761), que provou um caso especial do que agora é chamado de teorema de Bayes em um artigo intitulado " Um ensaio para resolver um problema na doutrina das chances ". Nesse caso especial, as distribuições anterior e posterior eram distribuições beta e os dados vieram de testes de Bernoulli . Foi Pierre-Simon Laplace (1749-1827) quem introduziu uma versão geral do teorema e a usou para abordar problemas em mecânica celeste , estatística médica, confiabilidade e jurisprudência . A inferência bayesiana inicial, que usava precedentes uniformes seguindo o princípio da razão insuficiente de Laplace , era chamada de " probabilidade inversa " (porque infere de trás para frente das observações para os parâmetros, ou dos efeitos para as causas). Após a década de 1920, a "probabilidade inversa" foi amplamente suplantada por uma coleção de métodos que passaram a ser chamados de estatísticas frequentistas .

No século XX, as ideias de Laplace desenvolveram-se em duas direções, dando origem a correntes objetivas e subjetivas na prática bayesiana. A Teoria da Probabilidade de Harold Jeffreys (publicada pela primeira vez em 1939) desempenhou um papel importante no renascimento da visão bayesiana da probabilidade, seguida pelos trabalhos de Abraham Wald (1950) e Leonard J. Savage (1954). O próprio adjetivo bayesiano data da década de 1950; o bayesianismo derivado , o neo-bayesianismo é uma moeda dos anos 1960. Na corrente objetivista, a análise estatística depende apenas do modelo assumido e dos dados analisados. Nenhuma decisão subjetiva precisa ser envolvida. Em contraste, os estatísticos "subjetivistas" negam a possibilidade de uma análise totalmente objetiva para o caso geral.

Na década de 1980, houve um crescimento dramático em pesquisas e aplicações de métodos bayesianos, principalmente atribuídos à descoberta de métodos de Monte Carlo por cadeia de Markov e a consequente remoção de muitos dos problemas computacionais, e a um interesse crescente em aplicações complexas não padronizadas. Embora as estatísticas frequentistas permaneçam fortes (como visto pelo fato de que a maior parte do ensino de graduação ainda se baseia nelas), os métodos bayesianos são amplamente aceitos e usados, por exemplo, no campo do aprendizado de máquina .

Justificativa de probabilidades bayesianas

O uso de probabilidades bayesianas como base da inferência bayesiana tem sido apoiado por vários argumentos, como os axiomas de Cox , o argumento do livro holandês , argumentos baseados na teoria da decisão e o teorema de Finetti .

Abordagem axiomática

Richard T. Cox mostrou que a atualização bayesiana segue de vários axiomas, incluindo duas equações funcionais e uma hipótese de diferenciabilidade. A suposição de diferenciabilidade ou mesmo continuidade é controversa; Halpern encontrou um contra-exemplo baseado em sua observação de que a álgebra booleana dos enunciados pode ser finita. Outras axiomatizações foram sugeridas por diversos autores com o objetivo de tornar a teoria mais rigorosa.

Abordagem do livro holandês

O argumento do livro holandês foi proposto por de Finetti ; é baseado em apostas. Um livro holandês é feito quando um jogador inteligente faz um conjunto de apostas que garantem um lucro, independentemente do resultado das apostas. Se um bookmaker segue as regras do cálculo bayesiano na construção de suas probabilidades, um livro holandês não pode ser feito.

No entanto, Ian Hacking observou que os argumentos dos livros holandeses tradicionais não especificavam a atualização bayesiana: eles deixavam em aberto a possibilidade de que regras de atualização não bayesianas pudessem evitar os livros holandeses. Por exemplo, Hacking escreve "E nem o argumento do livro holandês, nem qualquer outro no arsenal personalista de provas dos axiomas da probabilidade, envolve a suposição dinâmica. Nenhum acarreta o bayesianismo. Portanto, o personalista exige que a suposição dinâmica seja bayesiana. É É verdade que, na consistência, um personalista poderia abandonar o modelo bayesiano de aprendizado com a experiência. O sal poderia perder o sabor. "

Na verdade, existem regras de atualização não bayesianas que também evitam livros holandeses (como discutido na literatura sobre " cinemática de probabilidade " seguindo a publicação da regra de Richard C. Jeffreys , que é considerada Bayesiana). As hipóteses adicionais suficientes para (unicamente) especificar a atualização bayesiana são substanciais e não universalmente vistas como satisfatórias.

Abordagem da teoria da decisão

Uma justificativa da teoria da decisão do uso da inferência bayesiana (e, portanto, das probabilidades bayesianas) foi dada por Abraham Wald , que provou que todo procedimento estatístico admissível é um procedimento Bayesiano ou um limite dos procedimentos Bayesianos. Por outro lado, todo procedimento bayesiano é admissível .

Probabilidades pessoais e métodos objetivos para a construção de antecedentes

Seguindo o trabalho sobre a teoria da utilidade esperada de Ramsey e von Neumann , os teóricos da decisão explicaram o comportamento racional usando uma distribuição de probabilidade para o agente . Johann Pfanzagl completou a Teoria dos Jogos e do Comportamento Econômico fornecendo uma axiomatização da probabilidade subjetiva e da utilidade, tarefa deixada incompleta por von Neumann e Oskar Morgenstern : sua teoria original supunha que todos os agentes tinham a mesma distribuição de probabilidade, por conveniência. A axiomatização de Pfanzagl foi endossada por Oskar Morgenstern: "Von Neumann e eu antecipamos ... [a questão de saber se as probabilidades] poderiam, talvez mais tipicamente, ser subjetivas e afirmaram especificamente que, neste último caso, axiomas poderiam ser encontrados dos quais poderiam derivar o utilidade numérica desejada juntamente com um número para as probabilidades (cf. p. 19 da Teoria dos Jogos e do Comportamento Econômico ). Não o fizemos; foi demonstrado por Pfanzagl ... com todo o rigor necessário ”.

Ramsey e Savage observaram que a distribuição de probabilidade do agente individual poderia ser estudada objetivamente em experimentos. Procedimentos para testar hipóteses sobre probabilidades (usando amostras finitas) são devidos a Ramsey (1931) e de Finetti (1931, 1937, 1964, 1970). Ambos Bruno de Finetti e Frank P. Ramsey reconhecer as suas dívidas a filosofia pragmática , especialmente (para Ramsey) para Charles S. Peirce .

O "teste de Ramsey" para avaliar distribuições de probabilidade pode ser implementado em teoria e manteve psicólogos experimentais ocupados por meio século. Este trabalho demonstra que as proposições de probabilidade bayesiana podem ser falsificadas e, portanto, atendem a um critério empírico de Charles S. Peirce , cujo trabalho inspirou Ramsey. (Este critério de falseabilidade foi popularizado por Karl Popper .)

Trabalhos modernos sobre a avaliação experimental de probabilidades pessoais usam os procedimentos de randomização, cegamento e decisão booleana do experimento Peirce-Jastrow. Uma vez que os indivíduos agem de acordo com diferentes julgamentos de probabilidade, as probabilidades desses agentes são "pessoais" (mas passíveis de estudo objetivo).

Probabilidades pessoais são problemáticas para a ciência e para algumas aplicações em que os tomadores de decisão carecem de conhecimento ou tempo para especificar uma distribuição de probabilidade informada (na qual estão preparados para agir). Para atender às necessidades da ciência e das limitações humanas, os estatísticos bayesianos desenvolveram métodos "objetivos" para especificar probabilidades anteriores.

De fato, alguns bayesianos argumentaram que o estado anterior de conhecimento define a distribuição de probabilidade anterior (única) para problemas estatísticos "regulares"; cf. problemas bem colocados . Encontrar o método certo para construir tais prioris "objetivos" (para classes apropriadas de problemas regulares) tem sido a busca de teóricos estatísticos de Laplace a John Maynard Keynes , Harold Jeffreys e Edwin Thompson Jaynes . Esses teóricos e seus sucessores sugeriram vários métodos para a construção de priors "objetivos" (Infelizmente, não está claro como avaliar a "objetividade" relativa dos priors propostos de acordo com esses métodos):

Cada um desses métodos contribui com antecedentes úteis para problemas "regulares" de um parâmetro, e cada prior pode lidar com alguns modelos estatísticos desafiadores (com "irregularidade" ou vários parâmetros). Cada um desses métodos tem sido útil na prática bayesiana. Na verdade, os métodos para a construção de antecedentes "objetivos" (alternativamente, "padrão" ou "ignorância") foram desenvolvidos por Bayesianos subjetivos (ou "pessoais") declarados como James Berger ( Duke University ) e José-Miguel Bernardo ( Universitat de València ) , simplesmente porque tais antecedentes são necessários para a prática bayesiana, particularmente na ciência. A busca pelo "método universal para a construção de priors" continua a atrair teóricos estatísticos.

Assim, o estatístico bayesiano precisa usar prioris informados (usando conhecimento relevante ou dados anteriores) ou escolher entre os métodos concorrentes para construir priors "objetivos".

Veja também

Referências

Bibliografia