Amostragem de Gibbs - Gibbs sampling

Em estatística , a amostragem de Gibbs ou um amostrador de Gibbs é um algoritmo de Markov Chain Monte Carlo (MCMC) para obter uma sequência de observações que são aproximadas de uma distribuição de probabilidade multivariada especificada , quando a amostragem direta é difícil. Esta sequência pode ser usada para aproximar a distribuição conjunta (por exemplo, para gerar um histograma da distribuição); para aproximar a distribuição marginal de uma das variáveis, ou algum subconjunto das variáveis ​​(por exemplo, os parâmetros desconhecidos ou variáveis ​​latentes ); ou para calcular uma integral (como o valor esperado de uma das variáveis). Normalmente, algumas das variáveis ​​correspondem a observações cujos valores são conhecidos e, portanto, não precisam ser amostrados.

A amostragem de Gibbs é comumente usada como meio de inferência estatística , especialmente a inferência bayesiana . É um algoritmo aleatório (ou seja, um algoritmo que faz uso de números aleatórios ) e é uma alternativa aos algoritmos determinísticos para inferência estatística, como o algoritmo de maximização de expectativa (EM).

Tal como acontece com outros algoritmos MCMC, a amostragem de Gibbs gera uma cadeia de Markov de amostras, cada uma delas correlacionada com amostras próximas. Como resultado, deve-se ter cuidado se forem desejadas amostras independentes. Geralmente, as amostras do início da cadeia (o período de burn-in ) podem não representar com precisão a distribuição desejada e geralmente são descartadas.

Introdução

A amostragem de Gibbs tem o nome do físico Josiah Willard Gibbs , em referência a uma analogia entre o algoritmo de amostragem e a física estatística . O algoritmo foi descrito pelos irmãos Stuart e Donald Geman em 1984, cerca de oito décadas após a morte de Gibbs.

Em sua versão básica, a amostragem de Gibbs é um caso especial do algoritmo Metropolis – Hastings . No entanto, em suas versões estendidas (veja abaixo ), pode ser considerado um quadro geral para a amostragem de um grande conjunto de variáveis, amostrando cada variável (ou, em alguns casos, cada grupo de variáveis) por sua vez, e pode incorporar a Metrópole– Algoritmo de Hastings (ou métodos como amostragem de fatia ) para implementar uma ou mais das etapas de amostragem.

A amostragem de Gibbs é aplicável quando a distribuição conjunta não é conhecida explicitamente ou é difícil amostrar diretamente, mas a distribuição condicional de cada variável é conhecida e é fácil (ou pelo menos, mais fácil) de amostrar. O algoritmo de amostragem de Gibbs gera uma instância a partir da distribuição de cada variável por sua vez, condicional aos valores atuais das outras variáveis. Pode-se mostrar que a sequência de amostras constitui uma cadeia de Markov , e a distribuição estacionária dessa cadeia de Markov é apenas a desejada distribuição conjunta.

A amostragem de Gibbs é particularmente bem adaptada para amostrar a distribuição posterior de uma rede Bayesiana , uma vez que as redes Bayesianas são normalmente especificadas como uma coleção de distribuições condicionais.

Implementação

A amostragem de Gibbs, em sua encarnação básica, é um caso especial do algoritmo Metropolis-Hastings . O ponto da amostragem de Gibbs é que, dada uma distribuição multivariada , é mais simples amostrar de uma distribuição condicional do que marginalizar integrando sobre uma distribuição conjunta . Suponha que queremos obter amostras de de uma distribuição conjunta . Denote a amostra por . Procedemos da seguinte forma:

  1. Começamos com algum valor inicial .
  2. Queremos a próxima amostra. Chame esta próxima amostra . Como é um vetor, amostramos cada componente do vetor,, a partir da distribuição desse componente condicionado em todos os outros componentes amostrados até agora. Mas há um problema: condicionamos os componentes de até , e depois condicionamos os componentes de, começando de até . Para conseguir isso, amostramos os componentes em ordem, começando pelo primeiro componente. Mais formalmente, para amostrar , nós o atualizamos de acordo com a distribuição especificada por . Usamos o valor que o ésimo componente tinha na amostra, não a amostra.
  3. Repita as etapas acima .

Se tal amostragem for realizada, estes fatos importantes são válidos:

  • As amostras aproximam a distribuição conjunta de todas as variáveis.
  • A distribuição marginal de qualquer subconjunto de variáveis ​​pode ser aproximada simplesmente considerando as amostras para aquele subconjunto de variáveis, ignorando o resto.
  • O valor esperado de qualquer variável pode ser aproximado pela média de todas as amostras.

Ao realizar a amostragem:

  • Os valores iniciais das variáveis ​​podem ser determinados aleatoriamente ou por algum outro algoritmo, como a maximização da expectativa .
  • Na verdade, não é necessário determinar um valor inicial para a primeira variável amostrada.
  • É comum ignorar algum número de amostras no início (o chamado período de burn-in ) e, então, considerar apenas cada amostra ao calcular a média dos valores para calcular uma expectativa. Por exemplo, as primeiras 1.000 amostras podem ser ignoradas e, em seguida, a média de cada 100 amostras, descartando todo o resto. A razão para isso é que (1) a distribuição estacionária da cadeia de Markov é a distribuição conjunta desejada sobre as variáveis, mas pode demorar um pouco para que essa distribuição estacionária seja alcançada; (2) as amostras sucessivas não são independentes umas das outras, mas formam uma cadeia de Markov com alguma correlação. Às vezes, os algoritmos podem ser usados ​​para determinar a quantidade de autocorrelação entre as amostras e o valor de (o período entre as amostras que são realmente usadas) calculado a partir disso, mas na prática há uma boa quantidade de " magia negra " envolvida.
  • O processo de recozimento simulado é frequentemente usado para reduzir o comportamento do " passeio aleatório " na parte inicial do processo de amostragem (ou seja, a tendência de se mover lentamente ao redor do espaço da amostra, com uma grande quantidade de autocorrelação entre as amostras, em vez de se mover rapidamente , conforme desejado). Outras técnicas que podem reduzir a autocorrelação são a amostragem de Gibbs colapsada , a amostragem de Gibbs bloqueada e o excesso de relaxamento ordenado ; Veja abaixo.

Relação de distribuição condicional e distribuição conjunta

Além disso, a distribuição condicional de uma variável, dadas todas as outras, é proporcional à distribuição conjunta:

"Proporcional a", neste caso, significa que o denominador não é uma função de e, portanto, é o mesmo para todos os valores de ; faz parte da constante de normalização para a distribuição final . Na prática, para determinar a natureza da distribuição condicional de um fator , é mais fácil fatorar a distribuição conjunta de acordo com as distribuições condicionais individuais definidas pelo modelo gráfico sobre as variáveis, ignorar todos os fatores que não são funções de (todos os quais , junto com o denominador acima, constituem a constante de normalização) e, em seguida, restabelece a constante de normalização no final, conforme necessário. Na prática, isso significa fazer uma das três coisas:

  1. Se a distribuição for discreta, as probabilidades individuais de todos os valores possíveis de são calculadas e somadas para encontrar a constante de normalização.
  2. Se a distribuição for contínua e de uma forma conhecida, a constante de normalização também será conhecida.
  3. Em outros casos, a constante de normalização geralmente pode ser ignorada, pois a maioria dos métodos de amostragem não a exige.

Inferência

A amostragem de Gibbs é comumente usada para inferência estatística (por exemplo, determinar o melhor valor de um parâmetro, como determinar o número de pessoas que provavelmente farão compras em uma determinada loja em um determinado dia, o candidato em quem o eleitor provavelmente votará, etc.) . A ideia é que os dados observados sejam incorporados ao processo de amostragem pela criação de variáveis ​​separadas para cada parte dos dados observados e pela fixação das variáveis ​​em questão aos seus valores observados, em vez de amostragem dessas variáveis. A distribuição das variáveis ​​restantes é, então, efetivamente, uma distribuição posterior condicionada aos dados observados.

O valor mais provável de um parâmetro desejado (o modo ) poderia então simplesmente ser selecionado escolhendo o valor de amostra que ocorre mais comumente; isto é essencialmente equivalente à estimativa a posteriori máxima de um parâmetro. (Uma vez que os parâmetros são geralmente contínuos, muitas vezes é necessário "bin" os valores amostrados em um de um número finito de intervalos ou "bins" para obter uma estimativa significativa do modo.) Mais comumente, no entanto, o esperado valor ( média ou média) dos valores amostrados é escolhido; este é um estimador Bayes que aproveita os dados adicionais sobre toda a distribuição que estão disponíveis na amostragem bayesiana, enquanto um algoritmo de maximização como a maximização da expectativa (EM) é capaz de retornar apenas um único ponto da distribuição. Por exemplo, para uma distribuição unimodal, a média (valor esperado) é geralmente semelhante ao modo (valor mais comum), mas se a distribuição for enviesada em uma direção, a média será movida nessa direção, o que efetivamente explica o valor extra massa de probabilidade nessa direção. (Se uma distribuição for multimodal, o valor esperado pode não retornar um ponto significativo e qualquer um dos modos é normalmente uma escolha melhor.)

Embora algumas das variáveis ​​normalmente correspondam a parâmetros de interesse, outras são variáveis ​​desinteressantes ("incômodas") introduzidas no modelo para expressar adequadamente as relações entre as variáveis. Embora os valores amostrados representem a distribuição conjunta de todas as variáveis, as variáveis ​​de incômodo podem simplesmente ser ignoradas ao calcular os valores ou modos esperados; isso é equivalente a marginalizar em relação às variáveis ​​incômodas. Quando um valor para várias variáveis ​​é desejado, o valor esperado é simplesmente calculado para cada variável separadamente. (Ao calcular o modo, no entanto, todas as variáveis ​​devem ser consideradas juntas.)

Aprendizagem supervisionada , aprendizagem não supervisionada e aprendizagem semissupervisionada (também conhecida como aprendizagem com valores ausentes) podem ser tratadas simplesmente fixando os valores de todas as variáveis ​​cujos valores são conhecidos e amostrando o restante.

Para os dados observados, haverá uma variável para cada observação - em vez de, por exemplo, uma variável correspondente à média da amostra ou variância da amostra de um conjunto de observações. Na verdade, geralmente não haverá nenhuma variável correspondente a conceitos como "média da amostra" ou "variância da amostra". Em vez disso, em tal caso, haverá variáveis ​​que representam a média verdadeira desconhecida e a variância verdadeira, e a determinação dos valores de amostra para essas variáveis ​​resulta automaticamente da operação do amostrador de Gibbs.

Modelos lineares generalizados (ou seja, variações de regressão linear ) às vezes também podem ser tratados pela amostragem de Gibbs. Por exemplo, a regressão probit para determinar a probabilidade de uma determinada escolha binária (sim / não), com antecedentes normalmente distribuídos colocados sobre os coeficientes de regressão, pode ser implementada com a amostragem de Gibbs porque é possível adicionar variáveis ​​adicionais e tirar vantagem da conjugação . No entanto, a regressão logística não pode ser tratada dessa forma. Uma possibilidade é aproximar a função logística com uma mistura (normalmente 7–9) de distribuições normais. Mais comumente, no entanto, Metropolis – Hastings é usado em vez da amostragem de Gibbs.

Fundo matemático

Suponha que uma amostra seja retirada de uma distribuição dependendo de um vetor de parâmetro de comprimento , com distribuição anterior . Pode ser que seja muito grande e que a integração numérica para encontrar as densidades marginais do seria computacionalmente cara. Então, um método alternativo de cálculo das densidades marginais é criar uma cadeia de Markov no espaço , repetindo estas duas etapas:

  1. Escolha um índice aleatório
  2. Escolha um novo valor para de acordo com

Essas etapas definem uma cadeia de Markov reversível com a distribuição invariante desejada . Isso pode ser provado da seguinte forma. Defina if for all e deixe denotar a probabilidade de um salto de para . Então, as probabilidades de transição são

Então

uma vez que é uma relação de equivalência . Assim, as equações de equilíbrio detalhadas são satisfeitas, o que implica que a cadeia é reversível e tem distribuição invariável .

Na prática, o índice não é escolhido aleatoriamente e a cadeia percorre os índices em ordem. Em geral, isso dá um processo de Markov não estacionário, mas cada etapa individual ainda será reversível e o processo geral ainda terá a distribuição estacionária desejada (contanto que a cadeia possa acessar todos os estados sob a ordem fixa).


Amostrador de Gibbs em inferência bayesiana e sua relação com a teoria da informação

Deixe denotar observações geradas a partir da distribuição de amostragem e é a priori suportado no espaço de parâmetro . Então, um dos objetivos centrais da estatística bayesiana é aproximar a densidade posterior

onde a probabilidade marginal é considerada finita para todos .

Para explicar o amostrador de Gibbs, também assumimos que o espaço de parâmetro é decomposto como

,

onde representa o produto cartesiano . Cada espaço de parâmetro de componente pode ser um conjunto de componentes escalares, subvetores ou matrizes.

Defina um conjunto que complemente o . Os ingredientes essenciais do amostrador de Gibbs são a -ésima distribuição posterior condicional completa para cada

.
Uma descrição pictórica do algoritmo de amostragem de Gibbs
Descrição esquemática da igualdade de informação associada ao amostrador de Gibbs na i-ésima etapa dentro de um ciclo

O algoritmo a seguir detalha um amostrador Gibbs genérico:

Observe que o amostrador de Gibbs é operado pelo esquema iterativo de Monte Carlo em um ciclo. O número de amostras retiradas pelo algoritmo acima formula as cadeias de Markov com a distribuição invariante para ser a densidade alvo .

Agora, para cada um , defina as seguintes quantidades teóricas de informação:

a saber, informação mútua posterior, entropia diferencial posterior e entropia diferencial condicional posterior, respectivamente. Podemos semelhante definir informação quantidades teóricas , e trocando o e nas quantidades definidas. Então, as seguintes equações são válidas.

.

A informação mútua quantifica a redução na incerteza da quantidade aleatória uma vez que a conhecemos , a posteriori. Ele desaparece se e somente se e for marginalmente independente, um posterior. A informação mútua pode ser interpretada como a quantidade que é transmitida da -ésima etapa para a -ésima etapa dentro de um único ciclo do amostrador de Gibbs.

Variações e extensões

Existem inúmeras variações do amostrador Gibbs básico. O objetivo dessas variações é reduzir a autocorrelação entre as amostras o suficiente para superar quaisquer custos computacionais adicionados.

Amostrador Gibbs bloqueado

Amostrador Gibbs recolhido

  • Um amostrador Gibbs recolhido integra ( marginaliza ) uma ou mais variáveis ​​ao amostrar para alguma outra variável. Por exemplo, suponhamos que um modelo consiste em três variáveis A , B , e C . Um amostrador de Gibbs simples amostraria de p ( A  |  B , C ), então p ( B  |  A , C ), então p ( C  |  A , B ). Um amostrador de Gibbs colapsado pode substituir a etapa de amostragem de A por uma amostra retirada da distribuição marginal p ( A  |  C ), com a variável B integrada neste caso. Alternativamente, a variável B poderia ser totalmente recolhida, alternadamente amostrando de p ( A  |  C ) ep ( C  |  A ) e não amostrando sobre B de forma alguma. A distribuição sobre uma variável A que surge ao recolher uma variável pai B é chamada de distribuição composta ; a amostragem desta distribuição é geralmente tratável quando B é o conjugado anterior para A , particularmente quando A e B são membros da família exponencial . Para obter mais informações, consulte o artigo sobre distribuições de compostos ou Liu (1994).

Implementando um amostrador Gibbs recolhido

Distribuições de colapso de Dirichlet

Em modelos bayesianos hierárquicos com variáveis ​​categóricas , como alocação latente de Dirichlet e vários outros modelos usados ​​no processamento de linguagem natural , é bastante comum reduzir as distribuições de Dirichlet que são normalmente usadas como distribuições anteriores sobre as variáveis ​​categóricas. O resultado desse colapso introduz dependências entre todas as variáveis ​​categóricas dependentes de um determinado Dirichlet anterior, e a distribuição conjunta dessas variáveis ​​após o colapso é uma distribuição multinomial de Dirichlet . A distribuição condicional de uma dada variável categórica nesta distribuição, condicionada nas demais, assume uma forma extremamente simples que torna a amostragem de Gibbs ainda mais fácil do que se o colapso não tivesse ocorrido. As regras são as seguintes:

  1. O recolhimento de um nó anterior de Dirichlet afeta apenas os nós pai e filho do anterior. Uma vez que o pai costuma ser uma constante, normalmente só precisamos nos preocupar com os filhos.
  2. O recolhimento de um Dirichlet anterior introduz dependências entre todos os filhos categóricos dependentes daquele anterior - mas nenhuma dependência extra entre quaisquer outros filhos categóricos. (Isso é importante ter em mente, por exemplo, quando há vários priors de Dirichlet relacionados pelo mesmo hiperprior. Cada prior de Dirichlet pode ser recolhido de forma independente e afeta apenas seus filhos diretos.)
  3. Após o colapso, a distribuição condicional de um filho dependente nos outros assume uma forma muito simples: a probabilidade de ver um determinado valor é proporcional à soma do hiperprior correspondente para este valor e a contagem de todos os outros nós dependentes assumindo o mesmo valor. Nós não dependentes do mesmo anterior não devem ser contados. A mesma regra se aplica a outros métodos de inferência iterativa, como Bayes variacional ou maximização de expectativa ; no entanto, se o método envolver manter contagens parciais, as contagens parciais para o valor em questão devem ser somadas em todos os outros nós dependentes. Às vezes, essa contagem parcial resumida é denominada contagem esperada ou similar. A probabilidade é proporcional ao valor resultante; a probabilidade real deve ser determinada normalizando todos os valores possíveis que a variável categórica pode assumir (ou seja, somando o resultado computado para cada valor possível da variável categórica e dividindo todos os resultados computados por esta soma).
  4. Se um determinado nó categórico tem filhos dependentes (por exemplo, quando é uma variável latente em um modelo de mistura ), o valor calculado na etapa anterior (contagem esperada mais anterior, ou o que for calculado) deve ser multiplicado pelas probabilidades condicionais reais ( não um valor calculado que é proporcional à probabilidade!) de todos os filhos dados a seus pais. Consulte o artigo sobre a distribuição multinomial Dirichlet para uma discussão detalhada.
  5. No caso em que a associação de grupo dos nós dependentes de um determinado Dirichlet anterior pode mudar dinamicamente dependendo de alguma outra variável (por exemplo, uma variável categórica indexada por outra variável categórica latente, como em um modelo de tópico ), as mesmas contagens esperadas ainda são calculadas , mas precisa ser feito com cuidado para que o conjunto correto de variáveis ​​seja incluído. Consulte o artigo sobre a distribuição multinomial de Dirichlet para obter mais discussão, inclusive no contexto de um modelo de tópico.
Colapso de outros antecedentes conjugados

Em geral, qualquer conjugado anterior pode ser recolhido, se seus únicos filhos tiverem distribuições conjugadas a ele. A matemática relevante é discutida no artigo sobre distribuições de compostos . Se houver apenas um nó filho, o resultado freqüentemente assumirá uma distribuição conhecida. Por exemplo, recolher uma variância com distribuição gama inversa de uma rede com um único filho gaussiano produzirá uma distribuição t de Student . (Por falar nisso, recolher a média e a variância de uma única criança gaussiana ainda produzirá uma distribuição t de Student, desde que ambas sejam conjugadas, ou seja, média gaussiana, variância gama inversa.)

Se houver vários nós filhos, todos eles se tornarão dependentes, como no caso Dirichlet - categórico . A distribuição conjunta resultante terá uma forma fechada que se assemelha em alguns aspectos à distribuição composta, embora tenha um produto de vários fatores, um para cada nó filho.

Além disso, e mais importante, a distribuição condicional resultante de um dos nós filhos dados os outros (e também dados os pais dos nós colapsados, mas não dados os filhos dos nós filhos) terá a mesma densidade que a distribuição preditiva posterior de todos os nós filhos restantes. Além disso, a distribuição preditiva posterior tem a mesma densidade que a distribuição composta básica de um único nó, embora com parâmetros diferentes. A fórmula geral é fornecida no artigo sobre distribuições de compostos .

Por exemplo, dada uma rede Bayes com um conjunto de nós condicionalmente independentes distribuídos de forma idêntica distribuída por Gauss com distribuições anteriores conjugadas colocadas na média e variância, a distribuição condicional de um nó dado os outros após a composição da média e da variância será um Distribuição t de Student . Da mesma forma, o resultado da composição da gama anterior de um número de nós com distribuição de Poisson faz com que a distribuição condicional de um nó, dado que os outros, assuma uma distribuição binomial negativa .

Nesses casos, onde a composição produz uma distribuição bem conhecida, procedimentos de amostragem eficientes geralmente existem, e usá-los frequentemente (embora não necessariamente) seja mais eficiente do que não colapsar e, em vez disso, amostrar os nós anteriores e filhos separadamente. No entanto, no caso em que a distribuição composta não é bem conhecida, pode não ser fácil de amostrar, uma vez que geralmente não pertencerá à família exponencial e normalmente não será log-côncava (o que tornaria mais fácil amostrar usando amostragem de rejeição adaptativa , uma vez que sempre existe uma forma fechada).

No caso em que os nós filhos dos próprios nós colapsados ​​têm filhos, a distribuição condicional de um desses nós filhos dados todos os outros nós no gráfico terá que levar em consideração a distribuição desses filhos de segundo nível. Em particular, a distribuição condicional resultante será proporcional a um produto da distribuição composta conforme definido acima, e as distribuições condicionais de todos os nós filhos dados seus pais (mas não dados seus próprios filhos). Isso decorre do fato de que a distribuição condicional completa é proporcional à distribuição conjunta. Se os nós filhos dos nós colapsados ​​são contínuos , esta distribuição geralmente não será de uma forma conhecida e pode muito bem ser difícil de amostrar, apesar do fato de que uma forma fechada pode ser escrita, pelas mesmas razões descritas acima para não -distribuições de compostos bem conhecidas. No entanto, no caso particular em que os nós filhos são discretos , a amostragem é viável, independentemente de os filhos desses nós filhos serem contínuos ou discretos. Na verdade, o princípio envolvido aqui é descrito em detalhes justos no artigo sobre a distribuição multinomial de Dirichlet .

Amostrador Gibbs com super-relaxamento ordenado

  • Um amostrador de Gibbs com superelaxamento ordenado amostra um determinado número ímpar de valores candidatos para em qualquer etapa e os classifica, junto com o valor único para de acordo com alguma ordem bem definida. Se é as s th menor na lista ordenada então o é selecionado como o s ª maior da lista ordenada. Para obter mais informações, consulte Neal (1995).

Outras extensões

Também é possível estender a amostragem de Gibbs de várias maneiras. Por exemplo, no caso de variáveis ​​cuja distribuição condicional não é fácil de amostrar, uma única iteração de amostragem por fatia ou o algoritmo Metropolis-Hastings pode ser usado para amostrar a partir das variáveis ​​em questão. Também é possível incorporar variáveis ​​que não são variáveis ​​aleatórias , mas cujo valor é calculado deterministicamente a partir de outras variáveis. Modelos lineares generalizados , por exemplo, regressão logística (também conhecidos como " modelos de entropia máxima "), podem ser incorporados desta forma. (BUGS, por exemplo, permite este tipo de mistura de modelos.)

Modos de falha

Existem duas maneiras pelas quais a amostragem de Gibbs pode falhar. O primeiro é quando existem ilhas de estados de alta probabilidade, sem nenhum caminho entre eles. Por exemplo, considere uma distribuição de probabilidade sobre vetores de 2 bits, onde os vetores (0,0) e (1,1) cada um tem probabilidade ½, mas os outros dois vetores (0,1) e (1,0) têm probabilidade zero. A amostragem de Gibbs ficará presa em um dos dois vetores de alta probabilidade e nunca alcançará o outro. De forma mais geral, para qualquer distribuição sobre vetores de valor real de alta dimensão, se dois elementos particulares do vetor estiverem perfeitamente correlacionados (ou perfeitamente anticorrelacionados), esses dois elementos ficarão presos e a amostragem de Gibbs nunca será capaz de mudar eles.

O segundo problema pode acontecer mesmo quando todos os estados têm probabilidade diferente de zero e há apenas uma única ilha de estados de alta probabilidade. Por exemplo, considere uma distribuição de probabilidade sobre vetores de 100 bits, onde o vetor de todos os zeros ocorre com probabilidade ½ e todos os outros vetores são igualmente prováveis ​​e, portanto, têm uma probabilidade de cada um. Se você quiser estimar a probabilidade do vetor zero, seria suficiente tirar 100 ou 1000 amostras da distribuição verdadeira. Isso provavelmente daria uma resposta muito próxima de ½. Mas provavelmente você teria que pegar mais do que amostras da amostragem de Gibbs para obter o mesmo resultado. Nenhum computador poderia fazer isso na vida.

Esse problema ocorre independentemente da duração do período de burn-in. Isso ocorre porque na distribuição verdadeira, o vetor zero ocorre na metade do tempo e essas ocorrências são misturadas aleatoriamente com os vetores diferentes de zero. Mesmo uma pequena amostra verá vetores zero e diferentes de zero. Mas a amostragem de Gibbs alternará entre retornar apenas o vetor zero por longos períodos (aproximadamente em uma linha) e, em seguida, apenas vetores diferentes de zero por longos períodos (aproximadamente em uma linha). Portanto, a convergência para a distribuição verdadeira é extremamente lenta, exigindo muito mais do que etapas; executar todas essas etapas não é computacionalmente viável em um período de tempo razoável. A lenta convergência aqui pode ser vista como consequência da maldição da dimensionalidade . Um problema como esse pode ser resolvido pela amostragem de bloco de todo o vetor de 100 bits de uma vez. (Isso pressupõe que o vetor de 100 bits faz parte de um conjunto maior de variáveis. Se esse vetor for a única coisa sendo amostrada, então a amostragem de bloco é equivalente a não fazer amostragem de Gibbs, o que por hipótese seria difícil.)

Programas

  • JAGS ( Just another Gibbs sampler ) é um programa GPL para análise de modelos hierárquicos Bayesianos usando Markov Chain Monte Carlo.
  • Church é um software livre para realizar inferência de Gibbs sobre distribuições arbitrárias que são especificadas como programas probabilísticos.

Notas

Referências