Modelo de mistura - Mixture model

Em estatística , um modelo de mistura é um modelo probabilístico para representar a presença de subpopulações em uma população geral, sem exigir que um conjunto de dados observado identifique a subpopulação à qual pertence uma observação individual. Formalmente, um modelo de mistura corresponde à distribuição de mistura que representa a distribuição de probabilidade de observações na população geral. No entanto, embora os problemas associados com "distribuições de mistura" se relacionem com a derivação das propriedades da população geral daquelas das subpopulações, "modelos de mistura" são usados ​​para fazer inferências estatísticas sobre as propriedades das subpopulações dadas apenas observações sobre o população agrupada, sem informações de identidade da subpopulação.

Os modelos de mistura não devem ser confundidos com modelos para dados composicionais , ou seja, dados cujos componentes são restritos a somar a um valor constante (1, 100%, etc.). No entanto, os modelos composicionais podem ser pensados ​​como modelos de mistura, onde membros da população são amostrados aleatoriamente. Por outro lado, os modelos de mistura podem ser considerados modelos composicionais, em que o tamanho total da população de leitura foi normalizado para 1.

Estrutura

Modelo de mistura geral

Um modelo de mistura de dimensão finita típico é um modelo hierárquico que consiste nos seguintes componentes:

  • N variáveis ​​aleatórias que são observadas, cada uma distribuída de acordo com uma mistura de K componentes, com os componentes pertencendo à mesma família paramétrica de distribuições (por exemplo, todos normais , todos Zipfian , etc.), mas com parâmetros diferentes
  • N variáveis ​​latentes aleatórias especificando a identidade do componente da mistura de cada observação, cada uma distribuída de acordo com uma distribuição categórica K -dimensional
  • Um conjunto de K pesos de mistura, que são probabilidades que somam 1.
  • Um conjunto de parâmetros K , cada um especificando o parâmetro do componente da mistura correspondente. Em muitos casos, cada "parâmetro" é na verdade um conjunto de parâmetros. Por exemplo, se os componentes da mistura são distribuições gaussianas , haverá uma média e uma variância para cada componente. Se os componentes da mistura são distribuições categóricas (por exemplo, quando cada observação é um símbolo de um alfabeto finito de tamanho V ), haverá um vetor de probabilidades V somando 1.

Além disso, em um cenário bayesiano , os pesos e parâmetros da mistura serão eles próprios variáveis ​​aleatórias e distribuições anteriores serão colocadas sobre as variáveis. Nesse caso, os pesos são tipicamente vistos como um vetor aleatório K -dimensional extraído de uma distribuição de Dirichlet (o conjugado anterior da distribuição categórica), e os parâmetros serão distribuídos de acordo com seus respectivos conjugados anteriores.

Matematicamente, um modelo básico de mistura paramétrica pode ser descrito da seguinte forma:

Em uma configuração bayesiana, todos os parâmetros são associados a variáveis ​​aleatórias, da seguinte maneira:

Esta caracterização usa F e H para descrever distribuições arbitrárias sobre observações e parâmetros, respectivamente. Tipicamente H será o anterior conjugado de F . As duas escolhas mais comuns de F são Gaussiana, também conhecida como " normal " (para observações com valor real) e categórica (para observações discretas). Outras possibilidades comuns para a distribuição dos componentes da mistura são:

  • Distribuição binomial , para o número de "ocorrências positivas" (por exemplo, sucessos, votos sim, etc.) dado um número fixo de ocorrências totais
  • Distribuição multinomial , semelhante à distribuição binomial, mas para contagens de ocorrências de múltiplas vias (por exemplo, sim / não / talvez em uma pesquisa)
  • Distribuição binomial negativa , para observações do tipo binomial, mas onde a quantidade de interesse é o número de falhas antes que um determinado número de sucessos ocorra
  • Distribuição de Poisson , para o número de ocorrências de um evento em um determinado período de tempo, para um evento que se caracteriza por uma taxa fixa de ocorrência
  • Distribuição exponencial , para o tempo antes de ocorrer o próximo evento, para um evento que é caracterizado por uma taxa fixa de ocorrência
  • Distribuição logarítmica , para números reais positivos que se supõe que cresçam exponencialmente, como receitas ou preços
  • Distribuição normal multivariada (também conhecida como distribuição multivariada de Gauss), para vetores de resultados correlacionados que são individualmente distribuídos por Gauss
  • Distribuição t de Student multivariada , para vetores de resultados correlacionados de cauda pesada
  • Um vetor de valores distribuídos de Bernoulli , correspondendo, por exemplo, a uma imagem em preto e branco, com cada valor representando um pixel; veja o exemplo de reconhecimento de manuscrito abaixo

Exemplos específicos

Modelo de mistura gaussiana

Modelo de mistura gaussiana não bayesiana usando notação de placas . Quadrados menores indicam parâmetros fixos; círculos maiores indicam variáveis ​​aleatórias. Formas preenchidas indicam valores conhecidos. A indicação [K] significa um vector de tamanho K .

Um modelo de mistura gaussiana não bayesiana típico tem a seguinte aparência:

Modelo de mistura Bayesiana Gaussiana usando notação de placas . Quadrados menores indicam parâmetros fixos; círculos maiores indicam variáveis ​​aleatórias. Formas preenchidas indicam valores conhecidos. A indicação [K] significa um vector de tamanho K .

Uma versão bayesiana de um modelo de mistura gaussiana é a seguinte:

Animação do processo de agrupamento para dados unidimensionais usando um modelo de mistura Bayesiana Gaussiana onde as distribuições normais são desenhadas a partir de um processo de Dirichlet . Os histogramas dos clusters são mostrados em cores diferentes. Durante o processo de estimativa de parâmetro, novos clusters são criados e crescem nos dados. A legenda mostra as cores do cluster e o número de pontos de dados atribuídos a cada cluster.

Modelo de mistura gaussiana multivariada

Um modelo de mistura gaussiana Bayesiana é comumente estendido para ajustar um vetor de parâmetros desconhecidos (denotados em negrito), ou distribuições normais multivariadas. Em uma distribuição multivariada (ou seja, modelando um vetor com N variáveis ​​aleatórias), pode-se modelar um vetor de parâmetros (como várias observações de um sinal ou manchas dentro de uma imagem) usando um modelo de mistura gaussiana distribuição anterior no vetor de estimativas dado por

onde o i ésimo componente do vetor é caracterizado por distribuições normais com matrizes de pesos , médias e covariâncias . Para incorporar este prior a uma estimativa bayesiana, o prior é multiplicado pela distribuição conhecida dos dados condicionada aos parâmetros a serem estimados. Com esta formulação, a distribuição posterior também é um modelo de mistura gaussiana da forma

com novos parâmetros e que são atualizados usando o algoritmo EM . Embora as atualizações de parâmetros baseadas em EM sejam bem estabelecidas, fornecer as estimativas iniciais para esses parâmetros é atualmente uma área de pesquisa ativa. Observe que esta formulação produz uma solução de forma fechada para a distribuição posterior completa. As estimativas da variável aleatória podem ser obtidas por meio de um de vários estimadores, como a média ou o máximo da distribuição posterior.

Essas distribuições são úteis para assumir formas de patch-wise de imagens e clusters, por exemplo. No caso de representação de imagem, cada Gaussiana pode ser inclinada, expandida e distorcida de acordo com as matrizes de covariância . Uma distribuição gaussiana do conjunto é adequada para cada patch (geralmente de tamanho 8x8 pixels) na imagem. Notavelmente, qualquer distribuição de pontos em torno de um cluster (ver k -means ) pode receber componentes Gaussianos suficientes com precisão, mas dificilmente mais de K = 20 componentes são necessários para modelar com precisão uma determinada distribuição de imagem ou cluster de dados.

Modelo de mistura categórica

Modelo de mistura categórica não bayesiana usando notação de placas . Quadrados menores indicam parâmetros fixos; círculos maiores indicam variáveis ​​aleatórias. Formas preenchidas indicam valores conhecidos. A indicação [K] significa um vetor de tamanho K ; da mesma forma para [V].

Um modelo de mistura não bayesiano típico com observações categóricas se parece com este:

  • como acima
  • como acima
  • como acima
  • dimensão de observações categóricas, por exemplo, tamanho do vocabulário de palavras
  • probabilidade de componente de observação do item
  • vetor de dimensão composto por deve somar 1

As variáveis ​​aleatórias:


Modelo de mistura categórica bayesiana usando notação de placas . Quadrados menores indicam parâmetros fixos; círculos maiores indicam variáveis ​​aleatórias. Formas preenchidas indicam valores conhecidos. A indicação [K] significa um vetor de tamanho K ; da mesma forma para [V].

Um modelo típico de mistura Bayesiana com observações categóricas se parece com isto:

  • como acima
  • como acima
  • como acima
  • dimensão de observações categóricas, por exemplo, tamanho do vocabulário de palavras
  • probabilidade de componente de observação do item
  • vetor de dimensão composto por deve somar 1
  • hiperparâmetro de concentração compartilhada de para cada componente
  • hiperparâmetro de concentração de

As variáveis ​​aleatórias:


Exemplos

Um modelo financeiro

A distribuição normal é plotada usando diferentes médias e variâncias

Os retornos financeiros geralmente se comportam de maneira diferente em situações normais e durante tempos de crise. Um modelo de mistura para dados de retorno parece razoável. Às vezes, o modelo usado é um modelo de salto-difusão ou uma mistura de duas distribuições normais. Veja Economia financeira # Desafios e críticas para um contexto mais detalhado.

Preços de casas

Suponha que observamos os preços de N casas diferentes. Diferentes tipos de casas em diferentes bairros terão preços muito diferentes, mas o preço de um determinado tipo de casa em um determinado bairro (por exemplo, uma casa de três quartos em um bairro de classe média moderada) tenderá a se agrupar bastante próximo à média. Um modelo possível de tais preços seria assumir que os preços são descritos com precisão por um modelo de mistura com K componentes diferentes, cada um distribuído como uma distribuição normal com média e variância desconhecidas, com cada componente especificando uma combinação particular de tipo de casa / vizinhança. Ajustar esse modelo aos preços observados, por exemplo, usando o algoritmo de maximização da expectativa , tenderia a agrupar os preços de acordo com o tipo de casa / bairro e revelar a dispersão dos preços em cada tipo / bairro. (Observe que para valores como preços ou rendas que são garantidamente positivos e que tendem a crescer exponencialmente , uma distribuição log-normal pode na verdade ser um modelo melhor do que uma distribuição normal.)

Tópicos em um documento

Suponha que um documento seja composto por N palavras diferentes de um vocabulário total de tamanho V , onde cada palavra corresponde a um dos K tópicos possíveis. A distribuição de tais palavras pode ser modelada como uma mistura de K diferentes distribuições categóricas V- dimensionais . Um modelo desse tipo é comumente denominado modelo de tópico . Observe que a maximização da expectativa aplicada a tal modelo normalmente deixará de produzir resultados realistas, devido (entre outras coisas) ao número excessivo de parâmetros . Alguns tipos de suposições adicionais são normalmente necessários para obter bons resultados. Normalmente, dois tipos de componentes adicionais são adicionados ao modelo:

  1. Uma distribuição anterior é colocada sobre os parâmetros que descrevem as distribuições de tópicos, usando uma distribuição de Dirichlet com um parâmetro de concentração que é definido significativamente abaixo de 1, de modo a encorajar distribuições esparsas (onde apenas um pequeno número de palavras têm probabilidades significativamente diferentes de zero).
  2. Algum tipo de restrição adicional é colocado sobre as identidades de tópico das palavras, para tirar vantagem do agrupamento natural.
  • Por exemplo, uma cadeia de Markov poderia ser colocada nas identidades do tópico (isto é, as variáveis ​​latentes especificando o componente de mistura de cada observação), correspondendo ao fato de que palavras próximas pertencem a tópicos semelhantes. (Isso resulta em um modelo de Markov oculto , especificamente aquele em que uma distribuição anterior é colocada sobre as transições de estado que favorece as transições que permanecem no mesmo estado.)
  • Outra possibilidade é o modelo de alocação de Dirichlet latente , que divide as palavras em D documentos diferentes e assume que em cada documento apenas um pequeno número de tópicos ocorre com alguma frequência.

Reconhecimento de caligrafia

O exemplo a seguir é baseado em um exemplo em Christopher M. Bishop , Pattern Recognition and Machine Learning .

Imagine que recebemos uma imagem N × N em preto e branco que é conhecida por ser uma varredura de um dígito escrito à mão entre 0 e 9, mas não sabemos qual dígito está escrito. Podemos criar um modelo de mistura com diferentes componentes, onde cada componente é um vetor de tamanho de distribuições de Bernoulli (um por pixel). Esse modelo pode ser treinado com o algoritmo de maximização de expectativa em um conjunto não rotulado de dígitos escritos à mão e agrupará efetivamente as imagens de acordo com o dígito que está sendo escrito. O mesmo modelo poderia então ser usado para reconhecer o dígito de outra imagem simplesmente mantendo os parâmetros constantes, computando a probabilidade da nova imagem para cada dígito possível (um cálculo trivial) e retornando o dígito que gerou a maior probabilidade.

Avaliação da precisão do projétil (também conhecido como provável erro circular, CEP)

Os modelos de mistura se aplicam ao problema de direcionar vários projéteis a um alvo (como em aplicações de defesa aérea, terrestre ou marítima), onde as características físicas e / ou estatísticas dos projéteis diferem dentro dos vários projéteis. Um exemplo pode ser tiros de vários tipos de munições ou tiros de vários locais direcionados a um alvo. A combinação de tipos de projéteis pode ser caracterizada como um modelo de mistura gaussiana. Além disso, uma medida bem conhecida de precisão para um grupo de projéteis é o provável erro circular (CEP), que é o número R tal que, em média, metade do grupo de projéteis cai dentro do círculo de raio R em torno do alvo apontar. O modelo de mistura podem ser usadas para determinar (ou estimar) o valor de R . O modelo de mistura captura adequadamente os diferentes tipos de projéteis.

Aplicações diretas e indiretas

O exemplo financeiro acima é uma aplicação direta do modelo de mistura, uma situação na qual assumimos um mecanismo subjacente de modo que cada observação pertence a uma de várias fontes ou categorias diferentes. Este mecanismo subjacente pode ou não ser observável. Nessa forma de mistura, cada uma das fontes é descrita por uma função de densidade de probabilidade de componente, e seu peso de mistura é a probabilidade de que uma observação venha desse componente.

Em uma aplicação indireta do modelo de mistura, não assumimos tal mecanismo. O modelo de mistura é usado simplesmente por suas flexibilidades matemáticas. Por exemplo, uma mistura de duas distribuições normais com meios diferentes pode resultar em uma densidade com dois modos , que não é modelada por distribuições paramétricas padrão. Outro exemplo é dado pela possibilidade de distribuições de mistura para modelar caudas mais grossas do que as gaussianas básicas, de modo a ser uma candidata à modelagem de eventos mais extremos. Quando combinada com consistência dinâmica , essa abordagem tem sido aplicada à avaliação de derivativos financeiros na presença do sorriso de volatilidade no contexto de modelos de volatilidade locais . Isso define nossa aplicação.

Manutenção preditiva

O clustering baseado em modelo de mistura também é usado predominantemente na identificação do estado da máquina na manutenção preditiva . Os gráficos de densidade são usados ​​para analisar a densidade de recursos dimensionais elevados. Se densidades de multi-modelo são observadas, então assume-se que um conjunto finito de densidades é formado por um conjunto finito de misturas normais. Um modelo multivariado de mistura gaussiana é usado para agrupar os dados característicos em k número de grupos, onde k representa cada estado da máquina. O estado da máquina pode ser normal, desligado ou com defeito. Cada cluster formado pode ser diagnosticado usando técnicas como análise espectral. Nos últimos anos, isso também tem sido amplamente utilizado em outras áreas, como detecção precoce de falhas.

Segmentação de imagem difusa

Um exemplo de mistura gaussiana na segmentação de imagem com histograma cinza

No processamento de imagens e na visão computacional, os modelos tradicionais de segmentação de imagens freqüentemente atribuem a um pixel apenas um padrão exclusivo. Na segmentação difusa ou suave, qualquer padrão pode ter certa "propriedade" sobre qualquer pixel único. Se os padrões são gaussianos, a segmentação difusa resulta naturalmente em misturas gaussianas. Combinados com outras ferramentas analíticas ou geométricas (por exemplo, transições de fase sobre limites difusivos), esses modelos de mistura espacialmente regularizados podem levar a métodos de segmentação mais realistas e computacionalmente eficientes.

Registro de conjunto de pontos

Modelos de mistura probabilística, como modelos de mistura gaussiana (GMM), são usados ​​para resolver problemas de registro de conjuntos de pontos em processamento de imagem e campos de visão computacional. Para registro de conjunto de pontos de pares , um conjunto de pontos é considerado como os centróides de modelos de mistura e o outro conjunto de pontos é considerado como pontos de dados (observações). Os métodos mais modernos são, por exemplo, variação de ponto coerente (CPD) e modelos de mistura de distribuição t de Student (TMM). O resultado de uma pesquisa recente demonstra a superioridade dos modelos de mistura híbrida (por exemplo, combinação de t-distritubção de Student e distribuição de Watson / distribuição Bingham para modelar posições espaciais e orientações de eixos separadamente) em comparação com CPD e TMM, em termos de robustez inerente, precisão e capacidade discriminativa .

Identificabilidade

Identificabilidade refere-se à existência de uma caracterização única para qualquer um dos modelos da classe (família) considerada. Os procedimentos de estimativa podem não ser bem definidos e a teoria assintótica pode não ser válida se um modelo não for identificável.

Exemplo

Seja J a classe de todas as distribuições binomiais com n = 2 . Então, uma mistura de dois membros de J teria

e p 2 = 1 - p 0 - p 1 . Claramente, dados p 0 e p 1 , não é possível determinar o modelo de mistura acima exclusivamente, pois há três parâmetros ( π , θ 1 , θ 2 ) a serem determinados.

Definição

Considere uma mistura de distribuições paramétricas da mesma classe. Deixar

ser a classe de todas as distribuições de componentes. Então, o casco convexo K de J define a classe de todas as misturas finitas de distribuições em J :

K é dito ser identificável se todos os seus membros são únicos, isto é, dados dois membros p e p ' em K , sendo as misturas de k distribuições e k' distribuições respectivamente em J , temos p = p ' se e apenas se, em primeiro lugar, k = k ′ e, em segundo lugar, podemos reordenar as somas de modo que a i = a i e ƒ i = ƒ i para todo i .

Estimativa de parâmetros e identificação do sistema

Modelos de mistura paramétrica são freqüentemente usados ​​quando sabemos a distribuição Y e podemos amostrar de X , mas gostaríamos de determinar os valores a i e θ i . Tais situações podem surgir em estudos em que amostramos uma população composta por várias subpopulações distintas.

É comum pensar na modelagem de mistura de probabilidade como um problema de dados ausentes. Uma maneira de entender isso é assumir que os pontos de dados em consideração têm "associação" em uma das distribuições que estamos usando para modelar os dados. Quando começamos, essa associação é desconhecida ou ausente. O trabalho da estimativa é conceber parâmetros apropriados para as funções do modelo que escolhemos, com a conexão aos pontos de dados sendo representados como sua associação nas distribuições do modelo individual.

Uma variedade de abordagens para o problema de decomposição de misturas tem sido proposta, muitas das quais enfocam métodos de máxima verossimilhança, como maximização da expectativa (EM) ou estimativa de máximo a posteriori (MAP). Geralmente, esses métodos consideram separadamente as questões de identificação do sistema e estimativa de parâmetros; os métodos para determinar o número e a forma funcional dos componentes dentro de uma mistura são distintos dos métodos para estimar os valores dos parâmetros correspondentes. Alguns desvios notáveis ​​são os métodos gráficos descritos em Tarter e Lock e, mais recentemente, técnicas de comprimento mínimo de mensagem (MML), como Figueiredo e Jain e, até certo ponto, as rotinas de análise de padrões de correspondência de momento sugeridas por McWilliam e Loh (2009).

Maximização da expectativa (EM)

A maximização da expectativa (EM) é aparentemente a técnica mais popular usada para determinar os parâmetros de uma mistura com um determinado número de componentes a priori . Esta é uma maneira particular de implementar a estimativa de máxima verossimilhança para este problema. EM é de particular apelo para misturas normais finitas onde expressões de forma fechada são possíveis, como no seguinte algoritmo iterativo de Dempster et al. (1977)

com as probabilidades posteriores

Assim, com base na estimativa atual para os parâmetros, a probabilidade condicional para uma dada observação x ( t ) sendo gerada a partir do estado s é determinada para cada t = 1, ..., N  ; Sendo N o tamanho da amostra. Os parâmetros são então atualizados de modo que os novos pesos dos componentes correspondam à probabilidade condicional média e a média e covariância de cada componente seja a média ponderada específica do componente da média e covariância de toda a amostra.

Dempster também mostrou que cada iteração EM sucessiva não diminuirá a probabilidade, uma propriedade não compartilhada por outras técnicas de maximização baseadas em gradiente. Além disso, EM naturalmente incorpora dentro de si restrições no vetor de probabilidade, e para tamanhos de amostra suficientemente grandes, definição positiva da covariância itera. Essa é uma vantagem importante, pois os métodos explicitamente restritos incorrem em custos computacionais extras para verificar e manter os valores apropriados. Teoricamente EM é um algoritmo de primeira ordem e, como tal, converge lentamente para uma solução de ponto fixo. Redner e Walker (1984) argumentam a favor dos métodos superlineares e de segunda ordem de Newton e quase Newton e relatam uma convergência lenta em ME com base em seus testes empíricos. Eles admitem que a convergência na probabilidade foi rápida, mesmo que a convergência nos próprios valores dos parâmetros não fosse. Os méritos relativos de EM e outros algoritmos vis-à-vis convergência foram discutidos em outra literatura.

Outras objeções comuns ao uso de EM são que ele tem uma propensão para identificar de forma espúria máximos locais, bem como exibir sensibilidade aos valores iniciais. Pode-se resolver esses problemas avaliando EM em vários pontos iniciais no espaço de parâmetro, mas isso é computacionalmente caro e outras abordagens, como o método EM de recozimento de Udea e Nakano (1998) (em que os componentes iniciais são essencialmente forçados a se sobrepor, fornecer uma base menos heterogênea para suposições iniciais), pode ser preferível.

Figueiredo e Jain observam que a convergência para valores de parâmetros 'sem sentido' obtidos na fronteira (onde a quebra das condições de regularidade, por exemplo, Ghosh e Sen (1985)) é freqüentemente observada quando o número de componentes do modelo excede o ótimo / verdadeiro. Com base nisso, eles sugerem uma abordagem unificada para estimativa e identificação em que o n inicial é escolhido para exceder em muito o valor ótimo esperado. Sua rotina de otimização é construída por meio de um critério de comprimento mínimo de mensagem (MML) que elimina efetivamente um componente candidato se não houver informações suficientes para suportá-lo. Desta forma, é possível sistematizar as reduções em n e considerar a estimativa e a identificação em conjunto.

O algoritmo de Maximização da Expectação pode ser utilizado para calcular os parâmetros de um modelo de distribuição paramétrica mistura (a uma i e θ i ). É um algoritmo iterativo com duas etapas: uma etapa de expectativa e uma etapa de maximização . Exemplos práticos de EM e Modelagem de Misturas estão incluídos nas demonstrações SOCR .

A etapa de expectativa

Com suposições iniciais para os parâmetros de nosso modelo de mistura, a "associação parcial" de cada ponto de dados em cada distribuição constituinte é calculada calculando os valores esperados para as variáveis ​​de associação de cada ponto de dados. Ou seja, para cada ponto de dados x j e distribuição Y i , o valor de adesão y i , j é:

A etapa de maximização

Com os valores de expectativa em mãos para associação ao grupo, as estimativas de plug-in são recalculadas para os parâmetros de distribuição.

Os coeficientes de mistura a i são as médias dos valores de pertinência sobre os N pontos de dados.

Os parâmetros do modelo de componente θ i também são calculados pela maximização da expectativa usando pontos de dados x j que foram ponderados usando os valores de pertinência. Por exemplo, se θ é uma média μ

Com as novas estimativas para a i e θ i ' s, o passo expectativa é repetido para recalcular novos valores da sociedade. Todo o procedimento é repetido até que os parâmetros do modelo convirjam.

Cadeia de Markov Monte Carlo

Como alternativa ao algoritmo EM, os parâmetros do modelo de mistura podem ser deduzidos usando amostragem posterior conforme indicado pelo teorema de Bayes . Isso ainda é considerado um problema de dados incompletos, em que a associação de pontos de dados são os dados ausentes. Um procedimento iterativo de duas etapas conhecido como amostragem de Gibbs pode ser usado.

O exemplo anterior de uma mistura de duas distribuições gaussianas pode demonstrar como o método funciona. Como antes, são feitas suposições iniciais dos parâmetros para o modelo de mistura. Em vez de calcular associações parciais para cada distribuição elementar, um valor de associação para cada ponto de dados é extraído de uma distribuição de Bernoulli (ou seja, será atribuído ao primeiro ou ao segundo Gaussiano). O parâmetro Bernoulli θ é determinado para cada ponto de dados com base em uma das distribuições constituintes. Os dados da distribuição geram associações de membros para cada ponto de dados. Estimadores de plug-in podem então ser usados ​​como na etapa M de EM para gerar um novo conjunto de parâmetros de modelo de mistura e a etapa de desenho binomial repetida.

Momento correspondente

O método de combinação de momento é uma das técnicas mais antigas para determinar os parâmetros da mistura, que remonta ao trabalho seminal de Karl Pearson de 1894. Nesta abordagem, os parâmetros da mistura são determinados de forma que a distribuição composta tenha momentos correspondentes a algum valor dado. Em muitos casos, a extração de soluções para as equações de momento pode apresentar problemas algébricos ou computacionais não triviais. Além disso, a análise numérica por Day indicou que tais métodos podem ser ineficientes em comparação com o EM. No entanto, tem havido um interesse renovado neste método, por exemplo, Craigmile e Titterington (1998) e Wang.

McWilliam e Loh (2009) consideram a caracterização de uma cópula de mistura normal hipercubóide em grandes sistemas dimensionais para os quais EM seria computacionalmente proibitivo. Aqui, uma rotina de análise de padrão é usada para gerar dependências de cauda multivariadas consistentes com um conjunto de momentos univariados e (em certo sentido) bivariados. O desempenho deste método é então avaliado usando dados de log-retorno de patrimônio com estatísticas de teste de Kolmogorov-Smirnov sugerindo um bom ajuste descritivo.

Método espectral

Alguns problemas na estimativa do modelo de mistura podem ser resolvidos usando métodos espectrais . Em particular, torna-se útil se os pontos de dados x i forem pontos no espaço real de alta dimensão e as distribuições ocultas forem conhecidas como log-côncavas (como a distribuição gaussiana ou distribuição exponencial ).

Os métodos espectrais de aprendizagem de modelos de mistura são baseados no uso de Decomposição de Valores Singulares de uma matriz que contém pontos de dados. A ideia é considerar os k principais vetores singulares, onde k é o número de distribuições a serem aprendidas. A projeção de cada ponto de dados para um subespaço linear abrangido por esses vetores agrupa pontos originados da mesma distribuição muito próximos, enquanto pontos de distribuições diferentes ficam distantes.

Uma característica distintiva do método espectral é que ele nos permite provar que se as distribuições satisfazem certas condições de separação (por exemplo, não muito próximas), então a mistura estimada será muito próxima da verdadeira com alta probabilidade.

Métodos Gráficos

Tarter e Lock descrevem uma abordagem gráfica para a identificação de mistura na qual uma função kernel é aplicada a um gráfico de frequência empírico para reduzir a variância intra-componente. Desta forma, pode-se identificar mais facilmente os componentes com meios diferentes. Embora este método λ não requeira conhecimento prévio do número ou forma funcional dos componentes, seu sucesso depende da escolha dos parâmetros do kernel que, até certo ponto, implicitamente embute suposições sobre a estrutura do componente.

Outros métodos

Alguns deles podem até mesmo provavelmente aprender misturas de distribuições de cauda pesada, incluindo aquelas com variância infinita (ver links para artigos abaixo). Nesse cenário, os métodos baseados em EM não funcionariam, uma vez que a etapa de Expectativa divergia devido à presença de outliers .

Uma simulação

Para simular uma amostra de tamanho N que é de uma mistura de distribuições F i , i = 1 an , com probabilidades p i (soma =  p i  = 1):

  1. Gere N números aleatórios a partir de uma distribuição categórica de tamanho n e probabilidades p i para i = 1 = a  n . Eles informam de qual dos F i cada um dos N valores virá. Denote por m i a quantidade de números aleatórios atribuídos à i ésima categoria.
  2. Para cada i , gere m i números aleatórios a partir da distribuição F i .

Extensões

Em uma configuração Bayesiana , níveis adicionais podem ser adicionados ao modelo gráfico definindo o modelo de mistura. Por exemplo, no modelo de tópico de alocação de Dirichlet latente comum , as observações são conjuntos de palavras tiradas de D documentos diferentes e os componentes de mistura K representam tópicos que são compartilhados entre documentos. Cada documento possui um conjunto diferente de pesos de mistura, que especificam os tópicos predominantes naquele documento. Todos os conjuntos de pesos de mistura compartilham hiperparâmetros comuns .

Uma extensão muito comum é conectar as variáveis ​​latentes que definem as identidades dos componentes da mistura em uma cadeia de Markov , em vez de assumir que são variáveis ​​aleatórias distribuídas de forma idêntica e independentes . O modelo resultante é denominado modelo de Markov oculto e é um dos modelos hierárquicos sequenciais mais comuns. Numerosas extensões de modelos ocultos de Markov foram desenvolvidas; veja o artigo resultante para mais informações.

História

Distribuições de misturas e o problema de decomposição de misturas, ou seja, a identificação de seus componentes constituintes e seus parâmetros, foram citados na literatura já em 1846 (Quetelet in McLachlan, 2000), embora uma referência comum seja feita ao trabalho de Karl Pearson (1894) como o primeiro autor a abordar explicitamente o problema de decomposição na caracterização de atributos não normais de proporções entre a testa e o comprimento do corpo em populações de caranguejos da costa fêmeas. A motivação para este trabalho foi fornecida pelo zoólogo Walter Frank Raphael Weldon que havia especulado em 1893 (em Tarter e Lock) que a assimetria no histograma dessas razões poderia sinalizar divergência evolutiva. A abordagem de Pearson foi ajustar uma mistura univariada de dois normais aos dados, escolhendo os cinco parâmetros da mistura de forma que os momentos empíricos correspondessem aos do modelo.

Embora seu trabalho tenha tido sucesso na identificação de duas subpopulações potencialmente distintas e na demonstração da flexibilidade das misturas como uma ferramenta de correspondência de momento, a formulação exigia a solução de um polinômio de 9º grau (não-normal) que na época representava um desafio computacional significativo.

Os trabalhos subsequentes se concentraram em abordar esses problemas, mas foi somente com o advento do computador moderno e a popularização das técnicas de parametrização da Máxima Verossimilhança (MLE) que a pesquisa realmente decolou. Desde então, tem havido um vasto corpo de pesquisa sobre o assunto, abrangendo áreas como pesquisa pesqueira , agricultura , botânica , economia , medicina , genética , psicologia , paleontologia , eletroforese , finanças , geologia e zoologia .

Veja também

Mistura

Modelos hierárquicos

Detecção de outlier

Referências

Leitura adicional

Livros em modelos de mistura

Aplicação de modelos de mistura gaussiana

  1. Reynolds, DA; Rose, RC (janeiro de 1995). "Identificação robusta de alto-falantes independentes de texto usando modelos de alto-falantes com mistura gaussiana". IEEE Transactions on Speech and Audio Processing . 3 (1): 72–83. doi : 10.1109 / 89.365379 .
  2. Permuter, H .; Francos, J .; Jermyn, IH (2003). Modelos de mistura gaussiana de textura e cor para recuperação de banco de dados de imagens . IEEE International Conference on Acoustics, Speech, and Signal Processing , 2003. Proceedings (ICASSP '03). doi : 10.1109 / ICASSP.2003.1199538 .
  3. Lemke, Wolfgang (2005). Modelagem e estimativa de estrutura de termos em uma estrutura de espaço de estados . Springer Verlag. ISBN 978-3-540-28342-3.
  4. Brigo, Damiano ; Mercurio, Fabio (2001). Difusões deslocadas e de mistura para modelos de sorriso analiticamente tratáveis . Mathematical Finance - Bachelier Congress 2000. Proceedings. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (junho de 2002). "A dinâmica da mistura lognormal e a calibração para a volatilidade do mercado sorri". Revista Internacional de Finanças Teóricas e Aplicadas . 5 (4): 427. CiteSeerX  10.1.1.210.4165 . doi : 10.1142 / S0219024902001511 .
  6. Spall, JC; Maryak, JL (1992). "Um estimador bayesiano viável de quantis para precisão de projéteis a partir de dados não-iid". Journal of the American Statistical Association . 87 (419): 676–681. doi : 10.1080 / 01621459.1992.10475269 . JSTOR  2290205 .
  7. Alexander, Carol (dezembro de 2004). "Difusão de mistura normal com volatilidade incerta: modelagem de efeitos de sorriso de curto e longo prazo" (PDF) . Journal of Banking & Finance . 28 (12): 2957–80. doi : 10.1016 / j.jbankfin.2003.10.017 .
  8. Stylianou, Yannis; Pantazis, Yannis; Calderero, Felipe; Larroy, Pedro; Severin, François; Schimke, Sascha; Bonal, Rolando; Matta, Federico; Valsamakis, Athanasios (2005). Verificação biométrica multimodal baseada em GMM (PDF) .
  9. Chen, J .; Adebomi, 0.E .; Olusayo, OS; Kulesza, W. (2010). A Avaliação da Probabilidade de Mistura Gaussiana Hipótese Densidade abordagem para rastreamento de múltiplos alvos . IEEE International Conference on Imaging Systems and Techniques , 2010. doi : 10.1109 / IST.2010.5548541 .

links externos