Análise de componentes independentes - Independent component analysis

No processamento de sinais , a análise de componentes independentes ( ICA ) é um método computacional para separar um sinal multivariado em subcomponentes aditivos. Isso é feito assumindo que os subcomponentes são, potencialmente, sinais não gaussianos e que são estatisticamente independentes uns dos outros. O ICA é um caso especial de separação cega da fonte . Um exemplo de aplicação comum é o " problema de coquetel " de ouvir a fala de uma pessoa em uma sala barulhenta.

Introdução

ICA em quatro vídeos misturados aleatoriamente. Topo: Os vídeos de origem original. Meio: Quatro misturas aleatórias usadas como entrada para o algoritmo. Abaixo: Os vídeos reconstruídos.

A análise de componentes independentes tenta decompor um sinal multivariado em sinais não gaussianos independentes. A título de exemplo, o som costuma ser um sinal composto pela adição numérica, a cada tempo t, de sinais de várias fontes. A questão então é se é possível separar essas fontes contribuintes do sinal total observado. Quando a suposição de independência estatística está correta, a separação cega ICA de um sinal misto dá resultados muito bons. Também é usado para sinais que não devem ser gerados por mixagem para fins de análise.

Uma aplicação simples do ICA é o " problema da festa ", em que os sinais de fala subjacentes são separados de uma amostra de dados que consiste em pessoas conversando simultaneamente em uma sala. Normalmente, o problema é simplificado assumindo que não há atrasos de tempo ou ecos. Observe que um sinal filtrado e atrasado é uma cópia de um componente dependente e, portanto, a suposição de independência estatística não é violada.

Pesos de mistura para construir os sinais observados dos componentes podem ser colocados em uma matriz. Uma coisa importante a considerar é que, se as fontes estiverem presentes, pelo menos observações (por exemplo, microfones se o sinal observado for de áudio) são necessárias para recuperar os sinais originais. Quando há um número igual de observações e sinais de origem, a matriz de mistura é quadrada ( ). Outros casos de subdeterminado ( ) e sobredeterminado ( ) foram investigados.

O fato de a separação ICA de sinais mistos dar resultados muito bons é baseado em duas suposições e três efeitos da mistura de sinais de origem. Duas suposições:

  1. Os sinais da fonte são independentes uns dos outros.
  2. Os valores em cada sinal de origem têm distribuições não gaussianas.

Três efeitos da mistura de sinais de origem:

  1. Independência: de acordo com a suposição 1, os sinais de origem são independentes; no entanto, suas misturas de sinal não são. Isso ocorre porque as misturas de sinais compartilham os mesmos sinais de origem.
  2. Normalidade: De acordo com o Teorema do Limite Central , a distribuição de uma soma de variáveis ​​aleatórias independentes com variância finita tende a uma distribuição Gaussiana.
    Em termos gerais, uma soma de duas variáveis ​​aleatórias independentes geralmente tem uma distribuição mais próxima de Gaussiana do que qualquer uma das duas variáveis ​​originais. Aqui, consideramos o valor de cada sinal como a variável aleatória.
  3. Complexidade: A complexidade temporal de qualquer mistura de sinal é maior do que a de seu sinal de fonte constituinte mais simples.

Esses princípios contribuem para o estabelecimento básico do ICA. Se os sinais extraídos de um conjunto de misturas forem independentes e tiverem histogramas não gaussianos ou de baixa complexidade, eles devem ser sinais de origem.

Definindo a independência do componente

O ICA encontra os componentes independentes (também chamados de fatores, variáveis ​​latentes ou fontes) maximizando a independência estatística dos componentes estimados. Podemos escolher uma das muitas maneiras de definir um proxy para independência, e essa escolha governa a forma do algoritmo ICA. As duas definições mais amplas de independência para ICA são

  1. Minimização de informações mútuas
  2. Maximização da não gaussianidade

A família de algoritmos ICA de Minimization- of - Mutual information (MMI) usa medidas como Divergência de Kullback-Leibler e entropia máxima . A família não gaussiana de algoritmos ICA, motivada pelo teorema do limite central , usa curtose e negentropia .

Algoritmos típicos para ICA usam centralização (subtrair a média para criar um sinal de média zero), clareamento (geralmente com a decomposição de autovalor ) e redução de dimensionalidade como etapas de pré-processamento a fim de simplificar e reduzir a complexidade do problema para o algoritmo iterativo real. O branqueamento e a redução da dimensão podem ser alcançados com a análise do componente principal ou decomposição de valor singular . O clareamento garante que todas as dimensões sejam tratadas igualmente a priori antes que o algoritmo seja executado. Algoritmos bem conhecidos para ICA incluem infomax , FastICA , JADE e análise de componente independente do kernel , entre outros. Em geral, o ICA não pode identificar o número real de sinais de origem, uma ordenação exclusivamente correta dos sinais de origem, nem a escala adequada (incluindo o sinal) dos sinais de origem.

O ICA é importante para a separação cega de sinais e tem muitas aplicações práticas. Está intimamente relacionado (ou mesmo a um caso especial de) a busca por um código fatorial dos dados, ou seja, uma nova representação de valor vetorial de cada vetor de dados, de modo que seja codificado exclusivamente pelo vetor de código resultante (sem perdas codificação), mas os componentes do código são estatisticamente independentes.

Definições matemáticas

A análise de componentes independentes lineares pode ser dividida em casos sem ruído e com ruído, onde o ICA sem ruído é um caso especial de ICA com ruído. A ACI não linear deve ser considerada como um caso separado.

Definição geral

Os dados são representados pela observada vector aleatório e os componentes escondidas como o vector aleatório A tarefa é transformar os dados observados utilizando uma transformação linear estática como num vector de componentes independentes maximamente medidos por alguma função de independência.

Modelo gerativo

ICA linear sem ruído

Os componentes do vector aleatório observado são geradas como uma soma dos componentes independentes , :

ponderado pelos pesos de mistura .

O mesmo modelo generativo pode ser escrito na forma de vetor como , onde o vetor aleatório observado é representado pelos vetores de base . Os vetores de base formam as colunas da matriz de mistura e a fórmula gerativa pode ser escrita como , onde .

Dados o modelo e as realizações (amostras) do vetor aleatório , a tarefa é estimar a matriz de mistura e as fontes . Isso é feito calculando os vetores de forma adaptativa e configurando uma função de custo que maximiza a não gaussianidade do calculado ou minimiza a informação mútua. Em alguns casos, o conhecimento a priori das distribuições de probabilidade das fontes pode ser usado na função de custo.

As fontes originais podem ser recuperadas multiplicando os sinais observados pelo inverso da matriz de mistura , também conhecida como matriz de não mistura. Aqui, assume-se que a matriz de mistura é quadrada ( ). Se o número de vetores de base for maior que a dimensionalidade dos vetores observados,, a tarefa é supercompleta, mas ainda pode ser resolvida com o pseudoinverso .

ICA linear ruidoso

Com a suposição adicional de ruído gaussiano de média zero e não correlacionado , o modelo ICA assume a forma .

ICA não linear

A mistura das fontes não precisa ser linear. Usando uma função de mistura não linear com parâmetros, o modelo ICA não linear é .

Identificabilidade

Os componentes independentes são identificáveis ​​até uma permutação e escala das fontes. Essa identificação requer que:

  • No máximo uma das fontes é gaussiana,
  • O número de misturas observados, , deve ser pelo menos tão grande como o número de componentes estimados : . É equivalente a dizer que a matriz de mistura deve ser de ordem completa para que sua inversa exista.

Binário ICA

Uma variante especial do ICA é o ICA binário, no qual as fontes de sinal e os monitores estão na forma binária e as observações dos monitores são misturas disjuntivas de fontes binárias independentes. O problema mostrou ter aplicações em muitos domínios, incluindo diagnóstico médico , atribuição de vários clusters , tomografia de rede e gerenciamento de recursos da Internet .

Let Ser o conjunto de variáveis ​​binárias de monitores e ser o conjunto de variáveis ​​binárias de fontes. As conexões fonte-monitor são representadas pela matriz de mixagem (desconhecida) , onde indica que o sinal da i -ésima fonte pode ser observado pelo j- ésimo monitor. O sistema funciona da seguinte forma: a qualquer momento, se uma fonte estiver ativa ( ) e estiver conectada ao monitor ( ), o monitor observará alguma atividade ( ). Formalmente, temos:

onde é o booleano AND e o booleano OR. Observe que o ruído não é modelado explicitamente, em vez disso, pode ser tratado como fontes independentes.

O problema acima pode ser resolvido heuristicamente assumindo que as variáveis ​​são contínuas e executando o FastICA em dados de observação binários para obter a matriz de mistura (valores reais) e, em seguida, aplicar técnicas de números redondos para obter os valores binários. Esta abordagem mostrou produzir um resultado altamente impreciso.

Outro método é usar programação dinâmica : quebrar recursivamente a matriz de observação em suas submatrizes e executar o algoritmo de inferência nessas submatrizes. A observação chave que leva a este algoritmo é a submatriz de onde corresponde à matriz de observação imparcial de componentes ocultos que não têm conexão com o -ésimo monitor. Os resultados experimentais mostram que esta abordagem é precisa em níveis moderados de ruído.

A estrutura Binária ICA generalizada apresenta uma formulação de problema mais ampla que não exige nenhum conhecimento do modelo generativo. Em outras palavras, esse método tenta decompor uma fonte em seus componentes independentes (o máximo possível e sem perder nenhuma informação) sem nenhuma suposição prévia sobre a forma como foi gerada. Embora esse problema pareça bastante complexo, ele pode ser resolvido com precisão com um algoritmo de árvore de busca branch and bound ou fortemente limitado superior com uma única multiplicação de uma matriz com um vetor.

Métodos para separação cega de fonte

Perseguição de projeção

As misturas de sinais tendem a ter funções de densidade de probabilidade gaussiana e os sinais de origem tendem a ter funções de densidade de probabilidade não gaussiana. Cada sinal de origem pode ser extraído de um conjunto de misturas de sinal, tomando o produto interno de um vetor de peso e aquelas misturas de sinal onde este produto interno fornece uma projeção ortogonal das misturas de sinal. O desafio restante é encontrar esse vetor de peso. Um tipo de método para fazer isso é a busca por projeção .

A busca por projeção busca uma projeção por vez, de modo que o sinal extraído seja o menos gaussiano possível. Isto contrasta com a ICA, que tipicamente extrai M sinais simultaneamente a partir de M misturas de sinal, o que requer uma estimativa M × M matriz desmistura. Uma vantagem prática da busca de projeção sobre ICA é que menos de sinais M podem ser extraídos se necessário, onde cada sinal de origem é extraído de misturas de sinais M usando um vetor de peso de elemento M.

Podemos usar a curtose para recuperar o sinal de múltiplas fontes, encontrando os vetores de peso corretos com o uso da busca de projeção.

A curtose da função de densidade de probabilidade de um sinal, para uma amostra finita, é calculada como

onde é a média da amostra dos sinais extraídos. A constante 3 garante que os sinais Gaussianos tenham curtose zero, os sinais Super-Gaussianos tenham curtose positiva e os sinais Sub-Gaussianos tenham curtose negativa. O denominador é a variação de e garante que a curtose medida leve em consideração a variação do sinal. O objetivo da busca por projeção é maximizar a curtose e tornar o sinal extraído o menos normal possível.

Usando a curtose como medida de não normalidade, podemos agora examinar como a curtose de um sinal extraído de um conjunto de misturas M varia conforme o vetor de peso gira em torno da origem. Dada nossa suposição de que cada sinal de origem é supergaussiano, esperaríamos:

  1. a curtose do sinal extraído deve ser máxima precisamente quando .
  2. a curtose do sinal extraído ser máxima quando for ortogonal aos eixos projetados ou , porque sabemos que o vetor de peso ideal deve ser ortogonal a um eixo transformado ou .

Para sinais de mistura de fontes múltiplas, podemos usar curtose e ortogonalização de Gram-Schmidt (GSO) para recuperar os sinais. Dadas as misturas de sinais M em um espaço M- dimensional, o GSO projeta esses pontos de dados em um espaço ( M-1 ) -dimensional usando o vetor de peso. Podemos garantir a independência dos sinais extraídos com o uso de GSO.

Para encontrar o valor correto de , podemos usar o método de gradiente descendente . Em primeiro lugar, clareamos os dados e os transformamos em uma nova mistura , que tem variância unitária e . Este processo pode ser alcançado aplicando a decomposição de valor singular a ,

Reescalonando cada vetor e deixe . O sinal extraído por um vetor ponderado é . Se o vetor de peso w tem comprimento unitário, então a variância de y também é 1, isto é . A curtose pode, portanto, ser escrita como:

O processo de atualização para é:

onde é uma pequena constante para garantir que converge para a solução ótima. Após cada atualização, normalizamos , configuramos e repetimos o processo de atualização até a convergência. Também podemos usar outro algoritmo para atualizar o vetor de peso .

Outra abordagem é usar negentropia em vez de curtose. Usar a neguentropia é um método mais robusto do que a curtose, pois a curtose é muito sensível a outliers. Os métodos de negentropia são baseados em uma propriedade importante da distribuição gaussiana: uma variável gaussiana tem a maior entropia entre todas as variáveis ​​aleatórias contínuas de igual variância. Esta é também a razão pela qual queremos encontrar as variáveis ​​mais não-chinesas. Uma prova simples pode ser encontrada na entropia diferencial .

y é uma variável aleatória Gaussiana da mesma matriz de covariância de x

Uma aproximação para negentropia é

Uma prova pode ser encontrada nos documentos originais de Comon; foi reproduzido no livro Independent Component Analysis, de Aapo Hyvärinen, Juha Karhunen e Erkki Oja. Essa aproximação também sofre do mesmo problema que a curtose (sensibilidade a outliers). Outras abordagens foram desenvolvidas.

Uma escolha de e são

e

Baseado em infomax

O Infomax ICA é essencialmente uma versão paralela e multivariada da busca por projeção. Enquanto a busca por projeção extrai uma série de sinais, um de cada vez, de um conjunto de misturas de sinais M , o ICA extrai os sinais M em paralelo. Isso tende a tornar o ICA mais robusto do que a busca por projeção.

O método de busca de projeção usa ortogonalização de Gram-Schmidt para garantir a independência do sinal extraído, enquanto o ICA usa infomax e estimativa de máxima verossimilhança para garantir a independência do sinal extraído. A não normalidade do sinal extraído é obtida atribuindo um modelo apropriado, ou anterior, para o sinal.

O processo de ICA baseado em infomax em suma é: dado um conjunto de misturas de sinais e um conjunto de funções de distribuição cumulativa (cdfs) de modelo independente idêntico , buscamos a matriz de desmisturação que maximiza a entropia conjunta dos sinais , onde estão os sinais extraídos por . Dado o ótimo , os sinais têm entropia máxima e, portanto, são independentes, o que garante que os sinais extraídos também sejam independentes. é uma função invertível e é o modelo do sinal. Observe que se a função de densidade de probabilidade do modelo de sinal de origem corresponder à função de densidade de probabilidade do sinal extraído , então maximizar a entropia conjunta de também maximiza a quantidade de informação mútua entre e . Por esse motivo, o uso de entropia para extrair sinais independentes é conhecido como infomax .

Considere a entropia da variável vetorial , onde é o conjunto de sinais extraídos pela matriz de não mistura . Para um conjunto finito de valores amostrados de uma distribuição com pdf , a entropia de pode ser estimada como:

A pdf conjunta pode ser mostrado estar relacionado com a pdf conjunta dos sinais extraídos pela forma multivariada:

onde está a matriz Jacobiana . Temos , e é o pdf assumido para sinais de origem , portanto,

Portanto,

Sabemos que quando , é de distribuição uniforme e está maximizada. Desde a

onde é o valor absoluto do determinante do matix não misturado . Portanto,

tão,

uma vez que , e maximizar não afeta , então podemos maximizar a função

para alcançar a independência do sinal extraído.

Se houver M pdfs marginais da pdf da junta do modelo são independentes e usam o pdf do modelo comumente super-gaussiano para os sinais de origem , então temos

Na soma, dada uma mistura de sinal observada , o conjunto correspondente de sinais extraídos e modelo de sinal de origem , podemos encontrar a matriz de desmistura ideal e tornar os sinais extraídos independentes e não gaussianos. Como na situação de busca de projeção, podemos usar o método de gradiente descendente para encontrar a solução ótima da matriz de não mistura.

Com base na estimativa de máxima verossimilhança

Estimativa de máxima verossimilhança (MLE) é uma ferramenta estatística padrão para encontrar valores de parâmetros (por exemplo, a matriz de não mistura) que fornece o melhor ajuste de alguns dados (por exemplo, os sinais extraídos) para um determinado modelo (por exemplo, a função de densidade de probabilidade conjunta assumida (pdf)de sinais de origem).

O "modelo" de ML inclui a especificação de um pdf, que neste caso é o pdf dos sinais de origem desconhecida . Usando o ML ICA , o objetivo é encontrar uma matriz unmixing que produza sinais extraídos com uma pdf conjunta tão semelhante quanto possível à pdf conjunta dos sinais de fonte desconhecidos .

O MLE é, portanto, baseado na suposição de que se a pdf do modelo e os parâmetros do modelo estiverem corretos, uma alta probabilidade deve ser obtida para os dados que foram realmente observados. Por outro lado, se estiver longe dos valores de parâmetro corretos, uma baixa probabilidade dos dados observados seria esperada.

Usando MLE , chamamos a probabilidade dos dados observados para um determinado conjunto de valores de parâmetros do modelo (por exemplo, uma pdf e uma matriz ) a probabilidade dos valores dos parâmetros do modelo dados os dados observados.

Definimos uma função de verossimilhança de :

Isso é igual à densidade de probabilidade em , desde .

Assim, se desejarmos encontrar um que é mais provável de ter gerado as misturas observadas dos sinais de fonte desconhecidos com pdf, então precisamos apenas encontrar aquele que maximiza a probabilidade . A matriz unmixing que maximiza a equação é conhecida como MLE da matriz unmixing ótima.

É uma prática comum usar a probabilidade de log , porque é mais fácil de avaliar. Como o logaritmo é uma função monotônica, o que maximiza a função também maximiza seu logaritmo . Isso nos permite pegar o logaritmo da equação acima, o que produz a função log de verossimilhança

Se substituirmos um modelo pdf de alta curtose comumente usado para os sinais de origem, então temos

Essa matriz que maximiza essa função é a estimativa de máxima verossimilhança .

História e antecedentes

A estrutura geral inicial para a análise de componentes independentes foi introduzida por Jeanny Hérault e Bernard Ans a partir de 1984, posteriormente desenvolvida por Christian Jutten em 1985 e 1986, e refinada por Pierre Comon em 1991, e popularizada em seu artigo de 1994. Em 1995, Tony Bell e Terry Sejnowski apresentou um algoritmo ICA rápido e eficiente baseado em infomax , um princípio introduzido por Ralph Linsker em 1987.

Existem muitos algoritmos disponíveis na literatura que fazem ICA. Muito utilizado, inclusive em aplicações industriais, é o algoritmo FastICA, desenvolvido por Hyvärinen e Oja, que utiliza a curtose como função de custo. Outros exemplos estão relacionados à separação cega da fonte, onde uma abordagem mais geral é usada. Por exemplo, pode-se abandonar a suposição de independência e separar sinais mutuamente correlacionados, portanto, sinais estatisticamente "dependentes". Sepp Hochreiter e Jürgen Schmidhuber mostraram como obter ICA não linear ou separação da fonte como um subproduto da regularização (1999). Seu método não requer conhecimento a priori sobre o número de fontes independentes.

Formulários

O ICA pode ser estendido para analisar sinais não físicos. Por exemplo, o ICA foi aplicado para descobrir tópicos de discussão em um pacote de arquivos de listas de notícias.

Alguns aplicativos ICA estão listados abaixo:

Análise de componentes independentes em EEGLAB
  • imagens ópticas de neurônios
  • classificação de pico neuronal
  • reconhecimento de rosto
  • modelando campos receptivos de neurônios visuais primários
  • previsão dos preços do mercado de ações
  • comunicações de telefone móvel
  • detecção baseada na cor da maturação de tomates
  • remoção de artefatos, como piscar de olhos, dos dados de EEG .
  • análise de mudanças na expressão gênica ao longo do tempo em experimentos de sequenciamento de RNA de célula única .
  • estudos da rede de estado de repouso do cérebro.
  • astronomia e cosmologia

Veja também

Notas

Referências

links externos